Pine 发自 凹非寺
(资料图)
量子位 | 公众号 QbitAI
重度互联网爱好者们福利来了!
你是否遇到过这种情况:一个梗图寻遍全网都还没找到。
现在外网一位小哥搞出了一个互联网规模的Meme搜索引擎,库里有近两千万个梗图,涵盖各种小众文化。
检索关键词,或者上传相似图片,结果就能秒出!
若遇到Meme库里没有的梗图,还可共享上传。
网友六年都没找到的梗图,在这个小哥的网站上2分钟就找到了。
然鹅这样一个秒秒钟出梗图的背后的装置确实酱婶儿的:
(这不会有点太简陋了吧)
这时候可能就有盆友好奇,这个粗糙的装置是如何做到快速检索梗图的?
那不妨一起来看看这个“Meme搜索引擎”是如何搭建的~
灵感来自iPhone图片识别
要编写一个Meme搜索引擎,最重要也是最先面临的一个问题就是:如何准确识别梗图中的文字信息?
用专业一点的话来讲就是:如何拥有一个可伸缩的OCR(光学字符识别 )?
OCR的解决方案倒是有现成的,不过现有的要么就是遇到比较抽象的梗图识别效果不太好,要么就是太贵。
举个简单的栗子
,比如说用Tesseract OCR来提取图像中的文字,测试时,只能用非常标准的字体和配色方案识别Meme图,不然的话就会出现下面这种情况。
这是原图:
这是识别出来的文字:
30 BLUE man41;? S4-5?’flew/ — V [IL ‘ . “,2; g” .’Sj /B”f;T”EArmDand [red] mvslmunlm: sawmills
emmmmmm
不过灵感很快就来了,小哥偶然间在iPhone给别人发一个验证码图片时。
这是验证码图片:
这是复制过来的文字:
并且iPhone的这个功能已经在iOS Vision框架中公开了,可伸缩OCR的问题这不就有解决办法了嘛~
不过关于Vision框架目前还没有现成的开源代码插件,只能自己写了,具体代码小哥目前还没公布。
BUT,小哥还是总结了一下自己写代码时的方法经验,而且是针对一个从未用Swift写过任何正经东西的小白:
遇事不决Google之
Github上逆向工程各种Swift回购协议
请教懂iOS的朋友解决Xcode问题
……
最终东拼西凑,搞出了一个可行的解决方案:iOS Vision OCR服务器,仅在一部iPhone上就能运行。
识别文字信息这趴搞定了,接下来就轮到搜索环节了,相较于上一趴,这部分就简单多了。
小哥用的是ElasticSearch(已开源)和Postgres。
ElasticSearch拥有多节点能够有效避免故障的发生,并且能够在保证速度的情况下容纳数百万个Meme,不过这都是在牺牲了可靠性之后得到的。
而Postgres能够保证搜索结果的可靠性,但在超过一百万张图片的范围时,就会变得特别慢。
一个能保证速度,一个能保证质量,那……
Done!
在这其中,小哥用到了PGSync,它是一件中间件,可以用于同步从Postgres到Elasticsearch/OpenSearch的数据,具体的搜索流程如下:
到这里,整个搜索引擎的搭建已初见雏形,但还没结束……
视频Meme也能支持
因为Meme不仅仅靠梗图来传递,有时候还会有视频。
这倒也简单,直接将视频分割成截图集,之后就能像普通的Meme图一样被识别了。
具体来说,小哥编写了一个小型微服务,通过ffmpeg(它可以执行音频和视频多种格式的录影、转换、串流功能),从视频中截取10个均匀间隔的图片。
然后将截图文件发送到iPhone OCR服务,最终视频文件中会有每个屏幕截图OCR后的结果集。
不过拥有视频检索功能后,毫无疑问OCR服务的负载就重了,一个视频OCR的工作量几乎是一般梗图的10倍。
虽然说OCR应用服务器的速度很快,但也禁不住这样薅,于是iOS OCR服务升级了(多加几台手机),于是最终的装置就变开头图中的那样了。
最终具体的流程图小哥也贴心地给出来了:
小哥的这个Meme搜索引擎出来之后,网友们也都直呼太棒了。
当然也有网友给出了一些建议,认为当前的搜索引擎太文本化了,而很多Meme图本身就没多少文字,更多时候都是“意会”。
对此,小哥本人也作出了回应,称之后还会继续优化搜索引擎:
考虑将图像转换为描述的文本……
不过值得一提的是,目前这个搜索引擎还不太支持中文,中文的梗图搜索效果不是很好,但既然小哥已经将构建方法给出来了,就期待一波万能的网友吧。(手动狗头)
如果你对这个项目感兴趣的话,可以戳下文链接~
传送门:
https://findthatmeme.com/
参考链接:
https://findthatmeme.com/blog/2023/01/08/image-stacks-and-iphone-racks-building-an-internet-scale-meme-search-engine-Qzrz7V6T.html
梗图搜索神器来了!还能搜视频,网友:找了六年的梗图两分钟解决
1月21日,李湘在社交平台上更新一则动态,晒出自己和女儿在英国顶级餐厅过年的视频,母女俩品尝着美食,...
张兰在前面领舞,两个年轻助理在身后紧跟着她的步伐,现场氛围十分欢乐和谐,为直播间的观众带来无限快...
1月20日,光伏概念股集体拉升。截至10:54,权重股阳光电源(行情300274,诊股)涨6 81%,新能源ETF(51616...
(记者孟湘君张乃月)当地时间1月19日,世界见证了一项新的历史纪录诞生——美国联邦政府债务规模,突破31...
1月20日,有网友在社交平台上晒出,偶遇向佐郭碧婷夫妇一家四口同游香港迪士尼,女方发际线后移明显,妈...
1月20日,在万众期待下,2023年兔年央视春晚的节目单终于揭开了神秘的面纱!从主持天团、节目编排、再到...
1月22日(大年初一)新春佳节之际,天津卫视《你看谁来了》节目邀请到著名歌手白雪、原艺、林萍、刘大成...
1月20日,歌手曹格在社交平台上分享了和女儿的同框视频,12岁女儿Grace穿着打扮非常时尚,看上去变化很...
县城里的学校,运动会是仅有的活动。小学时的项目充满了趣味性,而升上初中,便成了真正的竞技。当年我...
1月20日,某知名媒体晒出了一则明星聚会的视频,并询问网友:“大腕齐聚,还能认出她是谁吗?”画面中,...
影片由邓超、俞白眉导演,邓超、孙俪、许魏洲、段博文、蔡宜达、丁冠森、孙浠伦、阿如那等领衔主演。厦...
”“程耳导演独具匠心、另辟蹊径,打造出一部高级的谍战巨制,必将在电影史上留下浓墨重彩的一笔。”电...
随着春节到来,北京各剧院的演员们,都铆足劲儿为京城的观众演出他们最拿手的节目。年前这几天不演戏,...
1月20日,演员尹相杰晒出了一则和爱妻郭永美外出置办年货视频,二人分工明确,隔着屏幕都感受到了幸福的...
辞旧迎新之际,央视频推出《young在春晚》,以“东南西北团圆年”为情感基调,将怀旧经典与流行文化相融...
参考消息网1月20日报道俄罗斯《消息报》网站1月18日刊登题为《经济学家分析印度经济赶上中国的机会》的...
1月20日,乔爸晒出前去为儿子乔任梁扫墓的视频,并配文称“新年快乐,乔宝”。动态一出,迅速登上热搜,...
1月20日,中国播音网官方账号在社交平台上更新一则动态,曝光央视美女主持人王嘉宁在后台接受采访的视频...
【网络中国节·春节】徽州过大年|黄山区文旅文创周边上新啦,让我们看看都有啥
19日从山西省考古研究院获悉,阳泉市高新区一建设工地发掘出三座元代砖雕仿木构穹隆顶纪年壁画墓。墓室...
1月20日,配音圈大佬姜广涛被捕事件后续被曝出。消息一出,迅速登上热搜,引起吃瓜群众们的关注。据爆料...
9届赛会冠军德约科维奇次轮意外丢掉一盘,仍用6-1,6-7(5),6-2,6-0的比分力克法国资格赛选手夸库德,...
这一次,张艺谋除了邀请到沈腾和易烊千玺两位颇具号召力的演员加盟之外,还请来了张译、雷佳音、岳云鹏...
1月19日,港星骆达华在社交平台上更新一则动态,曝光妻子女儿去机场接他之前拍摄的视频,配文:“原来你...
截至2023年1月19日收盘,北纬科技(002148)报收于5 77元,下跌1 87%,换手率5 97%,成交量26 96万手,成交额1 56亿元。
1月19日,有网友在社交平台上晒出在日本偶遇鹿晗与关晓彤外出旅游的照片,两人甜蜜相处力破外界分手传闻...
东吴证券最新研报表示,2022年国内电影票房仅为2019年的47%,相比2021年国内73%及2022年北美65%、日本70...
作者:揭书宜[天眼查数据显示,我国有60多万家烟花爆竹相关企业。其中89 4%的相关企业为个体工商户。][...
1月19日,知名歌手田震在社交平台上晒出一段视频,分享自己在湖南凤凰古城游玩的画面,引发网友热议。视...
环球报道:补上一段回忆
来源 :哔哩哔哩
Copyright © 2015-2022 国华娱乐网版权所有 备案号:京ICP备2021034106号-22 联系邮箱:55 16 53 8 @qq.com