tft每日頭條

 > 生活

 > 谷歌核心算法規定

谷歌核心算法規定

生活 更新时间:2024-08-20 09:14:41

谷歌核心算法規定(谷歌算法要逆天了)1

更多科技互聯網猛料,歡迎點擊右上角關注我~

記得上個星期,人民日報被删的那條 Twitter 鬧了不小風波。。

可惜虛晃一槍,什麼也沒有發生,倒是李彥宏的那條朋友圈很有意思~

谷歌核心算法規定(谷歌算法要逆天了)2

李總對百度的技術非常有信心,并自認為在中國,憑借技術和創新方面可以打敗谷歌,并不擔心谷歌入華。

結果轉天就被網友們打臉。。

谷歌核心算法規定(谷歌算法要逆天了)3

百度上的 “ 滑嫩 ”、“ 鮮嫩 ” 等全是美女圖片,而谷歌上搜索這些内容,出現的則是一些美食等。emmm。。高下立判。。

被爆料後,百度程序猿們加班加點,總算是把大家揪出來的敏感詞彙處理了。

可是,今天發生的一件事,讓差評君意識到,不僅僅是搜索算法,谷歌在另外一個方面早就超過了百度。。

下午差評君在調查黑産,用百度搜索了一個 QQ 号,網頁版的内容基本就是胡亂湊的,而圖片搜索空空如也,什麼結果也沒有。。

谷歌核心算法規定(谷歌算法要逆天了)4

不死心的差評君又用谷歌試了一下,結果。。

谷歌核心算法規定(谷歌算法要逆天了)5

給你們看一下大圖。。

谷歌核心算法規定(谷歌算法要逆天了)6

居然真的把差評君想要的搜索了出來,而且,因為這個 QQ 涉及黑産,所以騙子隻把它放在圖片裡,并沒有放到網頁上。

也就是說,Google 現在已經開始對互聯網上的圖片文本做了識别提取,并建立索引!

在我們的印象中,搜索引擎一般會基于圖片旁邊的文字描述給圖片打标簽,或者利用神經網絡識别圖片上的物體,并不會掃描讀取圖片上的文本内容。

用神經網絡給圖片分類:

谷歌核心算法規定(谷歌算法要逆天了)7

所以很多時候你搜索圖片上的文本,搜索引擎不會給你返回正确結果。

不知道什麼時候,谷歌已經偷摸給自己的搜索引擎升了個級!?

為了看一下谷歌的圖片識别文本已經達到什麼程度,差評君開啟了瘋狂驗證模式。。

首先,要驗證下,是不是圖片上數字都可以被識别出來~

Emmm,先搞一個身份證号搜索看看。這個是百度的結果:

谷歌核心算法規定(谷歌算法要逆天了)8

再用谷歌搜索一下?

谷歌核心算法規定(谷歌算法要逆天了)9

額。。有沒有感到一絲絲害怕?!想想自己有沒有曾經在網上上傳過身份證照片?如果被洩露到互聯網上,可以直接通過身份證号獲得身份證圖片,這後果有點嚴重。。

差評君借用了一個小夥伴的身份證前幾位,分别在百度和谷歌上搜索 “ 1201031993 ”,百度依然什麼也搜不出來,而谷歌返回了一堆結果。

這些圖片上無一例外的有 1201031993 這幾個數字。。

谷歌核心算法規定(谷歌算法要逆天了)10

令差評君意外的是,谷歌在對圖片文本提取時,已經不僅僅是用的最簡單最基礎的圖像識别。

像上面第二張圖片中那幾個數字是豎過來,但谷歌依舊識别正确,說明谷歌的識别算法會自動匹配文本的旋轉角度。。

谷歌核心算法規定(谷歌算法要逆天了)11

如果不是純數字,帶上英文呢?隻在圖片上有,網頁上沒有出現過的文本還真不好找,最後差評君試了個汽車圖片,把車牌号 “ A·K8896 ” 搜了一下。。

谷歌核心算法規定(谷歌算法要逆天了)12

嗯,百度出來的都是八竿子打不着的圖片,正常。

那。谷歌呢。。?

大家也可以試試自家的車牌能不能被搜到

谷歌核心算法規定(谷歌算法要逆天了)13

給,這是差評君十年份的膝蓋,請收下。。

這張圖片正是差評君随機找的一張汽車圖片,谷歌這項技術,連隐藏在車身下不那麼明顯的車牌号都揪了出來,夠強大。。

最後一個問題,谷歌能不能識别圖片中的中文?

經過試驗,還好還好,中文目前還是谷歌圖片未攻克的堡壘,目前看來,谷歌隻對圖片中的字母和數字進行了識别

搜索了文中第一個例子中圖片的中文,沒有返回該圖片:

谷歌核心算法規定(谷歌算法要逆天了)14

不過差評君好奇的是,谷歌搜索引擎是什麼時候開始識别圖片文本的?

谷歌沒有給出過官方消息,相關的讨論也寥寥無幾,2016 年的時候谷歌的大佬還否認過谷歌在識别圖片文本。

不過在去年 7 月的時候,有一個博客主跟差評君有相似的發現,所以至少去年谷歌就已經偷偷升了級~

谷歌核心算法規定(谷歌算法要逆天了)15

其實,谷歌很早就積累了圖片的文本識别相關技術—— OCR ( 光學字符識别 )。

這個技術本身并不難,最早谷歌将 OCR 應用在書籍掃描轉換文本上,這樣隻要你搜索書中的一句話,它就能推給你正确的書籍。

谷歌解析圖片文本的專利:

谷歌核心算法規定(谷歌算法要逆天了)16

現在,谷歌已經将這項技術應用在互聯網的所有圖片上。

差評君之所以感到驚訝,是因為我們每天要産生大量圖片,光在 Facebook 和 Instagram 上每天就産生近 4 億張圖片,微博上每天産生1.5 億張圖片,保守估計互聯網上每天要多出 8 億圖片。

而谷歌對每張圖片都進行 OCR 算法處理,獲取裡面的文本信息,這是一項海量的工程,消耗太大了。。但谷歌還是做到了。。

Google 實時翻譯也是用的 OCR 技術:

谷歌核心算法規定(谷歌算法要逆天了)17

這樣大大提高了大家使用搜索引擎的效率,讓大家更容易找到自己想要的結果~

不過在以前,正是因為大家默認搜索不出圖片上的文本,才會放心的把一些資料保存成圖片放到網上。

現在随着這項技術的成熟,恐怕圖片也不再保險。。誰能想到一個身份證号,就把身份證圖片都搜出來了呢?

如何兼顧技術和隐私,恐怕未來需要谷歌好好處理一下~

圖片來源:

1. 新視角,李明明

2. 北美留學生日報

3-5、7-15. 差評

6. damon

16. Techgyst

參考資料:

1.《用谷歌和百度同時搜索“鮮嫩、滑嫩、胸膜”等詞後…李彥宏赢了》,北美留學生日報

2.《 Google: No, We Don't Understand Text In Images 》,Barry Schwartz

3.《 How Much Data Do We Create Every Day? The Mind-Blowing Stats Everyone Should Read 》,Bernard Marr

4.《Does Google Read Text in Images? NEW Evidence Says Yes!》,Steve Toth

5.《互聯網上一天産生的流量,到底有多少?》,财經頭條

“ 吓得我趕緊把微博裡面的圖片都删了。。 ”

谷歌核心算法規定(谷歌算法要逆天了)18

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved