蔣旭峰(資深金融人士)
圖靈測試
圖靈測試是測試人(多人)在與被測試者(一個人和一台機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者随意提問。問過一些問題後,如果測試人中超過30%的人不能根據答複确認被測試者哪個是人,哪個是機器,那麼這台機器就通過了測試,并被認為具有人類智能。這個看似無厘頭的測試,是由現代計算機科學之父英國人艾倫·麥席森·圖靈在60多年前提出的。
1950年,阿蘭·圖靈在那篇名垂青史的論文《計算機械與智力》的開篇說:“我建議大家考慮這個問題:‘機器能思考嗎?’”但是由于我們很難精确地定義思考,所以圖靈提出了他所謂的“模仿遊戲”:
一場正常的模仿遊戲有ABC三人參與,A是男性,B是女性,兩人坐在房間裡;C是房間外的裁判,他的任務是要判斷出這兩人誰是男性誰是女性。男方是帶着任務來的:他要欺騙裁判,讓裁判做出錯誤的判斷。
那麼,圖靈問:“如果一台機器取代了這個遊戲裡的男方的地位,會發生什麼?這台機器騙過審問者的概率會比人類男女參加時更高嗎?這個問題取代了我們原本的問題:‘機器能否思考?’”
圖靈測試用來判定房間裡面的是不是機器。
驗證碼
在2000年初,互聯網的浪潮剛剛在全世界掀起,當時最讓網民苦惱的一件事就是垃圾郵件太多了。甚至有人還特意制作了程序,可以終日無休地大量注冊新郵箱賬号,然後用來發送垃圾推廣郵件。
一位名叫 Luis 的天才程序員就想到了法子,他發現計算機程序很難認清手寫的文本,而人類可以輕松地看懂。可以在注冊賬号的時候設一道門檻,必須輸入 “ 歪曲 ” 的文本才能完成注冊,用來識别計算機和真人。驗證碼應運而生。
驗證碼CAPTCHA(Completely Automated Public Turing Test to Tell Computers and Humans Apart, 全自動區分計算機和人類的公開圖靈測試),又名HIP(Human Interaction Proof,人類交互行為證明),顧名思義就是由計算機來判斷:誰是人類?誰是計算機?最重要的目的,是識别出人類。
得益于科技的發展,從早期判斷屏幕背後是不是計算機演變到現在反過來我們需要判斷躲在屏幕背後的到底是不是人。怕屏幕背後是機器不是人,同一句話在不同時代卻有截然不同解讀。這,是不是很諷刺。
驗證碼的演變
我們每個人都輸入過驗證碼,想必下面這些場景大家并不陌生。
驗證碼從最初的考眼力,有點兒測色盲圖的感覺,也有1、l(小寫L)、I(大寫I);0(數字)與O(字母)傻傻分不清楚;
逐步轉變成考手抖,還特意告訴你“恭喜你,你的速度超過了90%的用戶”來贊賞你,鼓勵你;
進而轉變成找不同,沒點知識儲備還真選不清圖片。
最終變成考腦力,沒點知識還登錄不了了。
一切的一切都是為了讓身後的計算機不具備識别能力,從而确定操作者是人。随着安全系數上升,短信驗證碼、掃碼驗證,刷臉驗證陸續登場,在危機四伏的互聯網世界裡,層層把關着用戶的信息安全。為了人機鬥,可謂煞費苦心。
驗證碼意想不到的應用
據統計,全世界的網民一天共要輸入的近 2 億次驗證碼,這可是龐大的輸入量。如果按一個驗證碼4個詞估算,一天就是8億詞的輸入。按一本書平均50000字,相當于全世界網民一天就完成了4000本書的錄入工作。總有聰明的人會在不經意的平常中發現和創造奇特的應用。
還是那個發明了驗證碼的天才 Luis,他發現許多公益組織在把舊書籍掃描成電子版,對計算機來說,那些斑駁的文字太難識别了。書籍的内容大部分是文本、驗證碼也是文本,把掃描版的書籍文本對接到驗證碼上,讓用戶來識别不就行了?于是乎一個叫做 reCAPTCHA 的新式驗證碼系統誕生了。
reCAPTCHA 會提供兩個單詞給用戶來識别。這兩個單詞都是書籍掃描版的一部分。
計算機其實已經知道第一個單詞是啥了,之所以要展示出來,就是為了測試一下你是不是真人。不過第二個單詞計算機暫時還沒能力認出來。面對這第二個單詞,一旦有 10 個人輸入了同樣的答案,那麼這答案就會被當作是正确答案。靠這種方法,reCAPTCHA 每年能成功數字化 230 多萬本舊書。
除此之外,你輸的驗證碼,還可能成為了人工智能訓練的養料。我們看到日常生活中圖像識别越來越便捷,識别率越來越高,除了機器學習自動叠代外,更多還是有無數人工在背後給模型做訓練。
和之前的書籍電子化一樣的套路,圖片中有些是機器已經能識别了,讓你點擊是為了确定你是人在操作,另外幾張是AI目前還難以識别,你點擊了就幫着機器建立了新的有效樣本,做了數據标注。在你費眼又費腦地輸入它們的時候,你其實是在為人工智能免費打工。
同樣的驗證碼,在不同人眼中有着不同的商業價值,所以埋頭苦幹的同時還真得擡頭望天啊!(本文為作者觀點,不代表本頭條号立場)
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!