tft每日頭條

 > 生活

 > 目前已有人工智能通過圖靈測試

目前已有人工智能通過圖靈測試

生活 更新时间:2024-07-20 17:29:22

選自Scientific American

作者:Gary Marcus

機器之心編譯

參與:李澤南、黃小天、曹瑞

目前已有人工智能通過圖靈測試(圖靈測試壽終正寝)1

摘要

  • 在人們心中,艾倫·圖靈的「模仿遊戲」(一台機器作為被測試者試圖說服一名人類測試者自己是人而不是機器)長久以來被認為是人工智能的終極測試。

  • 圖靈測試雖沒有完全過時,但目前通過測試的 AI 借助的多是欺騙而不是真正的智能。人工智能專家宣稱,是時候用一系列方法取代圖靈測試了,這些方法可以全方位評估人工智能。

  • 真正的智能機器應能夠理解含糊不清的表述,把零件拼裝成家具,通過人類四年級的科學考試,甚至更多。這些任務對于機器的困難程度充分證明:抛開炒作不談,人類水準的人工智能依然遙不可及。

1950 年,艾倫·圖靈發明了一個迄今為止仍被稱為人工智能終極測試的思想實驗,它被稱為「模仿遊戲」,也就是後來廣為人知的圖靈測試。通過假定存在一個可以把自己僞裝成人類的計算機程序,我們現在稱之為聊天機器人(chat bot),圖靈設想了一個測試:機器施展自己的能力試圖說服一個人類測試者自己是人類,它需要回答有關詩歌的問題,甚至故意在計算問題上出錯。今天,在大衆眼中,圖靈測試常被看作一種界限,一種測量機器智能是否真正到來的手段。但它不應該如此:界限可以被通過——有時出于錯誤的原因。雖然短期内看,機器有可能騙過人類,但這種勝利很快會化為泡影,它們不太可能引出真正的人工智能。

測試 02:人類的标準化測試

人工智能将接受人類學生在小學、中學階段面臨的考試,不給任何寬限。這一方法是将語義理解和解決各類問題的任務聯系在一起的絕妙方式。這很像是圖靈測試,但前者更加簡單直接。隻需讓人工智能接受嚴格的标準化測試(如紐約市四年級科學考試的多選題),為機器配備足夠的輸入能力(如自然語言理解和機器視覺模塊)然後開始考試吧。

優點:多樣化且務實。和 Winograd 模式不同,标準測試相對簡單易行。而且因為沒有任何一種人類考試是為機器準備的,所以考題非常豐富,而有關常識的問題需要進行閱讀理解,有可能不存在獨一無二的答案。

缺點:不像谷歌背書的 Winograd 模式,這種測試面向人類,而且通過标準化考試并不一定意味着機器具有了「真正的」智能。

難度:中等。此前,由 Allen 人工智能研究所設計的 Aristo 系統在接受未遇到過的四年級科學考試時可以獲得平均 75%的分數。但那些試卷上都是沒有圖片的多項選擇題。「目前還沒有哪個系統能通過完整的四年級科學考試,」Allen 研究所的科學家在 AI Magazine 中寫道。

為何适用:解決現實世界的問題。「我們可以看到,目前還沒有哪個系統能夠在 8 年級的科學考試中取得及格的成績,但同時,我們又能看到 IBM Watson 幫助醫學院的研究人員攻克癌症的新聞,」Allen 人工智能研究所的首席執行官 Oren Etzioni 說道。「IBM 可能有了驚人的技術突破,也可能他們隻是在某個方面稍稍領先。」

目前已有人工智能通過圖靈測試(圖靈測試壽終正寝)2

測試 03:物理圖靈測試

大多數機器智能的測試方式集中在認知方面。而這個測試更像是實踐課:人工智能必須以有意義的方式在現實世界完成任務。這一測試分為兩個方向。在構建方向,一個具有實體的人工智能——機器人必須學會閱讀使用說明,将一堆部件組裝成實體(就像從宜家買回家具自己拼裝一樣);而探索方向則是一個開放的問題,需要人工智能發揮自己的創造力,使用手頭的積木來完成指定的任務(例如「建一堵牆」、「蓋一個房子」、「為房子加蓋一個車庫」)。這兩個方向都要求被測試的機器理解任務内容,找到解決方法。這種測試可以面向單獨的機器人,也可以面向機器人群組,甚至人類和機器人共存的小組。

優點:這一測試模拟現實世界中智能生物需要解決的問題——特别是在感知和行動方面,這是以往人工智能測試方法所或缺的。另外,這種測試很難作弊:「我不知道它存在什麼技巧,除非有些人能夠找到辦法讓人工智能在網上搜索出已經存在的類似建築物。」Nuance 的 Charles Ortiz 說道。

缺點:繁瑣、乏味且難以自動進行,除非機器可以在虛拟現實場景中進行測試。而且即使這樣可行,「機器人學家也會說(虛拟現實場景)隻是近似的環境,」Ortiz 說道。「在現實世界裡,如果你拿起一個組件,它可能會滑落,這或許是一個易于解決的問題。但在 VR 世界中很多條件都可能存在細微的差别。」

難度:科幻級。一個具有實體的人工智能可以自然地操縱物體,并能連貫地解釋自己的行為——這不就是《星球大戰》裡的機器人嗎。「讓機器人能像兒童一樣掌握這種能力是一個巨大的挑戰。」Ortiz 說道。

為何适用:想象一下通往人工智能的道路,有四個問題需要解決——感知、行動、認知和語言,而現在的研究計劃往往隻專注其一。

目前已有人工智能通過圖靈測試(圖靈測試壽終正寝)3

測試 04:I-Athlon

在一次部分或完全自動測試中,讓人工智能總結音頻文件中的内容,叙述視頻中發生的情節,即時翻譯自然語言同時執行其他任務。這是為了構建一個客觀的智能分數。其中,沒有人監督的自動化測試是這一方法的重點。将人類從評估機器智能的過程中剔除是一個有點諷刺的事,但 IBM 的人工智能研究者 Murray Campbell(前「深藍」開發成員)表示:對于人工智能的測試必須保證有效且可複現。建立一個算法來生成 AI 的智能分數也可以讓研究者們不用再依賴于「肯定存在認知偏差」的人類智能,它可以像标尺一樣具有統一的刻度。

優點:至少理論上客觀公正。一旦 I-Athlon 進行了測試并給出了評分,計算機會得到相應的評分和加權對比。它的判斷就像審查奧運會比賽沖線照片一樣公正。這種測試的多樣性也符合 IBM 研究者稱之為「廣義智能系統」的标準。

缺點:潛在的不可預見性。I-Athlon 算法可能會給人類研究者無法完全理解的人工智能系統打個高分。「如果一個人工智能系統(對人類而言)非常難以解釋,這種事情很有可能發生,」Campbell 解釋道。事實上,這一有關打分的黑箱問題在卷積神經網絡中已經在困擾着研究者了。

難度:未知。目前的系統在一些潛在的 I-Athlon 任務上表現的不錯,如圖像識别和語言翻譯方面。在另一些任務中,如對視頻内容進行解說或對圖标進行講解方面,人工智能仍然遠遠不能勝任。

為何适用:這種方式可以減少人類認知偏見對測量機器智能和量化工作的影響,而不是簡單地測試性能。

目前已有人工智能通過圖靈測試(圖靈測試壽終正寝)4

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved