機器之能,是機器之心旗下關注全球人工智能産業應用場景及商業化的内容賬号。歡迎關注與互動:almosthuman2017
這裡面蘊藏着Google的「10倍優秀」哲學。
整理 | 宇多田
大概我們仰望 Jeff Dean 等 Google 技術大神的心情,就像鄧布利多之于麻瓜一樣。
在 Google Brain(谷歌大腦)團隊極少面向公衆進行宣傳的前提下,Google每年在東京舉行的 APAC 技術活動,成為這群頂級工程師們為數不多向我們敞開實驗室大門的方式之一。
每一年,這場主要面向亞太地區的技術活動都有一個獨特的主題。而這一次,通過主題就能明顯看出,「往年滿滿的技術幹貨有了逐步『下沉』的趨勢」。
沒錯,「Made With AI」。Google 這次要講的,不是「AI 如何被拿來使用」,而是「AI 如何被所有普通人使用」的故事。
作為主角,圍繞着「應用」這個核心點,Jeff Dean 的演講内容更趨向于「科普化」。他有邏輯地回答了三個平時看似容易解答,但卻最容易忽略,甚至說不明白的問題:
1、人工智能到底是什麼?
2、我們究竟為什麼重視人工智能?
3、為什麼我們現在要重視它?
看完這篇完整的演講,你也許會完成「技術麻瓜」向「一年級魔法新生」的進階;也會了解到,一項颠覆性的技術,是如何為 Google 延伸出數十種不同的應用與産品的。
以下就是機器之能整理後的 Jeff Dean 演講:
我叫 Jeff Dean,我是 GoogleBrain 的負責人,我們團隊負責機器學習與人工智能的研發與應用。這是我第一次來到東京,我們是昨天才到的。機器學習可以使我們更加容易的獲得信息。
我們以谷歌翻譯為例,十年前,我們很難明白這個到底是什麼意思,因為它是日文的。如果現在我用谷歌翻譯就很容易了。下面我可以給大家來展示一下:
大家可以看到這是我的手機屏幕,打開谷歌翻譯,這是英文的翻譯,是緊急出口的意思,當然你也可以選擇其他的語言。即使我不會日語,我也可以在日本很輕松的旅遊。
我們的最終目标是以下幾點:
首先我們想利用人工智能和機器學習讓我們的産品更加實用;
第二我們希望幫助企業和外部開發者利用人工智能和機器學習進行創新;
第三,我們也希望為研究人員提供很好的工具,包括内部、外部的研究人員,來解決人類面臨的重大挑戰。
首先,給大家來回答三個重要的問題:
第一,人工智能到底是什麼?第二,我們為什麼重視人工智能?第三,我們為什麼現在重視它。人工智能的概念到底是什麼?
人工智能這個概念在計算機領域存在已久。在計算機發明之後,人們都想讓機器更加的智能,就像人類一樣進行理解和推理,并且完成人類的任務。
我們知道人工智能都是基于規則的,我們想要确定一些邏輯的規則和編碼,讓我們的機器更加智能。
但是在十幾二十年前我們就認識到了,把世界按照邏輯規則來編碼是不太可能的,因為我們很難制定一個規則編碼整個世界。因此,機器學習之所以變得這麼重要是因為機器學習能夠讓機器自我進行學習,觀察世界,學習規律,就像人類一樣,而這樣比僅僅寫代碼更加容易。
核心而言,機器學習是創造解決問題的系統的新方式。
我們知道這些機器學習通過數據集能夠自己解決問題,而不僅僅是寫代碼。對比很多年前的深藍和現在 AlphaGo 來看,他們采用的方法不一樣。
我們知道深藍是通過蠻力搜索去知道接下來這個棋應該怎麼走,但圍棋是一個非常複雜的遊戲,由于其複雜性很難窮盡算法,如果沒有足夠的計算能力去探索圍棋的世界,那麼機器所做的,是幫助你認識遊戲過程的規律,以及怎樣才能夠像人一樣有本能去思考如何走棋。
通過使用機器學習,機器能夠更好地學習人類玩遊戲,通過觀察來學會怎麼樣下圍棋,這就是阿爾法狗團隊在背後所遵循的邏輯。
機器學習就是教計算機學習,不一定要編程規則,我們隻需要給提供數據,這個系統從數據當中自我學習。
現在機器學習最流行的方式是神經網絡。神經網絡是探究生物大腦的運作然後進行學習,神經末源和其他神經末梢發生聯系,可以處理圖象。
第一層是和象素相聯系的,尋找不同的圖案。第一層可能放到了不同的邊緣,不同的清晰度,還包括顔色是棕色還是綠色的,再深一層我們可以看到第一層的輸出變成了第二層的輸入,可以認識在邊緣有一個綠色,到底是像耳朵還是眼睛。
我們怎麼樣對他進行訓練也是機器學習的一個核心:
我們可以看到這個圖象,比如說一隻貓,我們把它輸入到網絡中然後進行預測這個圖像究竟是什麼,是卡車,貓還是其他成千上萬種不同的類别。我們要了解這個模型最後的預測結果,如果正确,那就沒有問題,如果不正确我們要把這個模型拿過來做一些微調。
那下一次我們再進行預測,可能就會作出正确的選擇,他會認出這是一隻貓。通過成千上萬的培訓之後,他們還可以學會一些非常複雜的功能,從一些原始的象素到貓的正确标簽。
我們為什麼要這麼做呢?
因為當我們看到一個新的圖象的時候,比如說訓練的過程當中從來沒有見過這個圖象,那我們也可以對這個圖象作出預測。這是一個新的圖象,我們在這個模型裡面運行所有的像素,最後做出一個預測。
現在人工智能的體系和模型化能夠打出這個标簽,任何的一個圖象經過了這樣的模型,就會作出預測。如果在工作和培訓都沒有問題的情況下,就會作出最後的預測。
我們的神經網絡培訓輸入和輸出也有很多種,不僅僅是可以識别圖像,他們可以學習一些非常複雜的功能。我們還可以接收視頻和音頻的輸入,還可以把視頻音頻轉化為文本。
我們可以進行英文的問答,比如說把「你好嗎」「你好」轉化為另外一種語言。除了像素預測,我們還可以輸出整個句子。
例如:「藍黃的火車在運行」,這不僅僅是一個單一的類别,通過這個句子你可以知道這是一輛火車還是一輛卡車,它的顔色是黃藍色的等等,這是非常複雜的學習系統。因此人們對此功能感到激動。當提供正确數量的培訓,我們可以作出很多有意思的事情。我們的 CEO 表示現在 Google 把人工智能作為最優先的發展方向。
目前,我們在 AI/ML 這個領域有許多的研究。
在 2012 年 6 月發表的一篇論文中,我們使用了大規模神經網絡來識别視頻内容模式。當時的大多數研究中,使用的是經過标記的數據來訓練神經網絡。一些使用未标記數據的早期研究并沒有收到很好的結果。
我們發現,通過構建更大規模的神經網絡,能使系統開始自行對模式進行識别,而無需參考訓練中使用的大量被标記好的内容。這無疑是一個裡程碑。
我們建立了有着 10 億個連接的神經網絡,并向其輸入了 YouTube 上一周的視頻。網絡學習了如何識别貓的形狀而不需要去标記出貓的示例來。使用這種大規模的神經網絡,我們很大程度上提升了圖像分類測試的标準。
事實上我們看到,在測試結果的相關準确性方面有了 70% 的提升。所以這不僅僅是一個技術裡程碑,更是在極大程度上幫助提升了我們的産品。
另外,我們在不斷地打造機器學習的工具。
我們自己把研究工具和外部的開發者進行分享。大家知道我們開源了 TensorFlow,這樣其他人就可以從我們的工作中收益,進一步進行機器學習方面的探索,用人工智能來解決一些問題。
現在 TensorFlow 是機器學習中最常用到的,并且它取得了巨大的成功。人們也在嘗試用它解決不同的問題。
在 2017 年 5 月,我們發布了 TensorFlow1.0,同時我們也在不斷的進一步發開增加新的功能,讓這個平台變得更好用,更強大。
對我們來說,我們通過在機器學習領域的貢獻,加速了技術的進步,為全世界的人帶來更多的機會。這個圖顯示的是不同開源的機器學習方面的一些情況,我們可以從中看到 TensorFlow 被使用的頻率非常高,之後對于 TensorFlow 我們還将會進一步闡述。
事實上,在機器學習的發展旅程中有許多的裡程碑,神經網絡也不是一個新的概念,我們在機器學習領域也有了很長時間的研究。
那麼,為什麼會發生了現在這一切呢?
事實上我們現在用的很多算法都是在八九十年代的時候已經有了,那個時候的挑戰是沒有解決大規模數據的計算能力,計算機沒有足夠強大的計算能力來建立神經網絡,從而進行大規模的數據處理。
有摩爾定律之後,我們的計算機比 90 年代的計算機能力有了很大提高,特别是計算能力,因此也就可以解決更多的問題。而且現在我們不僅有了足夠強大的計算能力,也有了大規模的數據能夠用來訓練神經網絡。
之前我們已經分享了 Google 在 AI/ML 領域的努力,包括如何應用人工智能和機器學習去打造更好的産品,如何幫助其他人創新以及如何去解決更多的社會問題。
那麼接下來我們去看如何用 AI/ML 來打造更好的産品,讓更多的人可以從中獲益,讓每個人都能夠觸及到人工智能。
過去的計算機是不能看的,而現在有了視覺,可以看到很多的東西,這使得很多的事情成為了可能。計算方面的變化包括語音的識别、翻譯,更好理解的語言等等。
我們現在是一家人工智能為導向的公司,我們通過人工智能解決很多的問題。我們不光是使我們的産品更好,我們的願景是讓每個人從人工智能中收益。在這裡我們會講很多的方法通過機器學習改進 Google 的産品。
首先,Google Photos。我們圍繞着這個産品建立一些視覺,使得所有照片都可以搜索到。我們有這個 Photos 的 APP。Google Photos 可以搜尋你的照片。
我們先跳過這一段,先說翻譯。剛才已經演示了,你用相機照下來,然後它可以幫你翻譯。另外,你可以通過語言說給它,它也可以幫你翻譯。谷歌地圖中人工智能也可以做很多的事情。在數據有許可的情況下,通過街道,街景的數據可以獲取更多有關這個地區詳細的情況。
在沒有數據許可的情況下,通過衛星的影響,加上機器學習和計算機視覺等技術就可以變成可用的地圖,讓人們在這個城市中使用它。
即使我們沒有特别具體的數據,我們都可以做到這一點,而且我們都能夠改進。當地的人也都喜歡這個因為由于有了 AI 的技術他們可以使用的這樣的地圖。
同時,我們可以識别這個畫的人物,可以分析面目的結構,找到一些有意思的東西,把它變為這樣的小圖框。這是我的表情,你也可以自己做自己的。
Google Lens 可以把你看到的東西搜索出來,得到相關的信息。比如你跟這個圖片照相,他可以檢索出來藝術家是誰。
你就用 Google Lens 照一下,就可以搜索。我們還可以分析周圍的一些事物,也可以理解原始的東西,同時把它跟其他的東西聯想,這确實是非常有用的,我們每天都可以利用它。
機器學習的視覺可以給我們更好的建議,基于你願意看什麼節目,願意聽什麼音樂,通過這些東西可以給你推薦一些歌曲或一系列相關的音樂産品。
另外,我們可以了解人們是怎麼用地圖找停車位的,可能在目的地很難停車,但是這個地方在一些時間點是有停車位的,它就給你導航到那個地方,我們在美國的 25 個城市進行了試點。
Gmail。理解文本方面在過去的幾年時間裡面有很大提升。比如說你得到一個郵件,智能系統通過預測,給用戶提供相關答案或建議,包括應該對電子郵件做什麼樣的反饋,給你一些「可以」,「聽着不錯」等建議答案,但這都基于對文本的理解。
這樣的話比我們用手打字快得多。大概是 12% 的郵件回複都是在手機上進行的,所以你有這個小的功能之後,就可以更加快捷。
Google Assistant,谷歌助理,核心是語音識别。比如詢問 Google 新德裡的天氣是什麼樣的,它會通過語音識别,理解,然後以合理的形式展示給你。
這個系統是非常複雜的,其中包含了很多機器學習的相關技術。我們之後也會談更多這些方面的情況,這個産品沒有人工智能和機器學習是不可能存在的。
在 YouTube 上,我們通過機器學習給超過 10 億的視頻自動加上字幕,讓世界上近 3 億的聾啞人或者有聽覺障礙的人可以看到視頻上的東西。
我們在不斷的改進這個語音識别系統,使「自動字幕」的文字準确性提升了 50%。我們通過神經網絡等技術,可以讓聽力有障礙或者不精通視頻播放語言的人通過自動字幕享受到視頻。
在 Google 翻譯這一方面,2016 年,Google 做了大量的努力來提高神經網絡機器的翻譯水平。這項工作已經持續了十年。在過去的翻譯系統并非基于神經網絡的系統,而是使用更簡單的統計翻譯模型,由 50 萬行代碼組成。
去年推出的新神經網絡機器翻譯系統經過了簡單卻有效的數據訓練。新系統僅由 500 行 TensorFlow 代碼組成,而非 50 萬行。我們去年秋天開始使用新的神經網絡翻譯系統後,翻譯準确性得到了很大的改進,堪比肩過去十年中取得的提升。
有趣的是,翻譯效果提升最明顯的是日英互譯。在日本的用戶發現現在的翻譯結果得到了質的飛躍。
現在,我們又将神經網絡機器翻譯應用到了 97 組語言對中,現在的翻譯結果更加流暢、自然,質量大幅提升,用戶更加滿意。同時,我們也清楚,在更多數據的輸入和打磨下,翻譯效果還将進一步提高。
我們将新型的硬件與軟件相結合的另一個實例是 Pixel Buds。這是一種能實時将你周圍别人說的話翻譯成你的母語的耳機,運用了語音識别和翻譯技術。
有了它。你就能在陌生的語言環境中漫遊,幾秒鐘後便能翻譯成你的母語。這項技術的翻譯效果也将随着時間的推移得到顯著的提升。
最後總結一下我們在這個領域的三個重點:
我們想使用 AI 改進自己的産品;我們想幫助其他人用 AI 以及機器學習進行創新,并解決他們的實際問題,這也是今天其他演講嘉賓将提到的;我們還着眼于解決一些更大的問題,像是醫療,生态,和其他我們認為 AI 和機器學習能帶來很大幫助的地方。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!