一文看盡阿裡雲即将上線的 NLP 技術到底可不可靠。
撰文 | 王藝
編輯 | 宇多田
阿裡雲栖大會剛剛結束。作為中國最大的雲平台,除傳統雲服務(如計算、存儲、大數據、安全、通信)外,阿裡雲的觸角已經延伸到 AI 技術領域。
目前,阿裡雲上的人工智能 ET 闆塊已經包含機器學習 PAI、語音識别與合成、人機對話、人臉識别、圖像識别、以及印刷文字識别六大模塊。
除這六大模塊之外,近期,阿裡雲還将上線自然語言理解(NLP)模塊。項目總負責人司羅也在今年雲栖大會的現場分享中透露了這一消息。機器之心現場采訪到司羅,與他談了談阿裡在 NLP 技術上的底氣。
對外開放技能:突破阿裡自身場景的局限
從今年六七月份開始,本着阿裡 iDST 部門對外賦能的使命,其中,由司羅帶領的 NLP 團隊開始着手「上雲」。
與此前的對内服務大為不同,其中最主要的變化便是場景切換。阿裡主攻電商、金融、娛樂場景,而雲上的客戶卻涉及到各行各業。對于現階段各知識領域還存在顯著隔膜的 NLP 技術來說,存在不小的挑戰。
但實際上,在這次「上雲」之前,團隊已經有對外服務的經驗。
OpenSearch 是阿裡雲推出的一款雲搜索服務,調用 OpenSearch 的用戶能夠讓自己的網站、應用擁有搜索功能。使用這項服務的用戶涵蓋母嬰、詩詞、菜譜等五花八門的領域,給司羅團隊提供了很好的練兵場,也是試金石。
對于 OpenSearch 上的分詞技術,團隊提供一套基礎算法,并在算法上構建了自适應的模型體系,如金融、社交、新聞等。團隊會根據用戶網站不同的組織層次需求,為用戶挑選最合适的模型,并同時提供産品可視化的配置,用戶可以在上面獨立配置自己的詞表。
除 OpenSearch 外,團隊在專有雲方面也已經對外服務客戶,如通過新聞、用戶評價等幫助茅台酒廠進行輿情分析,幫助公安、法院等部門更快地查找備案資料等。
阿裡雲上 NLP 技術的輸出将采用類似 OpenSearch 的模式,但服務類别将有所增加。在「上雲」後的第一個階段,阿裡 NLP 提供的服務将包含電商實體識别、情感分析、反垃圾、地址解析四個底層技能點。
服務分幾個層次提供,對于已經擁有某些模塊的技術,且需要其他模塊技術的公司(例如有分詞技術但缺乏依存關系技術的互聯網公司),阿裡雲 NLP 将提供技能點級的支持;對于缺乏 NLP 應用級技術的公司,例如反垃圾、情感分析等,阿裡雲 NLP 提供應用層面的支持;對于需要系統級解決方案,例如搜索、推薦系統的客戶,阿裡雲 NLP 也有對應的服務模式。
值得一提的是,iDST NLP 的團隊剛剛獲得了 IJCNLP(國際聯合 NLP 大會)語法糾錯評測第一名的成績。司羅認為這是對阿裡 NLP 技術的一次有力證明。因為語法糾錯任務涉及到很多自然語言的基礎技術,如分詞、句法分析、詞法分析、依存關系以及語義分析等,對團隊的綜合技術實力是一次考驗。
司羅
司羅認為,自然語言處理是實現強人工智能的非常重要的一環,而且重要性會越來越顯現。「感知層面的事情越來越成熟了,認知層面也得跟上了。」他說。
但在他看來,認知層面的事情依然路漫漫其修遠兮。他很愛舉的一個例子是,你問一個聊天機器人「喜歡吃辣嗎?」它可能會說「辣的那麼惡心,我才不喜歡。」你接着問它「你喜歡吃四川菜嗎?」它可能又回答你「四川菜是我的最愛!」
目前聊天機器人絕大部分是數據驅動,司羅認為要實現真正的語義理解還需要 5-10 年的跨越。「語義理解這回事兒現在學界都還不 OK 呢。」他說。另外現在的 NLP 技術魯棒性不夠,對于新聞語料來說效果不錯,但對于日常對話,效果就很差。
雖然有很大的鴻溝擺在面前,但司羅認為這是必須要跨越的。「因為 NLP 技術是達到強人工智能的路上必須攻克的關鍵節點。」司羅說。
從「業務」到「技術」:我們獲得了同事的認可
在将 NLP 拿到阿裡雲上對外開放之前,司羅帶領的 NLP 團隊其實走過了一段并不容易的「從技術到業務的沉澱之路」。換句話說,他們的技術,首先必須得到阿裡内部各個業務線的使用與認同。
毫無疑問,司羅是阿裡巴巴數據科學研究院(iDST)的幾位元老之一,但在 2015 年 7 月,iDST 暫時解散,包括司羅在内的科學家們都必須深入到業務部門實地考察「錢是怎麼來的」,這段經曆被 iDST 的創立者兼現任院長金榕稱作「上山下鄉」。
當時,司羅跟随金榕進入搜索事業部。今年 3 月 iDST 宣布重組時,司羅才被任命 iDST NLP 團隊負責人。
當記者用「風雨飄搖」一詞來形容 iDST,司羅笑了,說「『風雨無阻』可能更合适一些。」雖然體系架構一直在變化,但司羅認為,阿裡的 NLP 技術一直在積澱。
在一個以業務為導向的公司積澱技術并不容易。司羅回憶道,曾經集團各條業務線都有自己的 AI 實力,各做各的。由于在業務線中,AI 模塊隻是業務鍊條中的一環,難免會有「這一環好用就行,趕緊去做下一環」的情況。工作 quick and dirty 地做完,不僅不利于産品的優化,對集團内部人力财力也是一種浪費。
iDST 的出現就是為了解決這一問題。大約一年前,馬雲提出「大中台、小前台」戰略,希望各個業務線在一個強大的、動态的支撐下,僅用幾個人手就能搭建起穩定的前台服務。金榕在曾經一次接受機器之心的采訪中提到,希望能打造 AI 技術的基礎模塊,從底層驅動創新,支持集團各業務線的 AI 技術,司羅正在做的就是這樣一件事情。
這有些類似項目制與産品制的區别。項目制随着業務的爆發,所需人力也随之爆發,且項目間的經驗很難複用、累積。産品制更輕、更巧、更專,隻需對不同的項目需求做少量定制化,在成本方面更加可控,在技術方面也能有所積累。
2016 年 10 月,對于司羅以及阿裡 NLP 來說是一個重要的時間節點。此前,司羅所帶領的 NLP 業務團隊忙于承接一個個「項目」,先後參與過「聚劃算」、「AliOS」、「淘寶頭條」、以及淘寶唯一能夠主動觸達用戶的渠道「消息推送」等項目。
那時候,司羅領到任務——将 NLP 的「大中台」建立起來,也就是說,集團希望在 NLP 技術方面,各業務線不再各自為營。
此時,兩大問題擺在他面前:如何說服團隊成員從「業務」轉向「技術」,以及如何讓其他業務線使用他的團隊的技術。
這讓他一度很頭疼。對于團隊成員,做業務涉及到上億的引流成交量,成員能夠從中獲得很大的成就感。司羅和隊員一個個聊,「我跟他們說,大家都不會在一個業務上做一輩子,等你走的時候,業務是不會跟你走的,但是你自身擁有的技術是會跟你走的。」司羅沒有用太多高大上的說辭來說服他的隊員。
司羅認為,能留在一個人身上的有兩樣東西,一個是技術的積澱,另一個是人與人互相的關心與信任,俗一些的說法就是人脈。而這種關心與信任正是司羅團隊後來在集團内部擁有一百多個使用其技術的業務方的基石。
「用你的技術大家會有顧慮。」司羅談到,「首先業務方會想,我為什麼要用你的?用你的你過幾個月不支持了怎麼辦?用你的是不是證明我做的不好?等等很多問題。」
人之常情。「我們沒有行政命令的協助,如果 CEO/CTO 下令說所有人都要用我們的技術,那當然好推廣。」對于這些看似不可解的矛盾,司羅坦言,這種時候隻能用實力說話。團隊在算法準确率、工程穩定性、甚至支持文檔的力度、用戶答疑等方面都下足了功夫。
團隊在集團内部的推廣動作依賴使用者的正反饋。司羅說,最開始的幾個攻堅戰一定要打好,比如給優酷土豆做的分詞,團隊投入了很大的力量,優化了原本的分詞結構,取得了集團内部的信任,也給團隊以信心。同時 iDST 和搜索工程技術質量部門、翻譯、神馬搜索等團隊在工程和多語言等方面展開合作,希望能夠共同優化算法。
「技術有通用性,我把最開始的技術移植給其他業務方,越來越多的業務方加入,團隊的成就感也就越來越大。這是一個正反饋的過程,對吧?」他笑着說道。
司羅舉例說,電商場景的分詞一直是棘手的問題,因為每天都會湧現層出不窮的新品牌、新産品、新型号。團隊創新性地将用戶搜索時輸入的字段用在分詞過程中。
例如用戶搜索「索尼電視」,系統不知道「索尼」是一個品牌名。但當系統發現用戶在搜索結果中點擊了「索尼 Led 電視」這一選項時,就會意識到「索尼」是一個牌子。此舉将電商分詞的準确率提高了 10-20%。
「業務方沒有理由去做這種層面的精細優化。」司羅說,「他們所在的單一業務線可能每天隻有 20 萬的調用量,卻要分析幾十億的搜索與點擊數據,這對他們來說不值得,也沒有這麼大的精力。」
2017 年 1 月份,司羅團隊的 NLP 技術開始上線供集團内部使用。據他介紹,當時,團隊還是有點擔心沒有人買賬的,同學們不确定自己下的功夫能不能産生價值。
好在結果是令人驚喜的,司羅說,「我們蠻幸運的。」從 1 月到現在為止 9 個月的時間裡,司羅團隊的技術支持了幾乎整個阿裡生态,包括電商、螞蟻金服、菜鳥、大文娛等。目前業務方有 100 多個,日調用量達 400-500 億。
司羅回憶道,今年三月,阿裡上個财年結束時,團隊做了一次簡單的推廣,吸引了最初的 10-15 個業務方。此後業務方數量的增長速度開始加快,五月份時已經有四五十個;到八月份有 80 多個;在九月底,半個财年結束時,團隊的業務方成功突破一百個。
司羅認為這是一個非常振奮人心的過程,給團隊打足了勇氣:
「我們内部有一個平台用戶群,已經有 300 多人。大家在這個交流群裡對平台的使用以及算法技術問題進行讨論,群裡一直都很熱鬧,這讓我很高興。」
從某種程度上來說,司羅認為恰恰是從集團内部獲得的認可,讓整個團隊有勇氣将自己的技術放到阿裡雲上,為更多的企業用戶去賦予 NLP 技能。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!