整理 | Donna
編輯 | 鴿子
不能直接與人語音對話的智能硬件都是耍流氓!
随和、直爽,是海知智能創始人兼CEO謝殿俠給人的第一印象。這位曾創立北大古典音樂社團的江湖才子“謝大俠”直言不諱地稱“不能與人類直接語音對話的所謂智能硬件是“僞”智能。
在他看來,AI和智能硬件對人類的影響會比過去200年間的工業革命、PC革命和互聯網革命的總和還要大。自己算是趕上了這波時代更叠的浪潮。
采訪中,“謝大俠”向我們詳細介紹了他針對細分用戶群制定的“挖井”戰略及背後對市場的深度觀察,還描述了他要構建的“第三方技能插件開放平台”:降低個人制作技能插件的門檻,從而直接幫助有需求的個人和企業整合一套适合自己的解決方案來對接硬件。
打假人工智能:Glass,Apple Watch是“僞智能”
AI科技大本營:當時為什麼創業做語義理解這一塊?
謝殿俠:2014年,語音識别、語音合成這兩個環節在學術或者是工程上,都開始突飛猛進。
為什麼會突然突飛猛進呢?
因為當時,深度學習已經開始被應用在語音識别上。
過去采傳統的模式識别,能将結果提升幾個百分點,就很不錯了;但當時,微軟鄧力團隊用深度學習的方式來做語音識别,一下子就将準确率提高了20%以上。相對于過去,這絕對是一個結構性的變化,裡程碑式的變化。
照這樣的發展速度,三五年或有限時間内,語音識别的準确率就能達到一個非常高的程度了。
可是當時,語義理解還沒有太多人來做。
相比語音,語義理解的不确定性會更強。當然,機會也更更多。
因為當語音識别不成問題時,語義理解的準确程度将在很大程度上決定用戶的體驗。
再加上,我跟我的CTO之前一直專注在語義理解方面,我們覺得,機會來了,而且還是個不小的機會。
AI科技大本營:既然語義理解這麼難,創業公司的風險會不會很大?如果科大訊飛等公司直接來切語義這一塊,會不會創業公司根本就沒有機會?
謝殿俠:這倒不會。
第一點,語音識别和語義理解其實是兩個不同的細分領域,表面上來看,貌似相關性比較強。但實質上,完全不同。因此,從語音想直接切到語義,其實是重新開山的過程,沒有那麼容易。
第二點,2014年,這個時候還處在非常早期的階段,沒有一家可以自信地說,能一下子把整個大海給煮沸了。
不過,正如你所說,語義很難,所以我們在2014年定了一個原則,我稱它為挖井戰略:即我們不做開放領域的語義理解,隻紮根于幾個垂直領域,紮得足夠深,挖到水,再去做橫向拓展。
把這個原則翻譯成偏書面話就是:針對特定用戶,面向特定場景,解決特定問題。“三個特定”。
有了這麼一個策略呢,我們就會在有限的資源、有限的時間内,取得還可以的結果。當然今天說這些都是馬後炮了,不過回頭來看,這個策略确實有效。到今天為止,某些我們比預期中跑得更快。
比如說,原本有一些明年、甚至更遠才能夠落地的項目,我們實質上在去年、今年已經陸續落地了。
不過呢,剛開始,這個策略确實會讓我們比别人慢一些。
AI科技大本營:“挖井”這個策略現在回過頭來看,确實很正确,但在當時,當别人都比你快的時候,一直堅持克制,并不容易吧。沒有動搖過?
謝殿俠:一直沒有動搖。
當時有人認為直接做智能硬件能更快賺到錢,很多人都去做了,但我們忍住了堅持有所為有所不為。
尤其那時不少智能硬件都算是僞智能硬件,因為不是說連上智能手機就稱之為智能硬件。什麼是真正的智能硬件?真正的智能硬件是要能夠理解人的語音,和人進行溝通,這才是真正意義上的智能硬件。
2015年,可穿戴設備比如手表、手環,包括谷歌Glass等,不太接地氣,谷歌Glass最後也失敗了。
智能手表,無論是安卓系列還是蘋果,也不是特别成功。在此之後,可穿戴設備收縮得很厲害。
另一塊是家居、車載場景,這塊比較慢熱。但基于家居場景的亞馬遜做的Echo就非常成功:做智能音箱,可以播放音樂,可以語音交互,也可以控制其他家居産品。這就是場景找對了。
Echo的成功也應證了這個想法的正确:一定要注意場景,在具體的可真正落地的場景中去做我們的産品。
AI+智能硬件 > 工業革命+PC革命+互聯網革命
AI科技大本營:您剛剛提到在明年或者更遠時間才會落地的,其實在去年和今年已經落地的項目,具體指的什麼?
謝殿俠:有兩件事。
第一個是2B業務,主要用于大型企業的智能客服上。
再一個,是我們推出的水晶球智能分析員,這個在去年下半年開始落地,今年就已經有結果了。
這兩件事原本預期在2018年才會落地出結果的,沒有想到在2016年下半年就已經開始進場了,2017年已經有了初步的成效。
AI科技大本營:您沒有料到這兩個事情能這麼快落地,是因為競争對手少,還是市場的發展比您想象得更快?
謝殿俠:應該說是市場發展快。不過,整體的市場是前慢後快。
2016年以前,大家對智能硬件、機器人、以及家電行業不抱太大期望。但是,2016年下半年阿爾法狗的橫空出世成了全民事件。加上國家開始加大扶持,媒體不斷宣傳呼籲,人工智能的市場被真正喚醒了。
人工智能概念的普及這個太重要了,直接推動産品的快速落地。
AI科技大本營:在這個熱度中,泡沫的成分有多大?
謝殿俠:有泡沫,成分也不少。
泡沫普遍存在于三個方面:一是很多給自己貼人工智能标簽的公司和行為。這些公司本質上還是做的大數據的應用或者是傳統的信息化系統。
另一種泡沫是在資本層面。一些什麼都沒有隻有AI概念的公司,就因為這個概念有了很高的估值。
還有一種泡沫是業内一些不健康的想法,比如有人吹語義理解準确率已經達到了97%以上。
雖然有泡沫,但總的來說,人工智能的發展趨勢是不可逆的,當它在各行各業落地後,将産生比工業革命、PC革命、互聯網革命和移動互聯網革命全都加起來,都要大得多的影響。
用60分以上的産品吸引用戶
AI科技大本營:突然開始的市場火熱,會不會有泡沫?比如,由于技術目前還非常早期,這些寄希望于語義、語音識别來升級的廠商,期望過高;在他們跟風嘗試後,發現産品并沒有想象中好用,用戶體驗并不夠好,從而不會進行複購。這樣的情況是否存在?
謝殿俠:這種情況在産品發展初期确實會出現。
比如說智能音箱,前幾年有不同大大小小的品牌在做。其中大部分宣傳效果和實際效果差太多了。
這時候,巨頭們也開始進入這個領域,于是用戶體驗有了極大的提升,即使用戶的一些落差還存在。
但是,即使産品現階段有它的缺陷和不足,從長遠或者全局角度來看,這個産品本質上還是大勢所趨。而早期的消費者也能看到産品在一步一步完善,變的對它更滿意。
這和PC機的發展和普及一樣。早期宣傳的很神,但使用起來很慢很爛,用戶有心裡落差。不過這并沒有影響PC機普及到千家萬戶。手機發展也是一樣,最初的大哥大,到功能機,再到iPhone,即使到iPhone1時,短消息還不能轉發。
智能音箱也一樣。雖然現在大家會認為智能音箱的功能,手機連音箱也可以實現。但是,當用戶用過一個人機交互的智能音箱,就不會願意使用原來的音箱了。因為普通音箱需要操作十多次才能播放音樂,而智能音箱一句話就可以實現了,這個差異非常大。
所以,盡管智能硬件産品目前普遍還有許多毛病,但是它能在某些方面比較極緻的解決人的需求,使人們産生依賴。
當然,智能硬件類産品想要赢得市場,也得做到起碼的分值。對智能音箱來說,首先質量要達到同類藍牙音箱的水準。其次,智能音箱得聽得懂人說的話,不能聽十句錯六句。最後,我想聽的歌曲,曲庫裡面大部分都在。
這三個要求是乘法關系。音箱質量要好,理解力要足夠的準,内容體量也要足夠大。其中,理解中包含語音識别和語義理解。如果語音識别是80分,語義理解是80分,乘在一起就是64分。然後喇叭質量不太好,又是80分。然後後面資源又不夠,假設雖然還是80分,那最後乘起來就隻有40分了。一個40分的東西,人們肯定把它扔掉。
但是如果最終的體驗到了60分,人們會容忍它的一些問題,然後享受它所帶來的一系列的便利。
AI科技大本營:是不是當一個産品成為了剛需,人們就會容忍它的一些存在的毛病?
謝殿俠:是的。這就對應了我之前提到的三個特定,特定用戶、特定場景、特定問題。我們計劃在一個領域裡面做到足夠的透。讓它在此領域,的的确确跟傳統的方式有比較大的體驗和改觀,把它做到極緻。
AI科技大本營:能不能具體說一說您定的這三個特定分别指什麼?
謝殿俠:我們會先定位明确的使用人群,因為我們覺得用戶群是細分的群體。我還是從智能音箱舉例,用戶群是老年人,還是白領或者小孩。然後,定位場景,是在家裡,還是在車上,還是在辦公室。家裡是在卧室,廚房,還是客廳。最後是特定問題。我們可以為兒童打造語音交互的故事機,也可以為白領打造聽音樂的音箱。
細分客戶群,場景與問題,就相當于我們對解決智能硬件複雜的技術問題增加了一些邊界條件,減少不确定性。最終說能夠在相對有限的範圍之内,能夠形成一個最優解。
當用戶群明确後,我們會預估我們可解決的問題與場景。比如,我們可以做兒童陪伴型機器人,但做不了兒童教育型機器人。原因一是教育類機器人離代替老師去解決教育問題還差的很遠。二是我們現階段的技術還沒有發展到可以将它做好。過去市場上有一些做教育類機器人的創業公司,不少都搭進去了。
而我們可以做好陪伴型機器人,另外還可以加入學習型成分,比如詞語、成語、甚至詩詞接龍。
所以,當我們尋找合作夥伴時,我們希望對方先給出明确的産品策略,把用戶場景和問題的邊界定了,定在合理的範圍之内。然後我們做出來,在最終用戶能夠接受的範圍之内,那這個産品才能落地。否則的話,大家都隻是一片好的想法,沒有好的結果。
海知智能的定位是産品技術平台,也就是說,我們隻提供能力,讓我們的合作夥伴,他們用我們的能力做出來他們想要的産品。相當于我們是電廠,但是我們這個電比較特别。
我們希望這個電呢,你做燈泡也可以,做冰箱也可以。但是你說要做一個造火箭的工廠,那可能對不起,這個事不是我們現在的範圍。
AI科技大本營:從商家的需求來看,明顯感覺到跟之前是一個爆發性的增長嗎?
謝殿俠:是的,大家都意識到了這個趨勢:接下來這個時代,所有人、事、物都會有自己的bot。
不過,我們還是隻能提供有限的服務。我們自己會定義一些領域,然後在場景下優選服務對象。這些對象必須是我們有能力充分打磨的。比如說面向家庭的智能家居,然後用戶是小孩和白領。
AI科技大本營:所以平時拒客率挺高的?
謝殿俠:原則上,我們隻篩選出産品價值觀和我們一緻的客戶,所以的的确确有所為有所不為。比如說我們在2015年,有一段時間梳理客戶可能有将近100,但是最終我們選擇了不到10家做合作。
作為産品技術平台,我們還是希望能夠讓産品落地,所以基本上會選擇有明确合理的産品策略的公司和一些種子的開發者,或者是标杆客戶來做合作,深度打磨産品。
現在我們的平台開放注冊了,希望大家能可以來用我們的技術。未來一年預期應該有上萬,我們定的目标也是至少過萬。
Bot skill:非典型第三方技能商店
AI科技大本營:為什麼給你們的平台取名Bot skill平台?Bot skill又分别代表什麼意思呢?
謝殿俠:首先,skill就是技能的意思,這兒代表某一種特定的能力,例如外賣能力,語音交互能力。bot就是一個集合和運行我們的工具所做出來的skill的平台,也可以看作是一個機器人的大腦或者靈魂。當技能落地到冰箱上,或者是有胳膊有腿的上面,或者是音箱上,就變成了一個有型的機器人robot。
我們的Bot skill平台中文叫第三方技能插件開放平台。簡單點兒說,我們負責技能插件的開發,同時還做了一個bot的平台,用于和别的平台對接。比如我們的技能要和小米或者百度對接,這時就是bot和bot之間的一個銜接。
AI科技大本營:能具體說一說你們服務的領域嗎?
謝殿俠:我們主要為兩塊服務,一塊是有領域支持,或者支持某一個領域服務的人或是機構。然後我們提供這個工具,讓大家比較低的門檻就可以把自己領域的這些知識,或者是服務,轉化成另一個領域的知識圖譜。然後變成是一個技能插件,一個skill。
另一塊,我們把這些skill呢,可以推送到,比如說第三方的這些平台,像小米手機。然後落地到最終的硬件産品上。
總計來說,我們目前定位還是一個技術提供者,然後幫助這些領域的所有者做技能插件。我們不自己做硬件。同時呢,我們打通了能夠落地的這些語音交互平台,或者我們也可以直接給硬件提供一整套bot的服務,然後最後落地,所以我們就起到中間橋梁的作用。
AI科技大本營:那目前的Bot skill平台可以和别的平台自動對接嗎?
謝殿俠:目前還不行。即便我們能把格式問題解決,别的對接的應用商店也可能有審核程序,像百度度米和思必馳。也就是說,我們的技能會通過我們的平台通道向另一個平台發送。但是要進入别的平台時,會有審核。如果我們通過審核,我們的技能就進入它們的平台,和他們的技能結合落地。如果沒通過,那技能就隻能留在我們這兒了。
雖然不能和有審核程序的平台自動對接,我們的第三方插件平台還是有它自身的價值的。我可以用我們的工具一站發布,然後通到不同的平台上去。但是如果有公司自己開發某個技能後想要推廣到另一個公司去落地,他就需要去修改格式或是重新開發來符合那個公司的格式和語言。
這就是我們獨立第三方的價值。我們希望通過開發第三方平台,用一個簡單便利的方式為其他公司帶來價值。在應用插件的生态鍊内,我們和百度,思必馳等應用商店不存在競争。
我們的開發工具,相比微信公衆号發文章,就相當于一個第三方文本編輯器。有了這個文本編輯器,還有一鍵輸送功能之後,技能插件就能同時分發到各個内容平台上去了。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!