允中 發自 凹非寺量子位 報道 | 公衆号 QbitAI
漢堡也能用大數據賣?
沒錯,而且可以賣得更好。
漢堡王就正在展開這樣的實踐,在他們的菜單顯示屏,可以基于用戶的點餐行為、背景信息,給出個性化推薦。
而且還能結合時間、地點、氣候等因素……用戶下單更省心,賣家業績還更好。
懂技術的朋友或許早已看穿,背後必然有Transformer模型加持,但可能意料之外的是,實現消費級商用的精準推薦,漢堡王這套系統不光是單純套用。
Transformer Cross Transformer(TxT),這是漢堡王推薦系統背後的核心模型技術。
此外,這套模型系統還是拿來就用的那種。
因為替漢堡王打造這套模型的,是一個名為Analytics Zoo的端到端平台,而這個端到端平台的打造者,是不常出現在“軟件”新聞裡的英特爾。
但随着AI浪潮深入、數據和軟件算法當紅,這家過去以硬件奪目的公司,軟的那一面開始被更多注目。
而且這一面的代表人物,還是一位中國技術專家:
戴金權,英特爾Fellow、大數據技術全球CTO,大數據分析和人工智能創新院院長。
以及兩大知名機器學習平台BigDL和Analytics Zoo的項目創始人。
但在戴院長看來,軟件硬件隻是技術的不同形式承載,背後更本質的趨勢是數據。
在量子位專訪中,他還強調,在AI和5G作用力之下,數據洪流所至,軟件在變,硬件更開放,過去按照軟硬劃分的疆界格局,變化已再明顯不過。
英特爾的軟實力 戴金權院長從大數據領域來舉例。
他說英特爾在該領域的研發投入,核心是源自需求的驅動。
分為三個階段:
第一階段:存儲和處理數據。
第二階段:查詢和分析數據,并且對于時延的要求越來越高,最終需要的是實時查詢和分析。
第三階段:預測和推薦。
戴院長說,特别是在大數據平台上進行各種機器學習、深度學習的數據建模和預測,成為了當前非常重要的技術和應用方向。
而從産業應用上看,消費互聯網領域,沒有哪家互聯網公司不在強化預測和推薦方面的能力。産業互聯網一側,也在追求更多業務數字化之後,能夠展現預測和推薦之力。
比如一開始提到的漢堡王。
所以對于英特爾而言,在此基礎上希望高舉高打,提供一個大數據統一應用平台。
這種思路之下,誕生了BigDL和Analytics Zoo。
特别是Analytics Zoo,作為開源大數據AI軟件平台,核心要解決的就是幫助用戶将機器學習或深度學習等算法模型,直接在分布式大數據平台上運行,而且可以做到無縫擴展。
沒有這樣的平台,路徑就會曲折得多。
通常情況下,會先建立一個分離架構,并以大數據集群的方式訪問和處理數據湖數據。
大數據集群處理之後,還可能需要深度學習集群把存儲系統中的數據讀取出來,再進行深度學習或機器學習處理。
那Analytics Zoo能帶來什麼不同?
可以提供一個統一架構來支持端到端AI流水線。
用戶的數據還是存儲在數據湖、數據倉庫當中,可以運行在K8S上或Hadoop集群上,或者部分用戶在雲裡面可能有幾台虛拟機實例,就可以有一個集群,在這個集群上利用Analytics Zoo就可以把基于Spark的大數據分析和基于TensorFlow、PyTorch、BigDL或OpenVINO等這樣的深度學習框架直接統一在一個架構中。
整個流程裡,一方面可以可以大大減少中間數據傳輸的開銷。
另一方面還能提升開發、部署和處理的整體效率。
這種效率的提升,戴金權引用了浪潮的實踐效率——
以前可能需要幾個季度才能開發完的一個應用,現在隻需要兩三個月就可以了。
端到端的開發效率,顯著大幅提升。
而這種開發效率提升,在當前技術發展趨勢下,戴金權認為更加關鍵。
一方面是無論是5G還是AI,相關行業中的需求使數據呈現指數級增長。
另一方面,統一的大數據和AI處理分析,是下一個十年的關鍵性應用需求。
所以理解了這種對于未來确實的判斷,也就能看懂當前英特爾正在呈現的變化。
這家以硬件知名的巨頭,正在從硬件、軟件和整個生态層面,提供大數據、機器學習和深度學習方面的長期支持。
更加概括地來說,軟件和硬件不本質,本質的是如何處理、分析和使用數據。
而基于數據出發的本質認知,自然能理解英特爾何以越來越多元、開放和無處不在。
專訪戴金權院長 量子位:大數據和AI,給英特爾帶來的變化是什麼?
戴金權:英特爾很早就開始投入大數據領域研發,比如跟UC伯克利基于Apache Spark,進行了許多技術開發和應用合作。
到後來随着大數據的發展,我們明确了趨勢:從一開始的擴展、處理大量數據,到如何進行分析,再到如何在上面進行機器學習和深度學習的建模和預測未來。
我認為這和AI發展的趨勢也非常吻合。如果說現在AI有什麼趨勢?我覺得是AI變得無處不在。
可能開始是在一些互聯網公司,或者一家自動駕駛公司會使用大量AI技術……
但是今天不管餐飲行業還是電信運營商以及制造業,他們越來越多希望把AI用到各種各樣的應用場景中,所以AI從實驗室就慢慢進入了生産環節。
在實驗室中,很多時候大家關心的是用各種各樣的方法提高數據集上模型的準确率。
量子位:AI在現實場景應用中會有什麼挑戰?
戴金權:挑戰會很多,比如最直觀的大數據。現實環境中的數據量非常大,這就需要和現有生産數據結合。
我們曾經和一家大型互聯網公司合作,他們有很多AI研究員開發了AI模型後,想把其模型在生産數據上運行。
但是後來他們發現生産數據都在大數據系統中,他們根本不知道如何把AI運行在那些大數據上,于是就做數據拷貝,把數據從一個集群拷貝到另外一個集群。
很多時候我們需要跨數據中心的拷貝,那麼如何直接應用AI并将其擴展到相應大數據平台上是一個很大挑戰。
量子位:這也是為什麼會有Analytics Zoo這樣的平台?
戴金權:對,端到端的流水線非常重要。
并非隻有一個AI模型,比如對模型進行訓練或者推理時,經常出現很長的端到端鍊路,包括數據導入、數據處理、特征提取、特征轉換等。如何使端到端流水線更有效率也是很重要的因素。
當然,還有針對各種各樣的AI應用,如何使這些智能計算支撐上層AI應用場景。
量子位:所以英特爾開源開放一面越來越被關注。
戴金權:英特爾其實做了非常多開源的工作,比如在Linux操作系統、虛拟化方面。
在大數據方面也是如此,我們基于大數據AI開源軟件生态做了非常多工作,英特爾在開源社區做了非常大的投入,目标是能夠将開源軟件應用在整個生态系統中,使用應用或技術得到很大提升。
比如當英特爾和加州大學伯克利分校開始合作的時候,Spark隻是他們的一個博士項目,我們共同做了很多開源和開發,最終Spark成為了一個Apache軟件基金會頂級開源項目。
包括在AI方面,在PyTorch、TensorFlow各個開源框架中的優化,以及我們構建的BigDL、Analytics Zoo開源平台,英特爾一直希望通過開源的工作推動整個大數據和AI的生态建設。
量子位:這個過程中,會有什麼其他收獲嗎?
戴金權:我們會和很多用戶合作或交互,也會更加關注如何将下一代的技術發展趨勢和技術方向融合到軟件平台中來。
福特曾經說,“如果問我們的用戶想要什麼,他們永遠說想要更快的馬車。但事實上他們要的是汽車。”
其實也是一樣的道理,我們會和很多用戶合作,當我們在做Apache Hadoop的時候,用戶提了很高要求,他們說需要更快的Hadoop,你們需要把它優化的更好。
但是我們意識到他們要的是類似Spark這樣的下一代大數據處理分析引擎,因為它能通過新技術、新架構解決其現有問題,而非在現有平台上進行優化。
而我們在做BigDL和Analytics Zoo的時候也是如此。我們發現用戶的需求,就考慮如何将AI應用到大規模分布式的大數據場景和平台中,以幫助其解決問題。
量子位:現在有一種觀點是AI軟件正在重塑英特爾,你怎麼看?
戴金權:無論在軟件還是硬件上,英特爾在AI領域都有非常多的工作,AI是英特爾非常重要的方向。
比如我們的XPU、CPU、GPU等,這些是硬件方面的工作。
在軟件方面,我們考慮的是如何提供更好的支持,因為今後的智能計算肯定是一個超異構的XPU架構。
對于軟件開發者,他們希望有統一的編程接口。作為數據科學家,我們并不希望處理不同的硬件。所以我們基于OneAPI這種能夠統一XPU的編程模式會做很多工作。
在此之前,我們針對各種硬件平台以及深度學習、機器學習的庫或框架優化也會做很多工作,包括在PyTorch、TensorFlow等領域的各種各樣的優化。
我們希望為用戶不同的AI應用場景提供支持,以提高他們端到端的性能效率和開發效率。
包括大數據AI,其實我們的目标就是幫助用戶将端到端的AI流水線打通,使其能夠擴展到一個分布式的架構上。
量子位:效率提升這條主線上,AutoML近年很火。
戴金權:英特爾有一個工具是做低精度轉換的,在低精度上可以大幅提高效率,但需要大量人工操作才可以達到這個效果……于是我們利用AutoML,利用一個自動化工具把低精度的事情完成。
很多時間序列的應用場景,都可以自動化特征提取、模型選擇、超參調整等。
量子位:這其實也是降低AI應用門檻的需求反映,甚至在開發側,大家都在談低代碼\無代碼?
戴金權:還是那句話,不存在一個解決方案可以支持所有場景。
業内會有不同的開發人員,有一些開發人員是硬核開發人員,基于OneAPI這樣的工具,可以幫助他們在底層性能和框架上進行開發。
有一些是數據科學家或數據工程師,他們會基于Python或Java這樣的平台開發。還有更高層次的分析師,甚至一些人完全不是編程人員,比如希望對X光片進行分析的醫生。
這可能需要一些更高層次的應用,可能就不想寫代碼,或者隻是做一些簡單的工作,這是另外一個方向。
英特爾有一些工作會做得比較多,比如OneAPI,或是基于框架、大數據平台的工作。
我們還有很多合作夥伴,包括在去年年底我們收購了一家專門做超參優化的公司叫SigOpt,它是業界對機器學習參數進行自動化優化的領先公司,還提供雲服務。
這樣的技術就可以整合到英特爾很多工具裡,進而把很多工作自動化,大幅提高開發效率。
我覺得這個可能在不同層面以及針對不同的受衆、開發人員會提供不同的技術給他們。
量子位:上面談到的這種滿足需求,是現在英特爾“異構”談得越來越多的原因嗎?
戴金權:AI有不同的細分市場。有CPU AI、GPU AI、以及各種各樣專用的加速器AI。英特爾有CPU、GPU、加速器(比如Habana方面的工作),也有邊緣和客戶端的一些工作。
其實各自有其更适合的場景,我們希望通過類似OneAPI這樣的軟件,可以将這些不同的超異構硬件結合起來。
比如我們也有可以使用FPGA來進行加速的場景。我們希望利用OneAPI将編程模式統一,而且OneAPI本身也是一個工業界的标準,并非英特爾獨有。
除支持英特爾自身的XPU硬件之外,它也可以支持其他硬件。比如有人在上面做ARM的支持等等。
從英特爾角度來說,我們看到的是XPU的超異構架構,不同的GPU、CPU、加速器等,針對不同場景的應用會有更好效果。
我們通過類似OneAPI這樣的軟件平台不僅能夠幫助用戶輕松實現各個硬件平台的高效率和高性能,還能高效開發跨平台應用場景。
當你看到整個端到端的AI流水線,不能說它隻能在某種場景下工作。CPU AI有CPU AI的優勢,GPU AI有GPU AI的應用場景,加速器AI有加速器AI的應用場景。
量子位:所以如果從端到端的AI流水線、數據維度來看英特爾,其實軟件方面的努力是容易被忽視的?
戴金權:我認為,對開發人員或數據科學家來說最看重的是軟件生态,這是英特爾過去幾十年一直在做的,包括我剛剛說的開源軟件以及各種各樣的工作,關鍵就是如何打造一個軟件生态。
比如BigDL更适合的軟件生态是Spark。我是Spark的用戶,很多數據工程師原來用Spark做了非常多數據處理、數據分析甚至機器學習相關工作。采用BigDL這樣的工具可以在Spark大數據生态中實現很高效的開發。
我們研發并推出BigDL,不是說要和TensorFlow或者誰競争,這不是我們的目的。
我們希望針對不同的軟件生态用戶社區可以提供最好的工具給他們,所以在Analytics Zoo當中,我們會把像BigDL、TensorFlow、PyTorch或OpenVINO整合進來,最終幫助用戶解決問題。
我們的目的是采用所需工具解決新問題,也就是如何在大規模、分布式的大數據平台上更好地擴展。
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!