tft每日頭條

 > 科技

 > ai預測真有這麼厲害

ai預測真有這麼厲害

科技 更新时间:2024-08-13 18:12:22

曉查 夢晨 發自 凹非寺量子位 報道 | 公衆号 QbitAI

一個比GPT-3還大的AI模型,如果把近5年中文互聯網能爬取到的内容看了個遍,會怎麼樣?

能學會日語。

ai預測真有這麼厲害(全球最大AI巨量模型)1

我們把日語詞彙“氣持”的中文含義告訴它,它能熟練運用“氣持”造句。

也許你沒見過“氣持”這個詞,但你大概聽過它的發音“kimochi”(手動狗頭)

新詞

輸入-語義

生成文本

氣持

“氣持”是心情、精神狀态的意思。例:“那種消極的氣持又控制了他”。用“氣持”寫一句話:

他的氣持,使我無法接近

懸命

“懸命”是拼命,竭盡全力,做出最大努力的意思。他凡事必懸命,絕不打馬虎眼。用“懸命”造句:

他這個人做事太懸命了,為了取得第一手材料,連飯也顧不上吃

開發它的工程師還告訴我們,如果把“yyds”的意思是“永遠的神,用于誇張地贊歎某人某事很厲害”輸進去,也可以達到相同效果。

也就是說,如果網絡上誕生什麼新的詞彙,這個AI學會它隻需一句話。

而且這個AI看完全部内容隻用了16天

它就是全球最大規模AI巨量模型“源1.0”,帶着2457億參數最大高質量中文數據集來了,突如其來。

ai預測真有這麼厲害(全球最大AI巨量模型)2

在過去4個月裡,有一群浪潮工程師,他們把近5年互聯網内容濃縮成2000億詞,讓AI在16天内讀完,終于煉成了“源1.0”。

除了“學習日語”,諸如知識問答:

問:大李杜是李白杜甫,小李杜是李商隐和誰?

源1.0答:杜牧

甚至和女朋友吵架(doge):

輸入:我好心問你吃了飯沒,你又罵我

源1.0回答:我又沒罵你,你自己對号入座

這些現代社交基本技能,“源1.0”不在話下。

更厲害的是“源1.0”擁有的2000億詞是“人類高質量中文數據集”,這是什麼概念呢?

假如一個“讀書狂魔”一個月能讀10本20萬字小說,那麼他需要讀1萬年才能看完整個語料庫,而且還是剔除99%數據後的高質量文本。

去年GPT-3橫空出世效果驚人,除了1750億的參數規模,還有就是570GB的英文語料庫。

而“源1.0”的參數量比GPT-3多出40%,語料庫總體積達到5000GB,是GPT-3的近10倍

源1.0中文語音模型

GPT-3英文語言模型

參數量

2457億

1750億

數據量

5000GB

570GB

計算量

4095PD

3640PD

業内人士指出,5TB這樣的數據體量在中文互聯網資源上,應該已經做到了極緻。

有了“人類高質量中文數據集”,“源1.0”通過圖靈測試證明了自己能搞定中文,而且整體效果比GPT-3處理英文更佳。

“源1.0”生成的文本,隻有不到半數能被人正确識别為AI生成,僅詩歌“騙過”人類的概率較低。

畢竟是處理古文,對于主要學習網絡中文資源的AI來說,是有點超綱了。

ai預測真有這麼厲害(全球最大AI巨量模型)3

這樣一個AI,訓練起來一定花費了很多算力吧?

的确,源1.0在浪潮計算集群上“火力全開”訓練了16天,能在CLUE上成功“霸榜”也就毫無意外了。

在零樣本學習榜單中,“源1.0”超越業界最佳成績18.3%,在文獻分類、新聞分類,商品分類、原生中文推理、成語閱讀理解填空、名詞代詞關系6項任務中獲得冠軍。

ai預測真有這麼厲害(全球最大AI巨量模型)4

(注:第一名是人類)

在小樣本學習的文獻分類、商品分類、文獻摘要識别、名詞代詞關系等4項任務獲得冠軍。在成語閱讀理解填空項目中,源1.0的表現已超越人類得分。

ai預測真有這麼厲害(全球最大AI巨量模型)5

但是要讓大模型效果好,不是光靠堆算力和數據就能堆出來的,還需要解決巨量模型訓練不穩定等諸多技術難題。

至于背後更多技術細節,浪潮透露,他們近期會将研究論文發布在arxiv上。

作為一家提供服務器、數據存儲相關業務的公司,浪潮為何也開始加入“煉大模型”隊伍了?這讓人感到意外,也許真的是時候轉變老觀念了。

“源1.0”誕生靠什麼?

在不少人的觀念裡,超大規模NLP模型的前沿基本由互聯網軟件公司把持。

但實際上,很多超大模型已經是“三位一體”——算力、數據、算法都來自一家——的研究方式了。

OpenAI的研究已表明,算力、數據量、參數量的增加都會降低模型訓練的損失。

ai預測真有這麼厲害(全球最大AI巨量模型)6

而且三者之中的任何一個因素都是獨立的,優化模型性能需要三者協力。

浪潮的硬件底子有能力把算力、數據都推到了極緻。

連續16天訓練

“源1.0”整個訓練過程中,消耗算力約4630PFLOPS-day,這是什麼概念呢?比去年GPT-3還多12.5%。

ai預測真有這麼厲害(全球最大AI巨量模型)7

但訓練模型不是簡單的插入GPU闆卡,在大規模并行計算中的硬件優化更考驗能力。

憑借多年大型服務器上的經驗,多年前,浪潮就推出了深度學習并行計算框架Caffe-MPI,後來又推出了TensorFlow-Opt。

這些框架針對大型服務器進行優化,在多GPU場景下性能損失很少。

ai預測真有這麼厲害(全球最大AI巨量模型)8

人類高質量數據集

僅僅有強大算力是遠遠不夠的,當今的AI技術重度依賴于數據。

做中文自然語言模型,面臨的第一道障礙就是語料庫。

當今全球互聯網仍然以英文資源為主。以維基百科為例,英文維基共有638萬詞條,而中文僅123萬,還不到前者的1/6。

再加上互聯網上充斥着大量低質量文本,比如廣告、最近流行的廢話梗,要是都讓AI學了去恐怕會學成“智障”。

浪潮此次抓取了2017至2021年所有中文網頁内容、新聞、百科以及電子書

為了剔除絕大多數的低質量文本,浪潮開發高性能分布式數據清洗軟件,耗時近一個月,終于得到5TB的全球最大高質量中文數據集。

最大單一模型

另外,“源1.0”還創下另一項之最:全球最大單體AI模型。如何理解?

浪潮信息副總裁、AI&HPC産品線總經理劉軍表示:

具體來講就是說單體特别大叫巨量模型,現在最典型巨量模型是GPT-3,有1750億參數,浪潮“源1.0”是2457億,不管在中國還是在全球都是最大規模的。

與單體模型對應的是混合模型。

混合模型是專家模型的一個混合、集合。它是由多個小模型混合起來的,中間通過開關機制來工作,每一個小模型大約在100億參數左右。

如果要做比喻的話單體模型就是珠穆朗瑪峰,而混合模型就是一群小山。

研究單體模型如同去攀珠穆朗瑪峰,這種巨量模型的在科學和産業中價值是非常大的。

“會當淩絕頂,一覽衆山小。”

ai預測真有這麼厲害(全球最大AI巨量模型)9

單體模型能見所未見,從訓練中産生更高層次的知識。這也是“源1.0”為何無需微調就能在零樣本和少樣本任務中取得不俗成績。因為單體模型的“思維”在訓練中得到升級。

當然,訓練單體模型付出的代價也更高。

為提升計算效率,浪潮通過優化大模型結構、節點内張量并行等算力協同優化的方式大大提升計算效率,取得了當前業界一流的計算性能。

浪潮的深度學習訓練集群管理軟件AIStation、集群并行計算深度學習框架Caffe-MPI、TensorFlow-Opt等在其中發揮了重要作用。

“源1.0”能做什麼?

浪潮花費巨大精力将AI巨量模型煉出來,能做什麼?

從CLUE榜單的成績中可以看出,“源1.0”最擅長的是少樣本學習和零樣本學習,特别是在文本分類、閱讀理解和推理方面的一系列的任務上都獲得冠軍。

不過真正落地應用時考驗的還是AI模型的綜合實力,就像一個人走出學校來到工作崗位,這時分科目的考試分數不再重要,最終看的是如何把學習到的知識用起來,去解決真正的問題。

以智能客服為例,這種與人類一對一交流的場景就對AI模型能力的要求極高。

從最基本的理解用戶意圖并給出正确答案,到多輪對話中保持上下文的連貫性,最後還要讓AI能識别用戶的情緒變化,在對話中滿足用戶在情感上的需求。

如果換成手機上的智能助手,還要求AI在長時間對話中保持身份的一緻性,不能出現前後矛盾。

對話之外,還有商業和法律上的長文檔的閱讀理解、生成摘要,新聞和小說等文本生成輔助創作,都是巨量模型的用武之地。

ai預測真有這麼厲害(全球最大AI巨量模型)10

被問及為何将模型命名為“源”時,劉軍的解釋是:

希望巨量模型成為整個産業AI化的創新源頭。

浪潮為何要做“源1.0”?

一家傳統觀念中的服務器和IT服務廠商,為何突然做出超大語言模型?

浪潮此舉似乎令人意外。

但是梳理浪潮近年來的發展軌迹,可以說是“蓄謀已久”了。

在基礎算力方面,浪潮在全國各地建立智算中心,作為AI基礎設施。

在基礎軟件方面平台方面,浪潮有AIStation開發訓練平台,還先後推出深度學習并行計算框架Caffe-MPI、TensorFlow-Opt、全球首個FPGA高效AI計算開源框架TF2等等。

同時,浪潮還提供大數據服務雲海Insight。

算力、軟件平台、大數據能力聚齊,不足的就隻剩算法。

浪潮其實早已加碼AI算法的研究,多年前低調成立了人工智能研究院,終于補上了最後一塊拼圖。

最終,人工智能研究院的研發團隊,曆時4個月打造出2457億參數中文模型“源1.0”。

“源1.0”的發布,意味着 “算力、數據、算法”三位一體的時代已經到來,我們不能再将AI公司看成三要素中的一環,浪潮已經成為一家“全棧式”AI企業。

從去年GPT-3出現以來,人們已經看到NLP将大規模落地的前景。

但問題在于,中國有能力開發出中文AI巨量模型的公司屈指可數,大大限制NLP的應用。

去年OpenAI發布的GPT-3現在也隻是少量開放API,處于供不應求狀态。超大NLP模型效果驚人,卻難“接地氣”。

OpenAI的解決方法是:将AI開放給有能力的開發者,由他們二次開發,再提供給用戶。

例如GitHub用GPT-3開發出自動編程工具Copilot,再将插件提供給其他公司,用于提升程序員效率。

ai預測真有這麼厲害(全球最大AI巨量模型)11

△ 利用GPT-3自動補全代碼

不同于GPT-3商用思路,源1.0未來将定向免費開放API。2019年,浪潮推出了“元腦生态計劃”,生态中的參與者有兩類,一類是擅長做技術的“左手夥伴”,另一類是具有業務落地能力的“右手夥伴”。

發布“源1.0”巨量模型後,浪潮的下一步是向元腦生态社區内所有開發者開放API。

左手夥伴進行二次開發,右手夥伴再利用二次開發技術應用于産業。

有了“源1.0”的開放API,左手夥伴開發出單打獨鬥時靠小模型難以實現的功能,再交由右手夥伴落地實施。

且随着NLP推理需要的運算資源越來越大,“源1.0”與浪潮智算中心的雲端算力結合,才能開發出更多類似于Copilot等以前無法部署的AI應用。

10年前,沒人會料到AI算力和模型的發展速度如此之快。

2012年AlexNet刷新ImageNet模型,打開了計算機視覺落地的時代,如今任何一台手機都可以輕松運行各類圖像識别、後處理AI任務。

去年GPT-3的出現,開啟了NLP超大模型落地時代。至于它什麼時候能用在手機上,劉軍說:“樂觀估計在5年以内。”

在過去兩年,我們已經零星看到了小型NLP模型在手機上的應用。例如谷歌在手機上實現離線的語音識别,即使沒有手機沒有信号、沒有WiFi。

ai預測真有這麼厲害(全球最大AI巨量模型)12

現在,手機AI離線翻譯開始逐步上線,但由于手機算力以及模型體積原因,離線翻譯的效果還遠遠比不上在線翻譯。

但NLP應用遭遇到算力瓶頸,由于算力資源寶貴,基于GPT-3的代碼補全工具Copilot現在隻能處于小規模試用階段。

AI寫小說、與人對話、輔助編程現在就已經充滿了想象空間,待算力資源、超大NLP模型普及,未來還有哪些應用現在真的難以想象。

斯坦福大學李飛飛教授等知名學者近期在一篇闡述預訓練模型的機遇與風險的論文中表示,這類巨量模型的意義在于突現(Emergence)和均質(Homogenization)。

ai預測真有這麼厲害(全球最大AI巨量模型)13

李飛飛所說的“突現”是指,當數據規模和參數規模大到一定程度時,量變最終能産生質變,完成更高難度的任務。

現在2457億參數、5TB數據集訓練出來的“源1.0”是通往質變路上的一次必然的嘗試。

“均質”是指,AI有了小樣本和零樣本學習的泛化能力,不經過微調就能直接用于之前沒見過的新任務,讓語言AI具備舉一反三的通識能力。

而且這種通識,讓預訓練模型不必在經過複雜的“微調”過程,一家訓練完成,便可開放給各行各業使用,進一步降低AI應用門檻。

我們不知道未來AI巨量模型的質變會帶來什麼“殺手級應用”,但至少有一些科技公司正在朝着質變的道路上探索,“源1.0”就是這樣一種嘗試。

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved