前段時間,一直有人在問,為什麼國内無法注冊ChatGPT,網上的回答也五花八門,主要的歸為兩類:“不可抗拒力”、“因為基于谷歌的機器學習服務,所以被限制”
第一個回答等于啥都沒說。對于第二個,筆者内心總是盤旋着一個詞“瞎扯”
今天正好新的文章還在做信息梳理,就抽1小時和大家聊聊。
先證僞 - 我們從2個角度先來交叉驗證這句話是“瞎扯”哈:
1、OpenAI的商業脈絡
結論:從整個脈絡來看,google完全沒有介入OpenAI,而且從始至終都是競争關系(滅霸和複仇者聯盟........)
2、AI整個生态底層服務組成
AI由算法、模型 數據集、上層應用組成
結論:這些ChatGPT的關鍵要素扒開來看,就沒有任何google身影,更何況基礎模型都是開源的。
綜上,我們推翻了“因為google服務所以無法在國内使用”的猜測。那到底是因為什麼?
做假設和論證 - 網上那麼多大神都沒說明白為什麼,筆者當然也不敢造次,所以今天選擇從“模型準确性”角度來說一說國内不開放的理由。
大家都知道,ai的核心是對數據進行特征鑒别(也叫學習)并通過反饋來強化學習。然後運用計算機超強的算力幫助人類對所有處理後數據進行歸類、統計、分析甚至于創造性的工作。那麼對于數據特征的鑒别準确性就是一個關鍵指标(舉個栗子,你家要買指紋鎖,有1%的認假率,你敢買嗎?肯定不敢。但現在認假率已經遠遠小于0.001%,所以才形成了目前的市場規模)。隻有識别準确,之後的分析、統計工作才有價值。
我們再來看ChatGPT是如何訓練來做提升模型準确性的(RLHF技術):
這張圖網上已經放過好多輪了,用通俗一點的文字來說:
第一步:用高質量數據集進行訓練【人類公認理性回答】
第二步:多個結果讓AI挑最符合人性【有情商的回答給個糖吃】
第三步:通過回傳來叠代優化第二步,直到模型收斂。【通過大量實踐,越來越有情商】
第一和第二都是需要OpenAI内部來完成,但第三步是通過ChatGPT上線後大量API調用的反饋來實現(待進一步驗證)。
是不是有點品出那味兒了?
第一步“40歲的阿姨,媽媽教我們要叫阿姨”;
第二步“40歲的阿姨,叫姐姐”,然後你老媽給你獎顆糖;
第三步“40歲的阿姨,叫漂亮姐姐”,然後阿姨給你吃了一顆糖。
關鍵是,這顆糖是阿姨給你吃的!
現在我們來看ChatGPT為什麼國内不能訪問?也許根本就不是OpenAI不給我們用,而是我們不想給OpenAI提供數據和反饋。糖留着給自己的孩子呀!(比如3月将發布的百度AI聊天工具)
寫到這裡,感覺差不多閉環了,說服我自己可以發了。
介紹一下自己:30年遊戲玩家,14年遊戲相關行業從業者。聚焦科技創新 商業化落地解決方案。
未來我們會每周調研一個AIGC相關細分賽道,如果您也有想要了解和探索的方向,歡迎一起交流合作。也歡迎各位交流行業、市場、産品、技術、管理等方面内容。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!