tft每日頭條

 > 圖文

 > 藝術家ai技術

藝術家ai技術

圖文 更新时间:2024-05-16 12:10:54

藝術家ai技術(AI幹掉程序員後)1

幾十年前,柯達說出了那句經典的廣告語,「你負責按快門,剩下的交給我們」。在未來,AI 興許也會打起類似的廣告,「你什麼都不用幹,剩下的交給我們」。

人工智能領域缺錢,但這兩個月來,他們不缺「好消息」。

Google 母公司 Alphabet 旗下的 DeepMind,先推出了蛋白質結構預測 AI——AlphaFold 2,為困擾了生化學界 50 年的難題提供了解決思路;接着又發論文介紹「進階版 AlphaGo」——MuZero,這個 AI 能在完全不知道棋局規則和人類知識的情況下,自己摸索,決策,并赢棋。

2021 年的第一周還沒過去,AI 就再次向人類發起了「挑釁」。

AI 研究機構 OpenAI,繼去年部分開放了 AI 模型 GPT-3 并引爆整個科技圈之後,又于近期連發了 DALL·E 和 CLIP 這兩個連接文本與圖像的神經網絡。它們剛一面世,就點燃了整個 AI 社區。因為人們發現有了這些神經網絡,就能通過自然語言操縱視覺概念,比如,你輸入「一把牛油果造型的扶手椅」,它們就能通過圖像合成,「憑空捏造」出一系列的目标圖像。

藝術家ai技術(AI幹掉程序員後)2

什麼是人工智能的未來?《麻省理工科技評論》認為就是「那把牛油果造型的扶手椅」,因為 AI 又往「構建多模态 AI 系統」這個長期目标又邁近了一大步。

「幹掉」程序員後,AI 又對藝術家下手了

DALL·E 率先在社交網絡上刷起了屏,因為人們放出了很多看起來像憑空捏造的合成圖,比如「立方體狀的豪豬」、「由烏龜變成的長頸鹿」和「豎琴狀的蝸牛」,這些就像是超現實主義畫家薩爾瓦多·達利在夢裡會看到的奇異造物。有意思的是,DALL·E 也正是「Dalí」和皮克斯動畫形象「WALL-E」的合成詞。

藝術家ai技術(AI幹掉程序員後)3

豎琴狀的蝸牛

DALL·E 是 OpenAI 基于 GPT-3 開發的一種「用字生圖」的 AI。GPT-3 本質上是一個自然語言處理(NLP)模型,機器就是依靠 NLP 理解了我們平時說的「人話」。在 1750 億參數量基礎上的 GPT-3,展現出了驚人的翻譯、問答和文本填空能力,寫出來的新聞甚至通過了圖靈測試,人們分辨不出是人還是機器寫的。

GPT-3 可擴展性非常強大,甚至可以用在無代碼開發領域。無代碼就是就是不用敲代碼也可以直接生成程序,而 GPT-3 就是強大的無代碼開發平台,隻要對它輸入你想要什麼樣的網頁或者 app,它就能幫你直接生成。因此,業内認為基層碼農将會被 AI「幹掉」。

而 DALL·E 是 GPT-3 的一個小版本,使用了 120 億個參數。它使用的是「文本-圖像對」的數據集,而非像 GPT-3 那樣廣泛的數據集。「從原理上來看,它應該就是 GPT-3 在文本合成圖像方向上的擴展版本。」Keras 創始人 François Chollet 表示。

DALL·E 可以利用自然語言從文字說明中「捏造」圖像,就像 GPT-3 創建網站和寫故事一樣。DALL·E 生成複雜圖像的表現,讓人驚喜,比如下面這則包含多個要素的目标文本:「一隻戴着紅帽子、黃手套、藍襯衫和綠褲子的刺猬」。

要正确地解釋這句話,DALL·E 不僅要正确地将每件衣服與動物組合在一起,還要将(帽子、紅色)、(手套、黃色)、(襯衫、藍色)和(褲子,綠色)形成各種聯想,而且還不能混淆它們。

藝術家ai技術(AI幹掉程序員後)4

這張圖顯示了 DALL·E 掌握了理解相對定位、堆疊對象和控制多個屬性方面的能力|OpenAI

因為足夠強大的 NLP 底層,DALL·E 還能執行多種圖像到圖像的翻譯任務,比如「參照上面的貓在下面生成草圖」、「畫出和上面一樣的茶壺,并在茶壺上寫上『GPT』」等等。除此之外,DALL·E 也能理解地理事實,生成讓人信服的「中國食物的圖片」,它甚至也能理解「時間」,畫出從 20 年代起發明的電話,甚至聯想未來的手機。

藝術家ai技術(AI幹掉程序員後)5

中國食物

藝術家ai技術(AI幹掉程序員後)6

各個年代的手機

另外,它還能根據文字指令「看日出的水豚鼠」,生成諸如波普風格、超現實主義風格、浮世繪風格等不同藝術風格的畫作,還能渲染出各個角度下美洲獅的細節。

藝術家ai技術(AI幹掉程序員後)7

看日出的水豚鼠

Coursera 創始人、斯坦福大學教授吳恩達還特别對 OpenAI 表示祝賀,并挑選了自己最喜歡的「藍色襯衫 黑色長褲」的 AI 生成圖。DALL·E 能不能成為藝術家不敢說,但成為 AI 大神的着裝參謀,綽綽有餘。

藝術家ai技術(AI幹掉程序員後)8

吳恩達的 Twitter

一個生成圖像,一個匹配文字和圖像

但 DALL·E 目前也存在局限,比如當人們引入更多的對象時,DALL-E 容易混淆對象及其顔色之間的關聯。另外,用意思相同的詞重新表述指令,生成的圖像也不一緻。還有一些迹象表明,DALL·E 隻是在模仿它在網上看到的圖片,而不是生成新穎的圖像。

而 OpenAI 同期發布的 CLIP(Contrastive Language–Image Pre-training),則是為了加強文本和圖像的關聯程度而誕生的。CLIP 是一個從互聯網上收集的 4 億對圖像和文本來進行訓練的多模态模型。

CLIP 使用了大量可用的監督資源,即網絡上找到的文本-圖像對。這些數據用于創建 CLIP 的代理訓練任務,即給定一張圖像,然後預測數據集中 32768 個随機采樣文本片段中哪個與該圖像匹配。

簡單來說,CLIP 能根據視覺類别名稱,自己分類圖像,創新點在于它學會了識别圖像,而不是像大多數現有模型那樣,通過數據集中的标簽(比如「貓」或「香蕉」)識别圖像,而是從互聯網上獲取的圖像及其标題中識别圖像。

CLIP 瞄向的,就是當前深度學習的兩個「痛點」:一是數據集構建成本高昂;二是數據集應用範圍狹窄。具體來說,深度學習需要大量的數據,而視覺模型傳統上采用人工标注的數據集進行訓練,這些數據集的構建成本很高,而 CLIP 可以從互聯網上已經公開可用的文本圖像對中自行學習;CLIP 可以适應執行各種各樣的視覺分類任務,而不需要額外的訓練樣本。

另外,實驗結果表明,經過 16 天的 GPU 訓練,在訓練 4 億張圖像之後,Transformer 語言模型在 ImageNet 數據集上僅實現了 16% 的準确率。CLIP 則高效得多,實現相同準确率的速度快了大約 9 倍。

藝術家ai技術(AI幹掉程序員後)9

簡單來說,DALL·E 可以基于文本直接生成圖像,CLIP 則能夠完成圖像與文本類别的匹配。

出門問問 CEO 李志飛曾告訴極客公園(ID: GeekPark),「GPT-3 随着數據和參數規模增大而展現出的學習能力曲線,目前也還沒有要停止的意思。雖然 AI 的學習能力還沒有達到大家公認的「摩爾定律」,但是過去幾年确實看到模型每幾個月就翻倍。可以預測到的是,GPT-4 參數又會增大至少 10 倍,而且處理的數據将會更加多模态(文字、圖像、視覺、聲音)。

OpenAI 首席科學家 Ilya Sutskever 也在推特上發文表示:「人工智能的長期目标是構建多模态神經網絡,即 AI 能夠學習不同模态之間的概念(文本和視覺領域為主),從而更好地理解世界。而 DALL·E 和 CLIP 使我們更接近『多模态 AI 系統』這一目标。

DALL·E 和 CLIP 的出現,讓人們看到自然語言與視覺的壁壘正在被逐漸打通。

幾十年前,柯達說出了那句經典的廣告語,「你負責按快門,剩下的交給我們」。在未來,AI 興許也會打起類似的廣告,「你什麼都不用幹,剩下的交給我們」。

本文作者:biu

本文圖片:OpenAI

責任編輯:于本一

本文由極客公園 GeekPark 原創發布,轉載請添加極客君微信 geekparker。


,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关圖文资讯推荐

热门圖文资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved