tft每日頭條

 > 圖文

 > 人工智能畫作

人工智能畫作

圖文 更新时间:2025-03-12 01:37:07

金磊 蕭箫 發自 凹非寺

量子位 | 公衆号 QbitAI

家人們,聽說了嗎?

最近在“一句話生成畫作”這個圈子裡,又一個AI工具悄然火起來了。

不是你以為的Disco Diffusion、DALL·E,再或者Imagen……

而是全圈子都在講中國話的那種。

瞧,已經入圈的小夥伴們,都開始紛紛曬自己搞出來的傑作了:

人工智能畫作(國産AI作畫神器火了)1

從網友們上傳的諸多畫作來看,這個AI可以cover的風格還真不少。

腦洞大開的《熊貓騎摩托》,中國山水畫裡的春天小雨,絢麗的概念插畫《亞特蘭蒂斯》,甚至一隻黑白色調的戴帽子抽煙的狗……

人工智能畫作(國産AI作畫神器火了)2

那這個既能支持中文,又能hold住衆多畫風的AI工具,到底是什麼來頭?

不賣關子。

它的廬山真面目,正是百度最新對外發布的一款中文作畫AI——文心·一格

類似這種“你說我畫”的AI,聽說在國外已經火了很長一段時間。

現在終于等到了個國産版的,那麼它到底好不好用呢?

「文心·一格」的初體驗

既然在這個圈子流行講中文,那咱就先從“中國風”開始上手。

例如輸進去極具古典韻味的“江南水鄉”,然後在方向和風格上選擇“傳統”、“中國風”。

人工智能畫作(國産AI作畫神器火了)3

僅需等待片刻時間,“啪的一下”,一幅符合語義和風格的畫作就誕生了:

人工智能畫作(國産AI作畫神器火了)4

嘿~還别說,這畫還真有一股子“小橋流水人家”的味道。

既然是國風,那就更傳統一點,直接輸入一句古詩詞,看文心·一格會作何反應:

雲深不知處

人工智能畫作(國産AI作畫神器火了)5

整體來說,這幅畫作确實是把“雲之深”韻味展現得到位了。

據了解,文心·一格還可以繼續加大難度。針對AI圖像生成技術的資深用戶,一格即将開放高級自定義功能,支持文本描述結合參數設置的方式探索更多創意。

當然,也可以在”藝術家精品畫廊”裡先浏覽下内測用戶已經生成的圖片,像下面這張:

人工智能畫作(國産AI作畫神器火了)6

講真,若非知道這是AI創作的,第一眼還以為是哪個動漫中的場景,是有夠絢爛的了。

還有下面這一張,也同樣稱得上是驚豔絕倫。

人工智能畫作(國産AI作畫神器火了)7

但正所謂“貨比三家”,那麼文心·一格作為AI作畫這條賽道的“後起之秀”,和國外的産品相比又如何呢?

下一個挑戰環節,就是國内AI vs. 國外AI——惡犬咆哮。

人工智能畫作(國産AI作畫神器火了)8

較為明顯的是,Disco Diffusion的風格更趨向于狂野;而文心·一格則是更偏向現實主義一些。

再拿文心·一格和DALL·E 2做個比較——畢加索風格的貓:

人工智能畫作(國産AI作畫神器火了)9

在看完這兩者的創作對比,你覺得誰家的更畢加索一些呢?不過在這般效果背後,對應的問題也随之而來:

要生成風格更全面的圖片,文心·一格的用法會更複雜嗎?

懂中文,也懂“懶人”

用起來,并不複雜。

我們從操作界面、提示詞要求和性能要求幾方面,對Disco Diffusion和文心·一格等AI畫畫産品進行了簡單對比。

操作界面上,Disco Diffusion開放的接口不能說很複雜,但确實有點門檻。

它直接在谷歌Colab上運行,需要申請賬号後使用(圖片生成後保存在雲盤),圖像分辨率、尺寸需要手動輸入,此外還有一些模型上的設置。

好處是可更改的參數更多,對于高端玩家來說可操作性更強,隻是比較适合專門研究AI算法的人群:

人工智能畫作(國産AI作畫神器火了)10

相比之下,文心·一格的操作隻需三個步驟:輸入文字,鼠标選擇風格&尺寸,點擊生成。

人工智能畫作(國産AI作畫神器火了)11

前文已經提到,文心·一格同樣也具備Disco Diffusion的“高級自定義”功能,随後便會開放,對于想擁有更多“參數自由”的小夥伴們來說,同樣是個不錯的選擇。

至于提示詞,Disco Diffusion的設置還要更麻煩一些。

除了描述畫面的内容以外,包括畫作類别和參考的藝術家風格也都得用提示詞來設置,通常大夥兒會在其他文檔中編輯好,再直接粘過來。

人工智能畫作(國産AI作畫神器火了)12

關鍵一旦提示詞設置得不好,生成的效果就不盡如人意,需要反複嘗試、不斷細化,AI最終才能生成合适的畫面效果。

相比之下文心·一格倒是沒有格式要求,輸入150字的句子或詞組都可以:

人工智能畫作(國産AI作畫神器火了)13

當然,輸入畫家名字如莫奈,也能輸出對應風格:

人工智能畫作(國産AI作畫神器火了)14

最後是性能要求上,Disco Diffusion是有GPU使用限制的,每天隻能免費跑3小時。抱抱臉(HuggingFace)上部分AI文生圖算法的Demo雖然操作簡單些,但一旦網速不行,就容易加載不出來:

人工智能畫作(國産AI作畫神器火了)15

△測試mini DALL·E時加載就失敗過

相比之下,文心·一格除了使用高峰期以外,基本上都是2分鐘就能生成,對使用設備也沒有要求。

總體來看,同樣是文字生成圖片AI,實際相比文心·一格的“真·一句話生成圖片”,DALL·E和Disco Diffusion的生成過程都不太輕松。

所以在這背後,文心·一格生成圖像,究竟是基于一個怎樣的邏輯?

我們以輸入“雲深不知處”為例,希望能輸出一幅中國風的畫作。當接收到這幾個字詞(query)後,AI的腦細胞就開始“運作”了起來,從語法、詞法、語義等角度對文本進行分析。

如果将生成過程可視化,這個階段還看不出什麼效果,處于AI理解文本的階段:

人工智能畫作(國産AI作畫神器火了)16

很快,AI“拆解”文本後,理解要怎麼畫這幅畫了,于是在特定尺寸(用戶可選)的畫紙上,構思出整體的輪廓,兼具雲的元素和中國畫的風格:

人工智能畫作(國産AI作畫神器火了)17

随後,基于擴散生成模型的原理,叠代地完善并修正畫面細節,不斷提高清晰度、反複檢查圖文描述一緻性,用更精确的配色替代噪聲:

人工智能畫作(國産AI作畫神器火了)18

最後,生成名為《雲深不知處》的完整畫作:

人工智能畫作(國産AI作畫神器火了)19

看似“一句話生成圖片”不難,其實對AI語義理解圖像生成能力提出了進一步要求。

為了能更好地理解文本、提升輸出效果,文心·一格還在百度文心的圖文生成跨模态模型ERNIE-VilG的基礎上,進行了更詳細的優化。

為了提升圖文理解能力,在知識增強的基礎上,引入跨模态多視角對比學習

為了降低輸入要求同時提升效果,采用基于知識的文本聯想能力,讓模型學會自己擴展提示詞的細節和風格;

為了提升圖像生成能力,采用漸進式擴散模型訓練算法,讓模型來選擇效果最好的生成網絡。

人工智能畫作(國産AI作畫神器火了)20

此外,在訓練和數據上,文心大模型的産業級能力也進一步給文心·一格提供了幫助,例如AI訓練數據和平時在産業實踐中積累的經驗,都能應用到文心·一格的模型中去;至于百度知識圖譜的算法能力,則進一步提升了模型通用性。

值得一提的是,如果開發者想将文心·一格的能力用到産品中,直接調用ERNIE-VilG的API接口就行,可以說是非常方便了。

One More Thing

我們在試玩文心·一格的時候,還發現了左下角這些有意思的應用場景,一鍵就能生成預覽:

人工智能畫作(國産AI作畫神器火了)21

例如,頗有自如風格的裝飾畫:

人工智能畫作(國産AI作畫神器火了)22

老闆批量發年貨時印的編織袋(手動狗頭):

人工智能畫作(國産AI作畫神器火了)23

其實,這也是文心·一格區别于Disco Diffusion、OpenAI的DALL·E 2的另一個特點——更強的實用性。

不僅普通玩家可以用來生成自己想畫但畫不出來的内容,絕不會有兩幅相同的畫作,腦洞再放大點,就連媒體作者等文字内容創作者,也能用它高質量高效率配圖。

(嗯,以後你看量子位的文章,說不定有些配圖就是用AI生成的)

專業畫師、或是設計師和藝術家,更可以用它來啟發靈感、輔助創作。

當然,從官網看來,這個産品還在更新叠代、進一步優化中。

至于未來是否會在更多數字藏品、插畫、海報和電影動漫中,看見文心·一格的畫作?

我們拭目以待。

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关圖文资讯推荐

热门圖文资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved