tft每日頭條

 > 圖文

 > 全自動寫文章神器

全自動寫文章神器

圖文 更新时间:2024-10-05 14:45:22

全自動寫文章神器(自動寫文章自動配圖)1

全自動寫文章神器(自動寫文章自動配圖)2


内容來源:近期,騰訊PCG新聞産品技術部算法中心李彪應邀來到騰訊媒體研究院,以“算法賦能的内容處理和分發”為主題進行了精彩分享,筆記俠經主辦方及講者審閱,授權發布。筆記達人 | 雷波封面設計 & 責編 | 智勇第 3791 篇深度好文:4837 字 | 10 分鐘閱讀

活動筆記·數字科技

本文優質度:★★★★★ 口感:碎碎冰

筆記君邀您,閱讀前先思考:

  • 算法有什麼用?
  • 算法是如何實現個性化的内容推薦?
  • 如何用算法賦能内容生産者?

今天我跟大家分享的主題是算法賦能的内容處理和分發,重點講一下内容處理。

開始之前,先介紹一下算法在騰訊新聞的應用場景。

全自動寫文章神器(自動寫文章自動配圖)3

第一個,騰訊新聞APP中各種内容形态(如圖文、視頻、音頻、話題、問答等)的理解和分發,涉及推薦系統,以及AI算法賦能内容的運營。

第二個,将騰訊新聞推送到微信,每次一個大圖和三條新聞資訊,一共四條,點進去有些底層頁能跳轉到騰訊新聞APP。

第三個,海豚智音,一個“聽新聞”神器,主要用于智能音箱、車載音響和智能家電,目前能提供市場上70%的語音資訊;它涉及語音摘要、語音錄制和個性化語音推薦算法。

第四個,輔助創作(Dreamwriter),涉及寫稿、内容創作、篩稿、配圖等非常多的東西,也是本文介紹的重點。

一、算法的框架

算法整體框架由底層算法和上層應用組成。底層算法有NLP方面的詞法、句法、篇章理解等、視覺方面的圖像質量、圖文匹配、圖像視頻理解等算法,還有針對搜索的一些基礎算法。

底層算法的上面嫁接了兩大類應用,分别是推薦系統和搜索,推薦系統可分為五步。

全自動寫文章神器(自動寫文章自動配圖)4

1.内容處理

它也稱内容管理系統,裡面嵌入了文本分類、打标簽、摘要提取、語意分析、内容去重、内容分析、糾錯、配圖、篩稿等等和内容處理相關的算法。

2.索引

将初選完後的内容,即預備分發給用戶消費的圖文、視頻等資訊,加入索引。

3.畫像

它可分成基礎畫像和拓展畫像兩部分。基礎畫像通過用戶分類、Tag等興趣點、用戶基礎屬性、用戶地理位置、用戶使用時間段等情況,為用戶提供個性化推薦;還可以借鑒第三方提供的畫像,為用戶做相應的推薦。

全自動寫文章神器(自動寫文章自動配圖)5

拓展畫像會有一些隐式标識,比如根據他點擊過的新聞序列,用一個向量描述他的興趣點,而不是将他的興趣劃入某個分類或标簽,這個向量也會用在召回和排序中。

4.召回

根據用戶畫像描述的用戶興趣以及用戶行為序列,在庫中找他需要的文章。比如通過畫像的标簽進行召回、通過模型預測用戶的畫像和文章的匹配度進行召回、根據用戶的行為序列進行召回等等。

召回時,還要綜合考慮文章的熱度,比如四川地震,可能不是用戶的興趣,但是是近期熱點,也要召回,讓用戶消費這篇資訊。

此外,還得考慮人群聚類,用戶可能和其他人群有類似的興趣,但不體現在用戶标簽中,這時就需要做一些聚合,把别人喜歡的東西推薦給用戶。

最終通過上面多種召回途徑在庫裡找出比較大的候選文章集合,準備推薦給用戶,但最終隻展示一部分,因此需要進入精排選出top的。

5.精排

這裡面涉及到排序算法,把底層最基礎的數據維度,比如用戶維度、内容維度設計出各種角度的特征,包括簡單的值特征,以及交叉特征,甚至複雜的模型計算出的特征,輸入到DNN FM模型做點擊和時長預估。

它的目的是從而從幾千篇候選資訊中篩出幾十篇,為什麼不是10篇、20篇呢?

因為這中間要考慮業務需求,比如多樣性因素,不能把用戶感興趣的資訊全給堆出來,要講究文章的多樣性,這裡面就涉及到去重打散,要給用戶更多的候選文章。

二、算法賦能内容

算法賦能内容運營,在公司内部叫青雲項目,英文是Dreamwriter,它的主要目的是通過算法來輔助内容的運營,提高它的工作質量和效率。

全自動寫文章神器(自動寫文章自動配圖)6

新聞内容運營和流程

先看看這個項目的背景,作為公司級的内容媒體平台,有非常多的稿件要入庫,存在稿件的精編、糾錯、篩稿、配圖、視頻增量和熱點監控這六大問題,整個流程非常耗時。

這擠占了編輯參與深度創作的時間,我們需要通過算法來解放他,讓他更好地創作。

三、這套算法能做什麼?

1.自動寫稿

輔助創作算法(Dreamwriter)能寫短文、能寫長文,它是如何做到的呢?基于模版的方法來寫作。

實際套路是根據原始的數據抓取或者是采買一些實時數據格式化入庫,然後進行邏輯的判斷,再根據信息的類型、類别選擇相應的模版生成稿子去發布。

全自動寫文章神器(自動寫文章自動配圖)7

這裡有兩個疑問:如何構造模版庫呢?如何做邏輯判斷呢?

構造模版庫時,先通過人工,比如編輯和運營會先寫比較簡單的稿件模版,基于這個模版,我們通過算法去疊代,然後通過模版填充了一些詞,再挖掘出詞在不同語境下的不同模版,再循環疊代挖掘得到更多的模闆。模闆進入模闆庫前,需要人工根據判斷準則審核一下。

接下來,我們再結合深度學習生成的模型提升模版的多樣化,比如一句話的表述,它可以表述成A,也可以表述成B,通過算法找出A和B的變化,最簡單的是進行同義詞的替換。最後再攻克表述銜接性的問題,就能得到一個更好的模版庫了。

有了模版庫之後再進行邏輯判斷,這時更多的根據内容源、所屬的場景類别決定使用哪些模版。我們現在的模版範圍挺大的,有一些類别是不需要人工審核,就可以直接發稿。

不過當前業界能自動寫稿的場景還是比較有限的,從流程看它比較依賴于算法挖掘出來的模版,當模版沒有套路時就很難做。

比如讓它寫一篇文學作品,當前是做不到的,因為它需要巧妙的構思。如果讓它寫一篇财經報道或者球賽報道,由于模式比較固定,機器肯定會做的很好。此外,生成式機器寫稿還存在一些問題,比如新冷詞不能很好地嵌入到文章裡、生成的句子會重複等。

2.自動配圖

這個工作在新聞裡面非常重要,它的目的是提升用戶體驗,吸引用戶去浏覽資訊。有些文章是沒有圖片的,如何通過算法給它配圖?當文章比較長的時候,如何實現分段配圖?有的文章裡面隻有一兩張圖,由于三圖文的點擊率會比單圖的高,如何湊滿三張圖呢?有時圖片比較多,如何選出高質量的圖,還和語意匹配呢?

全自動寫文章神器(自動寫文章自動配圖)8

最開始選圖時,隻要能過濾掉表情圖、微博、文字圖和表格圖就行,這時使用圖像的分類模型就能實現,缺點是有時候它選出來的圖和文章的語意匹配度不好。

舉個例子,比如之前網上畫了一個戶型圖,标題是君住長江尾我住長江頭,意思是說房子特别長,你住這頭,我住那頭,每天要跑很遠才能見面,第一版配的圖是它的報價,但是戶型圖沒有配。後來利用圖文語意匹配的模型解決了上述問題,整個語義匹配模型準确度超過90%,如何實現的呢?

先對标題或者正文的内容做一些标識,訓練時計算正例的圖片特征和負例的圖片特征之間的相對距離差,大于一個阈值,就認為語意匹配成功,即正例的圖片比負例的圖片和文章主題更貼近。

這裡引出另一個問題,即如何選正例的圖片和負例的圖片?通過人工在之前分發過的文章列表中找和文章語意最相似的圖片作為正例,至于負例,将在正文裡面達到一定條件的圖片作為負例,或者随機采一些負例。

在上述基礎之上,對于無圖的文章,我們先建立一個圖庫,這個比較簡單,可以和第三方合作。還将曆史分發的有問題的圖片建立另一個圖庫,并監控它的标簽。

有了圖庫,無圖、少圖、多圖的文章面臨的配圖難題就迎刃而解了。不過模型還需要進一步的改進,比如圖像所處的位置和文本的匹配,再比如圖像主體和文章想描述的主體之間的語義匹配。

3.自動提取摘要

它可分為兩種,一種是全文摘要,另一種是分段摘要。如何提取摘要呢?整個過程可分為四步。

第一步是預處理,做一些片斷的分析,比如圖像的注釋不适合做摘要,比如整篇文章沒有幾個字也不适合做摘要。

第二步是給句子打分,就是看看文章的哪些句子更可能被選為摘要的句子,假設跟文章标題最相關的句子作為摘要候選的句子,據此提取很多特征,比如句子的位置,在段首或者段尾的句子更有可能表達最重要的信息。

第三步是句子選擇,結合句子打分再考慮冗餘性和連貫性來篩選句子,篩選句子時,會遇到候選句子有很多的情況,需要去掉冗餘,這時先從庫中選一個句子,再和已選的句子集合進行匹配,相似度高的句子就放棄。還會遇到句子評分很高,但不能體現文章的核心内容的情況,這時需要做一些處理。

第四步是後處理,對選出來的句子做一些融合,再形成摘要,再然後通過人工評價内容是否通順、信息覆蓋是否全。

此外,智能的語音資訊也不能太長,因為10分鐘或5分鐘的語音會讓用戶很煩燥。這時需要對一篇新聞資訊提取出幾個摘要,确保一分鐘之内就能讀完。

4.自動生成短視頻

基于摘要配圖,再綜合文本,就能自動生成短視頻,即圖文轉視頻。有些文章,特别是娛樂類的圖片比較多,文字也不少,但是沒有對應的視頻,怎樣才能把這些圖文修成一個視頻呢?

全自動寫文章神器(自動寫文章自動配圖)9

先出一些摘要,再把摘要的句子打散,把這些句子配到每一個圖片上面。然後通過人工錄播或合成人聲搞定聲音,再做圖像之間的渲染和背景音樂的選擇,就生成了一個視頻。雖然它跟真實的視頻有一些差距,但是它的效果還是非常好的。

對于圖片比較少的文章,不足以支撐幾十秒的視頻時,需要通過自動配圖先給它配一些圖,再通過自動提取摘要萃取文章精華,最後自動生成短視頻。

5.分類平台

AI輔助運營時,有很多分類,比如文章質量分、調性分、自動篩稿、一級分類、二級分類、地域分類、題材分類,歸根到底,從算法的角度來說就是分類任務。

最難的就是定義分類的标準,比如說按照質量分,質量分為三級,什麼是一級、二級、三級,肯定有一個标準。在這個過程,編輯老師需要和算法團隊頻繁溝通如何制定标準,如何标注數據,還得不斷反饋這些标注的質量。

标準确定後,累積一定樣本就可以通過文本分類方法來做,我們分類平台能自動訓練,模型選擇,評估和在線服務化。

6.自動糾錯

由于錯别字的範圍不太好限定,所以錯别字的糾正非常難。常見的同音或近意錯别字,比如發标、發表,很容易糾正。

再難一點的是搭配錯誤,詞或者是字本身沒有錯誤,但是它不适合在這個語境用,搭配錯誤涉及到長距離的語意搭配錯誤(比如第一遍和第二遍的内容不一樣)和短距離的語意搭配錯誤。更難的是涉及知識内的錯誤,比如政治問題或者曆史人物信息等錯誤。

全自動寫文章神器(自動寫文章自動配圖)10

從應用角度來講,靠算法糾錯有時候不一定很準,有些本身沒有錯誤但算法提示錯誤,比如某一個人物講的話,這時需要标紅提醒一下。有時這個地方可能錯了,但算法沒有找到合适的詞去糾正,就有錯誤提醒。

自動糾錯大體可分為兩步。第一步是對輸入的文本先進行預處理,再加入一個規則系統。通用規則有成語、諺語,它是約定俗成的,字不對的話直接糾正過來就行。

第二步是通過模型糾正中高頻詞,通過自創方法糾正低頻詞。一般某一個字錯了,它的分詞也是錯的,這種需要結合上下文進行糾正,是比較難的。對于高頻詞的糾正,可以通過算法模型學習來實現。對于低頻次,就非常難學好。

7.生成簡報

即綜合好幾篇文章,自動生成一篇綜合性的文章,這個完全由算法來做。怎麼做呢?

首先是選文章,根據過去一天裡用戶反饋的信息,拿出一個候選的文章集合,再從每篇文章裡抽取摘要。

全自動寫文章神器(自動寫文章自動配圖)11

然後是配圖和選圖,這樣就得到了一個由标題、摘要和圖片組成的比較短的内容,之後把這些文章整合在一起。

接下來就是生成一個讓用戶更容易點的标題,最後需要人工審一下。

8.熱點監控

熱點監控會對不同來源的熱點做實時監控。監控之前需要更快的找到熱點,如何實現呢?

第一種是通過微信和微博,微信熱點通過内部合作來找到,微博熱點通過抓取大V之間的轉發、轉評贊等方式發現熱點。

第二種是根據用戶的消費情況找到熱點,相對會滞後一點,比如推薦系統裡面的統計熱點召回。

第三種是通過庫存的網站發現所謂的熱點,比如自媒體的文章同質非常多,通過算法得到潛在的熱點。

我的分享就到這裡,謝謝大家。

*文章為作者獨立觀點,不代表筆記俠立場。

主辦方簡介——

騰訊媒體研究院深耕媒體行業,探索媒體前沿趨勢研究與實踐落地,與内容生産夥伴砥砺前行。旗下設有課程體系(騰訊芒種特訓營)、顧問智庫、行業研究和産業賦能共四大體系。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关圖文资讯推荐

热门圖文资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved