tft每日頭條

 > 科技

 > ai發展過程和知識體系的思維導圖

ai發展過程和知識體系的思維導圖

科技 更新时间:2024-08-16 08:21:10

本文主要講知識圖譜中對相關AI技術及NLP自然語言理解(NER/ER/CR/RE),在愛奇藝産品中的應用,enjoy~

ai發展過程和知識體系的思維導圖(AI知識圖譜技術的實際應用)1

國際研究咨詢公司Gartner調查指出,根據人工智能技術成熟曲線,有86%的人工智能技術尚未進入成熟期,但AI技術中也有非常成熟的AI技術,例如:CV(人臉識别、體态識别等)、計算機聽覺,MIC拾音提取音素等。

本文主要講知識圖譜中對相關AI技術及NLP自然語言理解(NER/ER/CR/RE)在愛奇藝産品中的應用。

一、需求:AI知識圖譜技術應用的業務場景

我們看一個視頻常常會在視頻的旁邊看到猜你喜歡,偶爾可能也會在視頻上進行彈幕讨論一下視頻内容,或者在看視頻的過程中會看到與視頻中某個内容相關的小廣告飄出,還有為了看視頻充值而咨詢一下人工智能客服,又或者智能醫療,或者網上快速獲得貸款的背後的金融智能風控等等。

總結下來AI知識圖譜的商業應用需求場景如下:視頻推薦,AI鑒黃、廣告精準推薦、金融風控、教育(智能排課/監播體系/手寫體)、醫療、投資等等。

二、概念:知識圖譜的前世今生

知識圖譜前世:

根據維基百科獲得知識圖譜曆史即前世:知識圖譜2012年加入Google搜索,2012年5月16日正式發布,首先可在美國使用。知識圖譜除了顯示其他網站的鍊接列表,還提供結構化及詳細的關于主題的信息。

其目标是,用戶将能夠使用此功能提供的信息來解決他們查詢的問題,而不必導航到其他網站并自己彙總信息,即起始階段知識圖譜是Google的一個知識庫。

AI知識圖譜的今生個人見解:

傳統數據庫——>知識圖譜化,所有傳統低效率的數據表現形式(指:數據相關架構、數據結構、數據表、數據庫)都會逐步轉向高效率的AI知識圖譜化。原因是AI知識圖譜才是用戶想要的數據可視化,怎麼理解呢?

例如你搜索連詩路,是一個網頁那就是傳統數據庫展示的結果,如果搜索連詩路顯示上海路奇智能科技創始人,AI賦能AI重新定義産品經理等暢銷書的作者,那麼後者就是AI知識圖譜實現的數據可視化。

三、視角:知識圖譜處理視頻中鑒禁語&鑒黃的應用流程

具體的業務問題是管理愛奇藝視頻直播中的禁用詞語和黃色視頻,首先确定了AI知識圖譜應用範圍。

然後步驟流程如下:

1. 數據的收集 & 預處理

建立一個禁用語語料庫,這個禁用語可以有第三方語料庫供應商提供,也可以自己建立,也可以在第三方語料庫的基礎上進行疊代匹配使用。

在數據收集和處理階段會用到AI知識圖譜的命名實體識别NER技術,也會用到關系抽取RE,實體統一ER、和指代消解ER等NLP的子技術。

原因是數據分為結構化數據和非結構化數據及半結構化數據,結構化是指數據庫裡的數據,而我們遇到的大多數數據是非結構化和半結構化數據,例如數據庫不能直接存取的數據大多是非結構化數據。

ai發展過程和知識體系的思維導圖(AI知識圖譜技術的實際應用)2

以上圖直播視頻圖為例,SS=手速,MS=秒射,而XD=胸大or兄弟?這裡就需要AI知識圖譜中的NLP的指代消解ER技術來理解處理SS=手速,MS=秒射,然後判斷是否需要封鎖背後的ID,當然做一款産品還要考慮封了以後的步驟,本文先不多說,日後再開篇撰寫。

2. 設計知識圖譜

關于知識圖譜的設計有很多原則,總體概述下來有:以理解業務原則、以可以分析為原則、以高效為原則、以含可拓展為原則、以其他規則為原則等等。

但是設計知識圖譜過程如下:

(1)需要哪些實體、關系和屬性?

連詩路與路奇是兩個實體,合夥人是一個屬性,智能是另外一個屬性,連詩路與暢銷書《AI賦能》是兩個實體,作者是一個關系屬性,還可能有2019年等等屬性。

例如下圖:

ai發展過程和知識體系的思維導圖(AI知識圖譜技術的實際應用)3

(2)哪些屬性可以做為實體,哪些實體可以作為屬性?

構建ER實體關系圖的時候,有些屬性可以作為實體,有些實體可以作為屬性,在關系轉化中有兩條準則如下:

  1. 作為屬性,不能再具有需要描述的性質。屬性必須是不可分的數據項,不能包含其他屬性。
  2. 屬性不能與其他實體具有聯系,即E-R圖中所表示的聯系是實體之間的聯系。

3. 講知識圖譜存在知識圖譜數據庫中

存儲上要面臨存儲系統的選擇,但由于設計的知識圖譜帶有屬性,圖數據庫(區别于傳統數據庫SQL/MYSQL等)可以作為首選,但至于選擇哪個圖數據庫也要看業務量以及對效率的要求。

如果數據量特别龐大,則Neo4j很可能滿足不了業務的需求,這時候不得不去選擇支持準分布式的系統比如OrientDB, JanusGraph等,或者通過效率、冗餘原則把信息存放在傳統數據庫中,從而減少知識圖譜所承載的信息量。

通常來講,對于10億節點以下規模的圖譜來說Neo4j已經足夠了。

四、應用:愛奇藝智能客服奇小藝産品設計

1. 構建奇小藝知識圖譜

根據實體、屬性兩個元素完成一個知識圖譜的構建,步驟如下:

  1. 根據知識領域對原始知識進行分類,如充值類、賬号密碼知識等,以部分充值類知識為例,包括“充值入口在什麼地方?”、“充值的客服官方電話号碼?”、“充值轉讓辦理業務需要什麼資料?”、“充值辦理業務能不能退費?”等;
  2. 确定同類問題的實體,如步驟 1 中問題的實體為“充值”;
  3. 确定實體的屬性列表,如實體“充值”的屬性包括“官方入口地址”、“官方客服電話”、“服務内容”等;
  4. 檢索實體的全部屬性,确定所有下級屬性,如屬性“服務内容”的下級屬性包括“電影”、“禮物”等;
  5. 重複步驟 4 直至不存在下級屬性。

構建知識圖譜如下圖所示:

ai發展過程和知識體系的思維導圖(AI知識圖譜技術的實際應用)4

2. 将奇小藝知識圖譜實例化

知識圖譜的實例化是指為知識圖譜中的實體和屬性設置條件、為屬性設置參數以及為實例設置标準答案的過程。一個知識圖譜可以有多個實例,每個屬性實例擁有一個标準答案。

實例化過程如下:

  1. 确定待實例化對象,如“充值”;
  2. 設置條件,完成對象的實例化,如條件為“奇秀右上角充值入口”,得到對象實例“奇秀充值鍊接”;
  3. 确定待實例化屬性,如“官方客服電話”;
  4. 設置參數,完成屬性的實例化,如參數為“直播”,此時對象實例為“奇秀直播充值”,屬性實例為“直播充值”;
  5. 為屬性實例設置标準答案,如“010-xxxxxxxx”。

以上完成了一個實體及其屬性的實例化,同一個實體可擁有多個屬性實例,如對象實例“奇秀充值”的屬性實例可包括“電影”、“直播刷禮品”等。

3. 奇小藝智能問答

基于知識圖譜的答案搜索首先需要進行中文分詞,根據中文分詞結果從知識庫中搜索匹配,實例化知識圖譜如下圖所示:

ai發展過程和知識體系的思維導圖(AI知識圖譜技術的實際應用)5

如上圖所示流程中,系統依次從分詞結構中檢索實體、條件、屬性、參數,确定實例化的屬性,并返回實例化屬性對應的答案,完成答案搜索。

五、推薦AI知識圖譜相關的知識和學習的方法

首先是閱讀書籍和在實踐中學習的方法第一本是AI産品思維:

《AI 時代産品經理的思維方法》

《AI賦能:AI重新定義産品經理》AI技術助力,AI技術落地産品賦能的案例及去哪裡學的方法。非常暢銷,得到多位圈内朋友推薦。

#專欄作家#

連詩路,公衆号:LineLian。人人都是産品經理專欄作家,《産品進化論:AI 時代産品經理的思維方法》一書作者,前阿裡産品專家,希望與創業者多多交流。

本文原創發布于人人都是産品經理。未經許可,禁止轉載。

題圖來自Unsplash, 基于CC0協議

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved