今天晚上咱們要學習的課程比之前的難度要稍微大點,也是目前人工智能領域最難的研究方向之一——自然語言處理(NLP)。
自然語言處理——AI領域“第一團寵”NLP作為AI領域的認知智能,其動态一直都是業内專家學者關注的重點,尤其是随着深度學習的不斷進步,通過深度學習技術讓NLP得到長足發展,讓機器早日理解人類豐富多變的語言,成為了衆多AI愛好者和開發者的期待。
接下來童鞋們就跟着班主任一起來認識下被稱為AI領域“第一團寵”的NLP,它能在日常中解決哪些問題,以及實操中會遇到的困難等。
為了讓大家更直觀地理解自然語言處理,班主任畫了一幅圖:
上圖表明,計算機理解用戶輸入的各種語言的“謝謝”的過程。
由用戶輸入不同語言中“謝謝”的不同文本,計算機根據不同文本處理出不同語言的“謝謝”,最後再将這些結果反饋給用戶。
其中這個過程包含了句法分析、自然語言處理和自然語言生成等相關技術。
NLP解決的日常問題自然語言處理實際應用有如下幾點:
A、檢驗和提取不同類别的反饋
通俗來講,就是重點文本分析。例如通過一條微博、一篇新聞、一條朋友圈,研究不同的人對某件事的看法,通過研究對象正面或者負面的評論,采取進一步的決策。
B、精準識别指代内容
不同的目标群體在交流過程中會有不同的表達以及指代的方式,适當使用指代會使文本更加簡練而且并不影響本意的闡述。
例如,遇到生僻字“燚”不知道拼音的時候,大多會求助一些搜索引擎:“四個火是什麼?”,搜索引擎一定會告訴你“燚”念什麼,而不是告訴我們這幾個詞表面的匹配結果。由此可見,計算機能夠“理解”這些指代内容。
C、對給定文本進行分類
對給定的文本,給出預定義的一個或多個分類标簽,再進行高效、準确的分類。其實這就是一個簡單的特征提取過程,通過不同的特征進行不同的分類。
自然語言處理引起的歧義A、自然語言的二義性引起的歧義
自然語言的二義性,其實說的就是自然語言中廣泛存在的歧義現象。
比如:“兵乓球拍賣完了”可切分為“乒乓球/拍賣/完了”又可以切分為“乒乓球拍/賣/完了”。對于這兩種切分都是正确的。也就是說,就算是人工分詞也會産生歧義。
通過這兩個例子我們可以看出,由于自然語言的二義性,句子存在着多種可能的組合方式或者句意,計算機在處理這些句子的時候就會費很大的勁。
B、上下文理解引起的歧義
所謂上下文,就是當前這句話所處的語言環境,這句話指代的主語、省略的部分、前後聯系等等,都非常重要以及影響着這句話,因此上下文的理解是自然語言處理複雜性的一大體現。
即使是同一概念,不同的人也有不同的解讀,所以人們在日常對話中也會有語句理解歧義。例如看下面一段對話:
A:今天一起吃飯嗎?B:我媽今天從老家回來。如果僅僅按照字面理解,B的語句是無法回答A的。實際上,B是告訴A,今天我媽來了,不能和A一起吃飯了,這是人際交往中的一種間接拒絕。
這就表明,相互之間的語言理解要借助語境推理,上下文理解不正确就會産生歧義。那麼在計算機的自然語言處理中,要讓計算機盡可能多的模拟人的智能,讓機器具備人的上下文理解的功能。
消除歧義由以上自然語言處理的歧義可以看出,NLP的關鍵在于消除歧義問題。而正确的消除歧義需要大量的知識,包括訓練集的标注與添加、詞典資源的建立。
下面班主任來介紹三種消除歧義的方法:
A、基于詞典的消歧
拿詞典中的定義和歧義詞出現的上下文環境進行對比,選擇覆蓋度最大的作為該詞的詞義。
這種消歧方法思想很簡單,但是消歧的準确率不是很高。
B、有監督消歧
讓機器學習使用人工标記的數據,并與字典中的詞語所代表的典型含義匹配。
例如,在「I often play with my friends near the bank」一句中,「bank」一詞需要機器判斷是銀行還是河邊。我們希望機器能夠匹配句中單詞最有可能表達的含義,讓機器更深刻地理解自然語言。
C、無監督消歧
不管是基于詞典的消歧還是有監督消歧,都需要訓練集,而無監督消歧不需要這些預先知道的資源。
最簡單的理解方式,就是把它比作考試。一般情況,每道題都有一個固定答案,對錯代表分數的高低。那像作文隻有題目沒有固定答案,打分情況就要酌情而定。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!