ai自然語言處理的應用?文章從NLP是什麼、能做什麼、目前遇到的難題三個方面,對NLP展開分析,今天小編就來聊一聊關于ai自然語言處理的應用?接下來我們就一起去研究一下吧!
文章從NLP是什麼、能做什麼、目前遇到的難題三個方面,對NLP展開分析。
NLP是人工智能的一個子領域,作為AI産品經理,我們至少要知道NLP是什麼,它能做什麼事,這樣我們就能獲得一種解決問題的思維,将遇到的問題和方法連接起來。接下來我從“NLP是什麼、能做什麼、目前遇到的難題”三個方面來簡單介紹下NLP。
NLP,中文叫自然語言處理,簡單來說,是一門讓計算機理解、分析以及生成自然語言的學科,大概的研究過程是:研制出可以表示語言能力的模型——提出各種方法來不斷提高語言模型的能力——根據語言模型來設計各種應用系統——不斷地完善語言模型。
NLP理解自然語言目前有兩種處理方式:
1.基于規則來理解自然語言,即通過制定一些系列的規則來設計一個程序,然後通過這個程序來解決自然語言問題。輸入是規則,輸出是程序;
2.基于統計機器學習來理解自然語言,即用大量的數據通過機器學習算法來訓練一個模型,然後通過這個模型來解決自然語言問題。輸入是數據和想要的結果,輸出是模型。
接下來簡單介紹NLP常見的任務或應用。
中文可以分為字、詞、短語、句子、段落、文檔這幾個層面,如果要表達一個意思,很多時候通過一個字是無法表達的一個含義的,至少一個詞才能更好表達一個含義,所以一般情況是以“詞”為基本單位,用“詞”組合來表示“短語、、句子、段落、文檔”,至于計算機的輸入是短語或句子或段落還是文檔就要看具體的場景。由于中文不像英文那樣詞與詞之間用空格隔開,計算機無法用區分一個文本有哪些詞,所以要進行分詞。目前分詞常用的方法有兩種:
基于規則:Heuristic(啟發式)、關鍵字表
基于機器學習/統計方法:HMM(隐馬爾科夫模型)、CRF(條件随機場)
(注:在這裡就不具體介紹方法的原理和實現過程了,大家感興趣,可以自行百度了解)
現狀分詞這項技術非常成熟了,分詞的準确率已經達到了可用的程度,也有很多第三方的庫供我們使用,比如jieba,所以一般在實際運用中我們會采用“jieba 自定義詞典”的方式進行分詞。
現在把“我喜歡你”這個文本通過分詞分成“我”、“喜歡”、“你”三個詞,此時把這三詞作為計算機的輸入,計算機是無法理解的,所以我們把這些詞轉換成計算機能理解的方式,即詞編碼,現在普遍是将詞表示為詞向量,來作為機器學習的輸入和表示空間。目前有兩種表示空間:
(1)離散表示:
A.One-hot表示
假設我們的語料庫是:
我喜歡你你對我有感覺嗎
詞典{“我”:1,“喜歡”:2,“你”:3,“對“:4,“有”:5,“感覺”:6,“嗎”:7} 。一共有七個維度。
所以用One-hot表示:
“我” :[1, 0, 0, 0, 0, 0, 0]
“喜歡”:[0, 1, 0, 0, 0, 0, 0]
········
“嗎” :[0, 0, 0, 0, 0, 0, 1]
即一個詞用一個維度表示
B.bag of word:即将所有詞的向量直接加和作為一個文檔的向量。
所以“我 喜歡 你”就表示為:“[1, 1, 1, 0, 0, 0, 0]”。
C. Bi-gram和N-gram(語言模型):考慮了詞的順序,用詞組合表示一個詞向量。
這三種方式背後的思想是:不同的詞都代表着不同的維度,即一個“單位”(詞或詞組合等)為一個維度。
(2)分布式表示:word2vec,表示一個共現矩陣向量。其背後的思想是“一個詞可以用其附近的詞來表示”。
離散式或分布式的表示空間都有它們各自的優缺點,感興趣的讀者可以自行查資料了解,在這裡不闡述了。這裡有一個問題,當語料庫越大時,包含的詞就越多,那詞向量的維度就越大,這樣在空間儲存和計算量都會指數增大,所以工程師在處理詞向量時,一般都會進行降維,降維就意味着部分信息會丢失,從而影響最終的效果,所以作為産品經理,跟進項目開發時,也需要了解工程師降維的合理性。
自動文摘是指在原始文本中自動摘要出關鍵的文本或知識。為什麼需要自動文摘?有兩個主要的原因:
(1)信息過載,我們需要在大量的文本中抽出最有用、最有價值的文本;
(2)人工摘要的成本非常高。目前自動文摘有兩種解決思路:第一種是extractive(抽取式),從原始文本中找到一些關鍵的句子,組成一篇摘要;另一種方式是abstractive(摘要式),計算機先理解原始文本的内容,再用自己的意思将其表達出來。自動文摘技術目前在新聞領域運用的最廣,在信息過載的時代,用該技術幫助用戶用最短的時間了解最多、最有價值的新聞。此外,如何在非結構的數據中提取結構化的知識也将是問答機器人的一大方向。
實體識别是指在一個文本中,識别出具體特定類别的實體,例如人名、地名、數值、專有名詞等。它在信息檢索、自動問答、知識圖譜等領域運用的比較多。實體識别的目的就是告訴計算機這個詞是屬于某類實體,有助于識别出用戶意圖。比如百度的知識圖譜:
“周星馳多大了”識别出的實體是“周星馳”(明星實體),關系是“年齡”,搜索系統可以知道用戶提問的是某個明星的年齡,然後結合數據“周星馳 出生時間 1962年6月22日”以及當前日期來推算出周星馳的年齡,并把結果直接把這個結果顯示給用戶,而不是顯示候選答案的鍊接。
此外,NLP常見的任務還有:主題識别、機器翻譯、文本分類、文本生成、情感分析、關鍵字提取、文本相似度等,以後有時間再為大家做簡單介紹。
自然語言并不規範,雖然可以找一些基本規則,但是自然語言太靈活了,同一個意思可以用多種方式來表達,不管是基于規則來理解自然語言還是通過機器學習來學習數據内在的特征都顯得比較困難。
在處理文本時,我們會發現有大量的錯别字,怎麼樣讓計算機理解這些錯别字想表達的真正含義,也是NLP的一大難點
我們處在互聯網高速發展的時代,網上每天都會産生大量的新詞,我們如何快速地發現這些新詞,并讓計算機理解也是NLP的難點
上述,我們講到,我們是通過詞向量來讓計算機理解詞,但是詞向量所表示的空間,它是離散,而不是連續,比如表示一些正面的詞:好,很好,棒,厲害等,在“好”到“很好”的詞向量空間中,你是不能找到一些詞,從“好”連續到“很好”,所以它是離散、不連續的,不連續最大的問題就是不可導.計算機是處理可導的函數非常容易,不可導的話,計算量就上來了。
當然現在也有一些算法是計算詞向量做了連續近似化,但這肯定伴随着信息的損失。總之,詞向量并不是最好的表示詞的方式,需要一種更好的數學語言來表示詞,當然可能我們人類的自然語言本身就是不連續的,或者人類無法創建出“連續”的自然語言。
通過上述的内容,我們已經大概知道了“NLP是什麼、能做什麼以及目前存在的難題”。作為人工智能産品經理,了解NLP技術能夠提高我們自己的技術理解力,在理解行業需求、推進項目開展都有非常大的幫助,其實這可以讓我們獲得是一種連接能力,将需求與工程師連接起來,将問題與解決方案連接起來。雖然NLP等人工智能技術存在很多不足,但我們需要調整好自己的心态,人工智能應用化才剛剛開始,必然是不夠完美的,不要成為批判者,而是成為人工智能時代的推進者。
作者:在産品汪的路上
本文由 @在産品汪的路上 授權發布于人人都是産品經理,未經作者許可,禁止轉載。
題圖來自PEXELS,基于CC0協議
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!