ai自然語言處理的應用-tft每日頭條

ai自然語言處理的應用

圖文更新时间:2025-07-06 06:18:19

ai自然語言處理的應用?文章從NLP是什麼、能做什麼、目前遇到的難題三個方面，對NLP展開分析，今天小編就來聊一聊關于ai自然語言處理的應用?接下來我們就一起去研究一下吧!

ai自然語言處理的應用

文章從NLP是什麼、能做什麼、目前遇到的難題三個方面，對NLP展開分析。

NLP是人工智能的一個子領域，作為AI産品經理，我們至少要知道NLP是什麼，它能做什麼事，這樣我們就能獲得一種解決問題的思維，将遇到的問題和方法連接起來。接下來我從“NLP是什麼、能做什麼、目前遇到的難題”三個方面來簡單介紹下NLP。

一．什麼是NLP

NLP，中文叫自然語言處理，簡單來說，是一門讓計算機理解、分析以及生成自然語言的學科，大概的研究過程是：研制出可以表示語言能力的模型——提出各種方法來不斷提高語言模型的能力——根據語言模型來設計各種應用系統——不斷地完善語言模型。

NLP理解自然語言目前有兩種處理方式：

1.基于規則來理解自然語言，即通過制定一些系列的規則來設計一個程序，然後通過這個程序來解決自然語言問題。輸入是規則，輸出是程序；

2.基于統計機器學習來理解自然語言，即用大量的數據通過機器學習算法來訓練一個模型，然後通過這個模型來解決自然語言問題。輸入是數據和想要的結果，輸出是模型。

接下來簡單介紹NLP常見的任務或應用。

二．NLP能做什麼：

1.分詞

中文可以分為字、詞、短語、句子、段落、文檔這幾個層面，如果要表達一個意思，很多時候通過一個字是無法表達的一個含義的，至少一個詞才能更好表達一個含義，所以一般情況是以“詞”為基本單位，用“詞”組合來表示“短語、、句子、段落、文檔”，至于計算機的輸入是短語或句子或段落還是文檔就要看具體的場景。由于中文不像英文那樣詞與詞之間用空格隔開，計算機無法用區分一個文本有哪些詞，所以要進行分詞。目前分詞常用的方法有兩種：

基于規則：Heuristic（啟發式）、關鍵字表

基于機器學習/統計方法：HMM（隐馬爾科夫模型）、CRF（條件随機場）

（注：在這裡就不具體介紹方法的原理和實現過程了，大家感興趣，可以自行百度了解）

現狀分詞這項技術非常成熟了，分詞的準确率已經達到了可用的程度，也有很多第三方的庫供我們使用，比如jieba，所以一般在實際運用中我們會采用“jieba 自定義詞典”的方式進行分詞。

2.詞編碼

現在把“我喜歡你”這個文本通過分詞分成“我”、“喜歡”、“你”三個詞，此時把這三詞作為計算機的輸入，計算機是無法理解的，所以我們把這些詞轉換成計算機能理解的方式，即詞編碼，現在普遍是将詞表示為詞向量，來作為機器學習的輸入和表示空間。目前有兩種表示空間：

（1）離散表示：

A.One-hot表示

假設我們的語料庫是：

我喜歡你你對我有感覺嗎

詞典{“我”：1，“喜歡”：2，“你”:3,“對“：4，“有”：5，“感覺”：6，“嗎”：7} 。一共有七個維度。

所以用One-hot表示：

“我” ：[1, 0, 0, 0, 0, 0, 0]

“喜歡”：[0, 1, 0, 0, 0, 0, 0]

········

“嗎” ：[0, 0, 0, 0, 0, 0, 1]

即一個詞用一個維度表示

B.bag of word：即将所有詞的向量直接加和作為一個文檔的向量。

所以“我喜歡你”就表示為：“[1, 1, 1, 0, 0, 0, 0]”。

C. Bi-gram和N-gram（語言模型）：考慮了詞的順序，用詞組合表示一個詞向量。

這三種方式背後的思想是：不同的詞都代表着不同的維度，即一個“單位”（詞或詞組合等）為一個維度。

（2）分布式表示：word2vec，表示一個共現矩陣向量。其背後的思想是“一個詞可以用其附近的詞來表示”。

離散式或分布式的表示空間都有它們各自的優缺點，感興趣的讀者可以自行查資料了解，在這裡不闡述了。這裡有一個問題，當語料庫越大時，包含的詞就越多，那詞向量的維度就越大，這樣在空間儲存和計算量都會指數增大，所以工程師在處理詞向量時，一般都會進行降維，降維就意味着部分信息會丢失，從而影響最終的效果，所以作為産品經理，跟進項目開發時，也需要了解工程師降維的合理性。

3.自動文摘

自動文摘是指在原始文本中自動摘要出關鍵的文本或知識。為什麼需要自動文摘？有兩個主要的原因：

（1）信息過載，我們需要在大量的文本中抽出最有用、最有價值的文本；

（2）人工摘要的成本非常高。目前自動文摘有兩種解決思路：第一種是extractive（抽取式），從原始文本中找到一些關鍵的句子，組成一篇摘要；另一種方式是abstractive（摘要式），計算機先理解原始文本的内容，再用自己的意思将其表達出來。自動文摘技術目前在新聞領域運用的最廣，在信息過載的時代，用該技術幫助用戶用最短的時間了解最多、最有價值的新聞。此外，如何在非結構的數據中提取結構化的知識也将是問答機器人的一大方向。

4.實體識别

實體識别是指在一個文本中，識别出具體特定類别的實體，例如人名、地名、數值、專有名詞等。它在信息檢索、自動問答、知識圖譜等領域運用的比較多。實體識别的目的就是告訴計算機這個詞是屬于某類實體，有助于識别出用戶意圖。比如百度的知識圖譜：

“周星馳多大了”識别出的實體是“周星馳”（明星實體），關系是“年齡”，搜索系統可以知道用戶提問的是某個明星的年齡，然後結合數據“周星馳出生時間 1962年6月22日”以及當前日期來推算出周星馳的年齡，并把結果直接把這個結果顯示給用戶，而不是顯示候選答案的鍊接。

此外，NLP常見的任務還有：主題識别、機器翻譯、文本分類、文本生成、情感分析、關鍵字提取、文本相似度等，以後有時間再為大家做簡單介紹。

三．NLP目前存在的難點

1.語言不規範，靈活性高

自然語言并不規範，雖然可以找一些基本規則，但是自然語言太靈活了，同一個意思可以用多種方式來表達，不管是基于規則來理解自然語言還是通過機器學習來學習數據内在的特征都顯得比較困難。

2.錯别字

在處理文本時，我們會發現有大量的錯别字，怎麼樣讓計算機理解這些錯别字想表達的真正含義，也是NLP的一大難點

3.新詞

我們處在互聯網高速發展的時代，網上每天都會産生大量的新詞，我們如何快速地發現這些新詞，并讓計算機理解也是NLP的難點

4.用詞向量來表示詞依然存在不足

上述，我們講到，我們是通過詞向量來讓計算機理解詞，但是詞向量所表示的空間，它是離散，而不是連續，比如表示一些正面的詞：好，很好，棒，厲害等，在“好”到“很好”的詞向量空間中，你是不能找到一些詞，從“好”連續到“很好”，所以它是離散、不連續的，不連續最大的問題就是不可導.計算機是處理可導的函數非常容易，不可導的話，計算量就上來了。

當然現在也有一些算法是計算詞向量做了連續近似化，但這肯定伴随着信息的損失。總之，詞向量并不是最好的表示詞的方式，需要一種更好的數學語言來表示詞，當然可能我們人類的自然語言本身就是不連續的，或者人類無法創建出“連續”的自然語言。

小結：

通過上述的内容，我們已經大概知道了“NLP是什麼、能做什麼以及目前存在的難題”。作為人工智能産品經理，了解NLP技術能夠提高我們自己的技術理解力，在理解行業需求、推進項目開展都有非常大的幫助，其實這可以讓我們獲得是一種連接能力，将需求與工程師連接起來，将問題與解決方案連接起來。雖然NLP等人工智能技術存在很多不足，但我們需要調整好自己的心态，人工智能應用化才剛剛開始，必然是不夠完美的，不要成為批判者，而是成為人工智能時代的推進者。

作者：在産品汪的路上

本文由 @在産品汪的路上授權發布于人人都是産品經理，未經作者許可，禁止轉載。

題圖來自PEXELS，基于CC0協議

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

圖文 pdf怎樣才能批量打印
pdf怎樣才能批量打印?相信很多小夥伴上班辦公時常用到PDF，由于與其他格式的兼用行好，且不會導緻内容結構在傳輸接收後發生變化，很多小夥伴在打印Word文檔、圖片、設計圖紙等文件都會先将其轉換為PDF格式去打印，那麼你們知道如何批量打印PD... 2022-10-07
圖文姐姐難産離世妹妹與姐夫重組家
姐姐難産離世妹妹與姐夫重組家?姐姐難産去世留下一雙兒女，現在小編就來說說關于姐姐難産離世妹妹與姐夫重組家?下面内容希望能幫助到你，我們來一起看看吧!姐姐難産離世妹妹與姐夫重組家姐姐難産去世留下一雙兒女妹妹為了照顧兩個孩子選擇與姐夫組建新家庭... 2022-10-06
圖文長春站到龍嘉機場巴士
3月21日，遼源市至長春龍嘉機場省際巴士線路正式開通。遼源市是吉林省中南部重要的中心城市，将遼源市直達長春龍嘉國際機場作為我們合作開通的首條旅遊巴士線路，是空港運輸分公司和吉林吉運集團客運發展史上一個新的裡程碑，也是機場為廣大旅客提供乘機無... 2022-11-04
圖文黃刀和寶石最适合哪個輔助
戰士刀刀帶毒進服就送終極大禮包起步快開局就撸BOSS如标題所講，你想要的這都有，裝備各有各的用處不管是在打怪升級還是打BOSS提高掉落幾率打金首選，每一件神器、魔器的價值都超乎你相信, 2023-02-18
圖文今天5月的豬價漲跌表
進入7月下旬後，受南方多地豬場疫病反彈，養殖戶出欄節奏加快，屠企呈現連續壓價的表現，豬價迎來“5連跌”！而受豬價持續回落，養豬虧損加劇，養殖戶抵觸降價情緒增強，市場生豬出欄陸續減量，最近2日，豬價跌勢止步，行情迎來2連漲的态勢！據豬價行情數... 2023-01-22
圖文怎麼解夢
怎麼解夢?本文節選自即将出版的新書在這個世界上，有什麼東西是你看不到它，不了解它，卻被告知它是存在的，并且有時你也能感知到它呢？，我來為大家科普一下關于怎麼解夢?下面希望有你要的答案，我們一起來看看吧!怎麼解夢本文節選自即将出版的新書在這個... 2022-10-10
圖文趙本山的十二大美女
孫悅：黑龍江哈爾濱人，歌曲《祝你平安》張咪：黑龍江哈爾濱人，歌曲《藍藍的夜，藍藍的夢》.馮曉泉：黑龍江哈爾濱人，歌曲《冰糖葫蘆》付笛生：黑龍江哈爾濱人，歌曲《知心愛人》殷秀梅：黑龍江鶴崗人，歌曲《我愛你塞北的雪》劉流：黑龍江哈爾濱人，小品《... 2022-10-26
圖文小米智能家居怎麼控制
小米智能家居怎麼控制?相信通過前幾期的教學，大家已經學會了如何更換、連接并調試智能設備，今天先教大家在門廳、客廳以及衛生間智能場景中我們比較常用的幾個，廢話不多說，幹貨奉上，今天小編就來說說關于小米智能家居怎麼控制?下面更多詳細答案一起來看... 2023-01-19
圖文川渝火鍋大讨論
天氣寒冷，又到了吃火鍋的好時節。火鍋江湖的派系衆多，川渝一帶叫“火鍋”，廣東叫做“打邊爐”，而江浙地區叫“暖鍋”，北京則稱為“涮鍋”……這些派系，你pick哪一個？（來源：新華網、中國新聞網、廣州日報）, 2023-01-01
圖文 playstation無線手柄
PlayStation日本客戶支持官推今日提醒玩家，記得給自己的PS手柄充電。最近宅在家裡，你的遊戲機使用頻率是多少呢？如果有落灰已久的手柄記得要給它充充電。@AskPlayStationJP今日就提醒玩家，如果家裡面有長時間沒有使用的PS... 2023-01-14
圖文 word文檔中怎麼設置表格樣式
1.打開Word文檔，如圖所示：2.選中表格→會出現表格樣式，點擊表格樣式3.假如我們隻需要填充首行，點擊首行填充前面的小方框→點擊大方框右邊豎列的第三個倒三角（第二張圖片中已畫圈标示出來）→選擇自己想用的表格樣式就OK了3.假如我們想要隔... 2023-02-04
圖文為人處事需要記住這六條
在我們身邊，總會有一些人，表面上非常的善良，對你也非常的好，但是他對你好的目的，并不是想給你帶來幫助，也不是想和你把關系處好，而是想從你身上得到一些什麼，也就是我們俗稱的面善心黑的人，最典型的就是下面這三種人，遇到了，馬上遠離。【1】一上來... 2022-11-25
圖文聯通和移動信号互相幹擾
聯通和移動信号互相幹擾?4月28日，全國不少人的手機收到了一串數字的相同短信，短信涵蓋中國移動和中國聯動機主是“惡作劇”“詐騙短信”還是“系統測試短信”，引發不少網友讨論，現在小編就來說說關于聯通和移動信号互相幹擾?下面内容希望能幫助到你，... 2022-10-12
圖文茉莉花如何快速複花
最近天好熱，大家再堅持堅持，還有1個來月就涼快了···在這期間，有幾種花要特别注意，不能讓它們長太高，否則今年都白養，和死了也沒差别！茉莉花無論是養了很久的、還是新買的茉莉，每次花後都要修剪，不要舍不得，茉莉現在是生長期，你剪了它才能盡快複... 2023-01-05
圖文什麼是能耗雙控和強度雙控
受能耗雙控影響，全國多地相關企業已經發布限電、停産、限産事宜。而國家發改委在9月11日也發布了完善能源消費強度和總量雙控制度方案，那麼，能耗雙控指的是什麼？能源雙控指标具體是哪兩個呢？一、能耗雙控指的是什麼？能耗雙控指能源消費總量和強度進行... 2023-01-27
圖文庵野秀明奧特曼短片
《奧特曼》可謂是日本特攝裡yyds。而導演庵野秀明最大的夢想，大概就是拍一部屬于自己的《奧特曼》，這一次，他離開實現自己的夢想，不遠了。4月15日，官方發布了一段《新奧特曼》的新預告片，可以看到更多的畫面。女主角由長澤雅美飾演，目瞪口呆……... 2022-12-21
圖文大話西遊2經典版純新手攻略
遊戲裡的長安城中，距離袁天罡不遠處，站着一位“帶頭大俠”，見下圖。帶頭大俠點擊他對話，會彈出如下内容，由此得知這位“帶頭大俠”是一位提供“隊長功績”兌換的npc。提供隊長功績兌換選擇“隊長功績是啥？如何獲得？”，就能了解“隊長功績”的相關介... 2022-11-03
圖文尼爾中文補丁steam
衆所周知，最近《尼爾機械軍團》被破解了……同樣也你應該記得，那位制作衆多PC遊戲優化補丁的Kaldaien大神也為《尼爾機械軍團》做了一個優化補丁并獲得一緻好評。不過在這位大神最近的更新中，他給自己的優化補丁加了個“防盜版”機制。在這次更新... 2023-01-02
圖文插花藝術網站
哪裡有花哪裡就孕育着生命和美一朵朵嬌嫩的鮮花一片片普通的綠葉高低錯落有緻各個獨具匠心被賦予了新的生命與蘊意用别樣方式呈現了景小藝們對花藝的理解。此次線上插花活動由河南農業大學風景園林與藝術學院花藝協會舉辦，于8月21日下午3:00－4:00... 2023-01-05
圖文羊駝為啥可愛
羊駝是現在一種很流行的寵物，正因為其呆萌的表情，喜歡羊駝的人都知道，羊駝有一個不好的習慣，就是你要想和它親近的時候，它就會猛的向你吐口水。就算這樣人們依舊喜愛着那些可愛的羊駝們。羊駝的母親節快樂。羊駝是群居動物，在羊駝群遭遇危險時，它們就會... 2022-10-29
圖文雙十一商品與實物不符
記者|王胤期雙十一大促期間，不少市民喜歡囤貨購物。長沙市民武先生在今年雙十一期間花費200元，在淘寶上的福來恩寵物用品旗艦店購買了一盒驅蟲藥，一盒裡面有3支。“前段時間剛給貓驅過蟲，想趁着雙十一商品降價時囤一點。”武先生說。11月2日，武先... 2023-01-27
圖文 apex英雄手遊9月29日還能玩嗎
IT之家5月11日消息，重生工作室已宣布《Apex英雄》手遊将于5月在全球範圍内面向Android和iOS設備推出。遊戲記者@TomHenderson發文透露，《Apex英雄》手遊将于5月17日正式發售，且官方将于本周公布《Apex英雄》手... 2022-12-15
圖文河源的發展前景怎麼樣
在粵東河源，很多人到珠三角廣州深圳等地打工，領個六千八千的工資，買不起廣深的房子，就回來河源買房，反正高鐵通了，車程在一小時以内，這是很大一部分人的想法。今後不一定每天都回，周末坐高鐵回家也不錯。河源的炒客不多，大部分自住。河源和隔壁的梅州... 2022-12-16
圖文古希臘神話十二神按地位排名
古希臘神話十二神按地位排名?尼米安巨獅在上一篇文章中，小編畫了一幅希臘衆神的神譜，主要是描述了宙斯時代的古希臘神祗應有些網友的要求，這裡再補充一些更早時期的神祗，這樣前後可以有個對照，今天小編就來聊一聊關于古希臘神話十二神按地位排名?接下來... 2022-10-11
圖文最簡單折皮卡丘方法
折皮卡丘小教程（圖源網絡）曬出你的皮卡丘吧！, 2023-03-13
圖文微信語音開會顯示文檔
微信語音開會顯示文檔?微信上有很多好用的功能，并且在不斷地更新當中，接下來我們就來聊聊關于微信語音開會顯示文檔?以下内容大家不妨參考一二希望能幫到您!微信語音開會顯示文檔微信上有很多好用的功能，并且在不斷地更新當中。比如這裡要說的，微信自帶... 2022-10-08
圖文白癜風為什麼要吃木耳
白癜風患者的日常食療中，黑色食物是經常被提到的，提到黑色食物，黑木耳就很容易被人提起，黑木耳蛋白質豐富，其蛋白質含量與動物性食物相當。此外，黑木耳中維生素e含量很高，最重要的是鐵的含量最高，一般認為菠菜、瘦肉和動物肝髒的鐵含量豐富。事實上，... 2023-02-01
圖文南昌交通管制恢複
南昌交通管制恢複?鄱陽湖進入枯水期以來，水位持續回落，部分水位站水位已低于曆史最低水位，水體大幅萎縮，江豚生存環境面臨嚴峻考驗為切實做好江豚保護救護工作，近日，九江市港口航運管理局發布通告，決定對鄱陽湖區（九江段）長江江豚主要分布區域實施水... 2023-02-13
圖文搶紅包的好方法和技巧
搶“紅包封面”已經成為大家春節前最熱鬧的一項活動，其熱度絲毫不比支付寶的“集五福”低。近年來，越來越多企業都開始發放定制紅包封面，同時其玩法也越來越豐富。1月24日消息，微信派公衆号發布文章，介紹了微信紅包封面的又一新玩法“裂變發放”。封面... 2022-09-29
圖文大蒜怎麼種花最好
你家的大蒜還是隻用來調料？花花都已經開始拿大蒜養花了~效果那是杠杠的！好奇？那就接着往下看吧~1促進發芽準備：大蒜，涼開水，容器步驟：1、大蒜去皮搗爛，加入涼開水，比例為1:3。2、然後将調制好的大蒜液塗抹于新芽。在臘梅、茶花、桂花、玉蘭等... 2022-11-19

tft每日頭條

> 圖文

> ai自然語言處理的應用

ai自然語言處理的應用

ai自然語言處理的應用

一．什麼是NLP

二．NLP能做什麼：

1.分詞

2.詞編碼

3.自動文摘

4.實體識别

三．NLP目前存在的難點

1.語言不規範，靈活性高

2.錯别字

3.新詞

4.用詞向量來表示詞依然存在不足

小結：

相关圖文资讯推荐

热门圖文资讯推荐

网友关注