nlp自然語言處理算法-tft每日頭條

nlp自然語言處理算法

科技更新时间:2025-08-15 23:02:00

nlp自然語言處理算法（一文看懂自然語言理解-NLU）1

自然語言理解(NLU)跟 NLP 是什麼關系？為什麼說它是人工智能領域裡一個難點？NLU 的發展史曆史和目前最現金的方法是什麼？

本文将解答上面的問題，帶你全面了解自然語言理解(NLU)。
什麼是自然語言理解(NLU)？
大家最常聽到的是 NLP，而自然語言理解（NLU）則是 NLP 的一部分：

什麼是自然語言？

自然語言就是大家平時在生活中常用的表達方式，大家平時說的「講人話」就是這個意思。

自然語言：我背有點駝(非自然語言：我的背部呈彎曲狀)

自然語言：寶寶的經紀人睡了寶寶的寶寶

自然語言理解就是希望機器像人一樣，具備正常人的語言理解能力，由于自然語言在理解上有很多難點(下面詳細說明)，所以 NLU 是至今還遠不如人類的表現。

下面用一個具體的案例來深度說明一下自然語言理解（NLU）：

對話系統這個事情在2015年開始突然火起來了，主要是因為一個技術的普及：機器學習特别是深度學習帶來的語音識别和NLU(自然語言理解)——主要解決的是識别人講的話。

這個技術的普及讓很多團隊都掌握了一組關鍵技能：意圖識别和實體提取。

這意味着什麼？我們來看一個例子。

在生活中，如果想要訂機票，人們會有很多種自然的表達：

“訂機票”；

“有去上海的航班麼？”；

“看看航班，下周二出發去紐約的”；

“要出差，幫我查下機票”；

等等等等

可以說“自然的表達” 有無窮多的組合（自然語言）都是在代表 “訂機票” 這個意圖的。而聽到這些表達的人，可以準确理解這些表達指的是“訂機票”這件事。

而要理解這麼多種不同的表達，對機器是個挑戰。在過去，機器隻能處理“結構化的數據”（比如關鍵詞），也就是說如果要聽懂人在講什麼，必須要用戶輸入精确的指令。

所以，無論你說“我要出差”還是“幫我看看去北京的航班”，隻要這些字裡面沒有包含提前設定好的關鍵詞“訂機票”，系統都無法處理。而且，隻要出現了關鍵詞，比如“我要退訂機票”裡也有這三個字，也會被處理成用戶想要訂機票。

自然語言理解這個技能出現後，可以讓機器從各種自然語言的表達中，區分出來，哪些話歸屬于這個意圖；而那些表達不是歸于這一類的，而不再依賴那麼死闆的關鍵詞。比如經過訓練後，機器能夠識别“幫我推薦一家附近的餐廳”，就不屬于“訂機票”這個意圖的表達。

并且，通過訓練，機器還能夠在句子當中自動提取出來“上海”，這兩個字指的是目的地這個概念（即實體）；“下周二”指的是出發時間。

這樣一來，看上去“機器就能聽懂人話啦！”。

自然語言理解（NLU）的應用
幾乎所有跟文字語言和語音相關的應用都會用到 NLU，下面舉一些具體的例子。

機器翻譯

基于規則的翻譯效果經常不太好，所以如果想提升翻譯的效果，必須建立在對内容的理解之上。

如果是不理解上下文，就會出現下面的笑話：

I like apple, it’s so fast!

我喜歡「蘋果」，它很快！

機器客服

如果想實現問答，就要建立在多輪對話的理解基礎之上，自然語言理解是必備的能力。

下面的例子對于機器來說就很難理解：

“有什麼可以幫您？”

“你好，我想投訴”

“請問投訴的車牌号是多少？”

“xxxxxx”

“請問是什麼問題？”

“我剛上車，那個态度惡劣的哥譚市民就沖我發火”

機器很容易理解為：那個态度惡劣/的/哥譚/市民/就沖我發火

智能音箱

智能音箱中，NLU 也是重要的一個環節。很多語音交互都是很短的短語，音箱不但需要能否識别用戶在說什麼話，更要理解用戶的意圖。

“我冷了”

機器：幫您把空調調高1度

用戶并沒有提到空調，但是機器需要知道用戶的意圖——空調有點冷，需要把溫度調高。
自然語言理解（NLU）的難點
下面先列舉一些機器不容易理解的案例：
校長說衣服上除了校徽别别别的
過幾天天天天氣不好
看見西門吹雪點上了燈，葉孤城冷笑着說：“我也想吹吹吹雪吹過的燈”，然後就吹滅了燈。
今天多得謝遜出手相救，在這裡我想真心感謝“謝謝謝遜大俠出手”
滅霸把美隊按在地上一邊摩擦一邊給他洗腦，被打殘的鋼鐵俠說：滅霸爸爸叭叭叭叭兒的在那叭叭啥呢
姑姑你估估我鼓鼓的口袋裡有多少谷和菇！！
“你看到王剛了嗎”“王剛剛剛剛走”
張傑陪倆女兒跳格子：俏俏我們不要跳跳跳跳過的格子啦

那麼對于機器來說，NLU 難點大緻可以歸為5類：

難點1：語言的多樣性

自然語言沒有什麼通用的規律，你總能找到很多例外的情況。

另外，自然語言的組合方式非常靈活，字、詞、短語、句子、段落…不同的組合可以表達出很多的含義。例如：

我要聽大王叫我來巡山

給我播大王叫我來巡山

我想聽歌大王叫我來巡山

放首大王叫我來巡山

給唱一首大王叫我來巡山

放音樂大王叫我來巡山

放首歌大王叫我來巡山

給大爺來首大王叫我來巡山

難點2：語言的歧義性

如果不聯系上下文，缺少環境的約束，語言有很大的歧義性。例如：

我要去拉薩
需要火車票？
需要飛機票？
想聽音樂？
還是想查找景點？

難點3：語言的魯棒性

自然語言在輸入的過程中，尤其是通過語音識别獲得的文本，會存在多字、少字、錯字、噪音等問題。例如：

大王叫我來新山

大王叫讓我來巡山

大王叫我巡山

難點4：語言的知識依賴

語言是對世界的符号化描述，語言天然連接着世界知識，例如：

大鴨梨

除了表示水果，還可以表示餐廳名

7天

可以表示時間，也可以表示酒店名

晚安

有一首歌也叫《晚安》

難點5：語言的上下文

上下文的概念包括很多種：對話的上下文、設備的上下文、應用的上下文、用戶畫像…

U：買張火車票

A：請問你要去哪裡？

U：甯夏

U：來首歌聽

A：請問你想聽什麼歌？

U：甯夏
NLU 的實現方式
自然語言理解跟整個人工智能的發展曆史類似，一共經曆了3次叠代：
基于規則的方法
基于統計的方法
基于深度學習的方法

最早大家通過總結規律來判斷自然語言的意圖，常見的方法有：CFG、JSGF等。

後來出現了基于統計學的 NLU 方式，常見的方法有：SVM、ME等。

随着深度學習的爆發，CNN、RNN、LSTM 都成為了最新的”統治者”。

到了2019年，BERT 和 GPT-2 的表現震驚了業界，他們都是用了 Transformer，下面将重點介紹 Transformer，因為他是目前「最先進」的方法。

Transformer 和 CNN / RNN 的比較

Transformer 的原理比較複雜，這裡就不詳細說明了，感興趣的朋友可以查看下面的文章，講的很詳細：

《BERT大火卻不懂Transformer？讀這一篇就夠了》

下面将摘取一部分《why Self-Attention？A Targeted Evaluation of Neural Machine Translation Architectures》裡的數據，直觀的讓大家看出來3者的比較。

語義特征提取能力

從語義特征提取能力來說，目前實驗支持如下結論：Transformer在這方面的能力非常顯著地超過RNN和CNN（在考察語義類能力的任務WSD中，Transformer超過RNN和CNN大約4-8個絕對百分點），RNN和CNN兩者能力差不太多。

長距離特征捕獲能力

原生CNN特征抽取器在這方面極為顯著地弱于RNN和Transformer，Transformer微弱優于RNN模型(尤其在主語謂語距離小于13時)，能力由強到弱排序為Transformer>RNN>>CNN; 但在比較遠的距離上（主語謂語距離大于13），RNN微弱優于Transformer，所以綜合看，可以認為Transformer和RNN在這方面能力差不太多，而CNN則顯著弱于前兩者。

任務綜合特征抽取能力

Transformer綜合能力要明顯強于RNN和CNN（你要知道，技術發展到現在階段，BLEU絕對值提升1個點是很難的事情），而RNN和CNN看上去表現基本相當，貌似CNN表現略好一些。

并行計算能力及運算效率

Transformer Base最快，CNN次之，再次Transformer Big，最慢的是RNN。RNN比前兩者慢了3倍到幾十倍之間。

關于 Transformer ，推薦幾篇優秀的文章給大家，讓大家有一個更綜合的了解：

《放棄幻想，全面擁抱Transformer：自然語言處理三大特征抽取器（CNN/RNN/TF）比較》

《從Word Embedding到Bert模型—自然語言處理中的預訓練技術發展史》

《效果驚人的GPT 2.0模型：它告訴了我們什麼》
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技手機來短信沒聲音怎麼回事
1、首先檢查你手機是否處于靜音模式，将其打開。2、或者是你的手機聲音設置為最低了，聽不見。3、進設置，狀态欄及通知，管理通知，然後把短信提示打開看看可不可以。4、有時候也是手機卡住或者是bug了，重啟試一試就有可能好了。再不行的話就拿到維修點去檢測一下，也有可能是手機的問題。 2023-07-07
科技數顯熱熔機溫度多少适合
1、熱熔溫度在260℃左右（可以偏差10℃），加熱時間視不同規格和壁厚不一樣，一般D20*2.8S3... 2023-07-07
科技拍攝倒影的小技巧
1、景物的正面處在順光或側光時，水中倒影的輪廓和色彩最為清晰漂亮。日出日落時分，基本無風，平靜的像鏡... 2023-07-07
科技筆記本機械硬盤可以換成固态硬盤嗎
演示機型：華為MateBookX系統版本：win10筆記本機械硬盤可以換成固态硬盤。方法1：可以保留原機械硬盤，将光驅拆卸，在光驅位加裝一個光驅位固态硬盤，如果沒有内置光驅也可以直接加裝一個光驅位固态硬盤。然後将系統安裝在固态硬盤裡，大文件放到機械硬盤上，可以大幅提高系統運行速度。方法2：換掉原機械硬盤，直接裝一個SATA接口的固态硬盤，這樣需要固态硬盤的容量夠大，也要考慮以後自己的文件存儲是否夠 2023-07-07
科技筆記本電腦耗電太快怎麼解決
1、系統提示的電池剩餘時間（電量）隻是瞬時的參考值，實際電池使用時間和您當前使用電腦的操作有直接的關... 2023-07-07
科技華為手機充不進電解決方法
1、手機系統故障。直接關機重啟再進行充電，一般手機會恢複正常狀态。2、充電器出現故障。換一根新充電器... 2023-07-07
科技手提電腦屏幕亮度怎樣調
1、方法一：筆記本電腦上左下角通常有一個藍色的“Fn”按鍵，按住它不放，和鍵盤最上排的一個亮度标志(... 2023-07-07
科技如何正确上網
1、不要把姓名、住址、電話号碼等與自己身份有關的信息資料作為公開信息,提供給閑聊屋或公告欄等。2、沒... 2023-07-07
科技下載啥軟件能定位找人
1、下載“定位追蹤”打開APP添加需要定位的好友。輸入一個名稱，點擊确定然後點擊設置好的好友。點擊“... 2023-07-07
科技電腦pin碼忘了開不了機
1、重新啟動電腦，啟動到系統登錄界面時，同時按住Ctrl+Alt鍵。2、然後連擊Del鍵兩次，會出現... 2023-07-07
科技手提電腦怎麼調亮度
1、手提電腦調亮度的方法如下：點擊右下角的電源圖标，點擊亮度調節按鈕，進行簡單亮度調整。在桌面上點擊... 2023-07-07
科技等待的句子
1、稻草人永遠不會疲倦的，他站在另外一個角落裡，耐心地等待着天亮。2、其實，我一直都在你身後，就差你... 2023-07-07
科技電腦無聲音一鍵修複
1、首先點擊控制面闆。2、然後點擊硬件和聲音。3、進入後點擊更改系統聲音。4、看看聲音設置是否為wi... 2023-07-07
科技陌陌是什麼
1、陌陌是一款基于地理位置的移動社交工具，你可以通過陌陌認識周圍任意範圍内的陌生人，查看對方的個人信... 2023-07-07
科技電話拉黑多久才能恢複
1、iPhone可以打開手機的系統設置界面，點擊“電話”——“黑名單”，然後将電話号碼移出黑名單。2... 2023-07-07
科技微信怎麼看衛星地圖
1、在手機上打開并登錄微信，然後點擊下面的“發現”标簽。2、接下來在打開的發現頁面中，找到小程序菜單... 2023-07-07
科技人造衛星是誰發明的
1、人造衛星不是一個人能夠完成的任務,是蘇聯科學家團隊的發明成果。2、1957年10月4日.蘇聯宣布... 2023-07-07
科技冬天窗戶淌水怎麼解決
1、經常開窗通風，提高窗戶保溫性能，使用防霧劑和肥皂水擦玻璃等方法，可以防止窗戶結水。2、保持室内外溫度平衡，或者提高窗戶的保溫性能。3、如果玻璃上面有水以後，可以使用吸水性比較好的毛巾或者舊報紙在玻璃上面擦一擦，玻璃上面的水就會很輕松地去除。如果想防止窗戶玻璃上面結水，可以使用專門用于車窗的防霧劑來解決。 2023-07-07
科技蘋果手機按鍵不靈了怎麼辦
蘋果手機按鍵失靈的解決辦法如下：1、随便打開一個應用，按下電源鍵幾秒，等待關機界面出現。2、關機界面... 2023-07-07
科技快手極速闆怎樣更新
1、點擊快手極速版紅色圖标，打開快手APP。2、點擊左上角的更多按鈕。3、點擊菜單中的設置按鈕。4、... 2023-07-07
科技手機放歌沒聲音
1、音樂屬于媒體聲音，你先看一下設置——音量裡面有沒有把媒體音量打開，再檢查你的觸屏音，還有開機鈴聲... 2023-07-07
科技 s10指紋支付恢複了麼
1、恢複了。2、三GalaxyS10和GalaxyNote10系列手機指紋識别安全漏洞已在最新手機系... 2023-07-07
科技 wi-fi6是什麼意思
演示機型：華為WS8000系統版本：HarmonyOSWi-Fi6即第六代無線網絡技術，是Wi-Fi标準的名稱。是Wi-Fi聯盟創建于IEEE802.11标準的無線局域網技術。Wi-Fi6将允許與多達8個設備通信，最高速率可達9.6Gbps。功能特點：Wi-Fi6主要使用了OFDMA、MU-MIMO等技術，MU-MIMO（多用戶多入多出）技術允許路由器同時與多個設備通信，而不是依次進行通信。MU- 2023-07-07
科技 qq聊天背景圖怎麼設置
1、點擊qq主面闆上方一個衣服裝扮的更改外觀圖标。在更改外觀界面，皮膚設置下已經默認推薦了十幾個比較... 2023-07-07
科技怎麼設置無線橋接
1、現在的路由器都是非常智能的了，現在就已市面上常見的普聯(TP-link)路由器作為示範講解。2、... 2023-07-07
科技文檔如何做提綱格式
1、先輸入4級大綱。2、點擊視圖，點擊大綱視圖。3、word的顯示樣式改變成了大綱視圖樣式。4、選中... 2023-07-07
科技電腦顯示器黑屏
1、有可能是主機和顯示器的連線接觸不良(特别是接口處沒有插好或者松動），還有可能這根連接的數據線出現... 2023-07-07
科技 qq被凍結怎麼辦
1、首先打開QQ并登錄被凍結的賬号，此時會顯示被凍結，點擊【去安全中心】。2、輸入我們被凍結的賬号後... 2023-07-07
科技電腦怎麼改密碼
1、點左下角的“開始”按鈕，然後點“控制面闆”。2、找到“用戶帳戶”，點擊進入。3、點擊“更改密碼”... 2023-07-07
科技删了的微信聊天記錄怎麼恢複
1、首先需要打開微信并且點擊右上角的+号，随後點擊添加朋友按鈕。2、然後在彈出的搜索框裡面輸入：re... 2023-07-07

tft每日頭條

> 科技

> nlp自然語言處理算法

nlp自然語言處理算法

相关科技资讯推荐

热门科技资讯推荐

网友关注