基于深度學習的自然語言處理-tft每日頭條

基于深度學習的自然語言處理

科技更新时间:2025-08-25 20:49:33

今天，小叮當繼續為大家分享自然語言處理的幹貨~

一、什麼是自然語言處理？

我們來回顧下，什麼是是自然語言處理？

基于深度學習的自然語言處理（真IT小叮當深度學習）1

簡單來說，自然語言處理就是使字符串通過特征工程等方法變成計算機可以理解的0，1數據。

基于深度學習的自然語言處理（真IT小叮當深度學習）2

上次，我們簡單了解了文本預處理。那麼文本預處理使我們得到了什麼呢？我們以啊甘名言“生活就像一塊巧克力”為例，進行舉例。

基于深度學習的自然語言處理（真IT小叮當深度學習）3

那麼将預處理後的文本變成特征，我們該怎麼做呢？這就要用到我們自然語言處理中的以下應用了。

二、NLTK在NLP上的經典應用

1.情感分析

最簡單的例子就是，來分析微博評論對一條微博持支持或反對的态度。例如分析“花

基于深度學習的自然語言處理（真IT小叮當深度學習）4

情感分析可以通過建立sentiment dictionary(情感字典)來實現。例如：like-（1）,good-（2）,bad-（-2）,terrible-（-3）這代表着like的情感正面程度分值為1，good的情感正面程度為2，bad的情感正面程度為-2，terrible的情感正面程度為-3。

當然，這些情感字典的分值是由一群語言學家共同讨論給出。我們可以看到這種方法類似于關鍵詞打分機制。

例如,AFINN-111就是一個典型的情感字典。

基于深度學習的自然語言處理（真IT小叮當深度學習）5

我們在對應網站上可以将其下載下來

基于深度學習的自然語言處理（真IT小叮當深度學習）6

使用NLTK完成簡單的情感分析如下：

#!/usr/bin/env python # -*- coding:utf-8 -*- __author__ = 'IT小叮當' __time__ = '2019-03-25 14:24' #NLTK進行情感分析 #建立情感字典 sentiment_dictionary ={} for line in open('E:\\自然語言處理學習\\情感分析字典AFINN\\AFINN\\AFINN-111.txt'): word,score = line.split('\t') sentiment_dictionary[word] = int(score) sentence_1 ='i love you!' sentence_2 ='i hate you!' import nltk word_list1 = nltk.word_tokenize(sentence_1) word_list2 = nltk.word_tokenize(sentence_2) #遍曆每個句子，把每個詞的情感得分相加，不在情感字典中的詞分數全部置0 s1_score = sum(sentiment_dictionary.get(word,0) for word in word_list1) s2_score = sum(sentiment_dictionary.get(word,0) for word in word_list2) print('我是句子' sentence_1 '的正面情感得分:',s1_score) print('我是句子' sentence_2 '的正面情感得分:',s2_score)

運行結果如下

基于深度學習的自然語言處理（真IT小叮當深度學習）7

可以看到，使用這種方法，我們已經可以對句子進行簡單的情感分析。

但是這種方法存在以下問題：

（1）出現網絡新詞不在字典裡怎麼辦？

（2）出現特殊詞彙怎麼辦？

（3）更深層的語義怎麼理解？

為了解決這些問題，我們可以結合機器學習來進行情感分析。通過自己訓練語料來使用機器學習進行預測。

以簡單的貝葉斯訓練示例，代碼如下：

from nltk.classify import NaiveBayesClassifier from nltk import word_tokenize #簡單手造的訓練集 s1 = 'i am a good boy' s2 = 'i am a handsome boy' s3 = 'he is a bad boy' s4 = 'he is a terrible boy' # #建立詞庫，尋找所有句子中出現的不同的詞 # s = list(set(word_tokenize(s1) word_tokenize(s2) word_tokenize(s3) word_tokenize(s4))) #預處理，對出現的單詞記錄為True def preprocess(sentence): return {word: True for word in sentence.lower().split()} #預處理後得到字典類型，key表示fname對應句子中出現的單詞 #value表示每個文本單詞對應的值 #給訓練集加标簽 training_data = [[preprocess(s1),'pos'], [preprocess(s2),'pos'], [preprocess(s3),'neg'], [preprocess(s4),'neg'] ] #将訓練數據喂給貝葉斯分類器 model = NaiveBayesClassifier.train(training_data) new_s1 = 'i am a good girl' new_s2 = 'she is a terrible girl' #輸出預測結果 print('我在預測 ' new_s1 ' 結果是：',model.classify(preprocess(new_s1))) print('我在預測 ' new_s2 ' 結果是：',model.classify(preprocess(new_s2)))

運行結果為

基于深度學習的自然語言處理（真IT小叮當深度學習）8

2.文本相似度

文本相似度都應用在哪裡呢？舉個簡單的例子，大家在百度中搜索“IT小叮當”時，搜索頁面會會根據我們的關鍵詞，返回一系列的頁面内容。

基于深度學習的自然語言處理（真IT小叮當深度學習）9

這時，網頁會根據我們的搜索結果和關鍵詞的相似度和其它的一些算法，對搜索的結果進行排序。

在NLP中處理句子時，句子的文本特征還可以用詞元素的頻率來進行表示。

基于深度學習的自然語言處理（真IT小叮當深度學習）10

s1表示sentence1,句子1。表中的數值代表了單詞出現的頻率，根據這個我們可以猜測出句子内容如下：

句子1（s1）：ha ha ha we are happy

句子2（s2）: ha ha we are happy

句子3 （s3）: you work

如此以來，句子1便可被向量[1,0,3,0,1,1]進行表示。句子2便可以被向量[1,0,2,0,1,1]表示，句子3可以被向量[0,1,0,1,0,0]表示。

用頻率表示句子的好處是：

（1）所有句子的向量長度都是一樣的，便于後期的機器學習

（2）向量的長度就是處理文本中不同的詞的個數

在句子被向量化後，我們根據餘弦定理便可計算出句子的相似度。

基于深度學習的自然語言處理（真IT小叮當深度學習）11

在NLTK中進行頻率統計

import nltk from nltk import FreqDist #随手自己做的詞庫 corpus = 'i am a good boy ' 'i enjoy my life ' 'i am a beautiful girl' #文本預處理分詞、停用詞、詞幹提取、詞形歸一 tokens = nltk.word_tokenize(corpus) print('分詞',tokens) #頻率統計 fdist = FreqDist(tokens) #選擇最常用的50個單詞 standard_freq_vector = fdist.most_common(50) #記錄向量長度 size = len(standard_freq_vector) print('選擇最常用的50個詞',standard_freq_vector) #定義函數根據出現的頻率大小記錄下每個單詞的位置 def position_record(v): res = {} counter = 0 for word in v: res[word[0]] = counter counter =1 return res #把标準的單詞位置記錄下來,得到一個位置的對照表 standard_position_dict = position_record(standard_freq_vector) print('得到位置的對照表',standard_position_dict) #構造一個新的測試句子 test_s = 'he is a children' #構建于标準向量同樣大小的零向量 freq_vector = [0] * size #簡單的預處理進行分詞 test_s_tokens = nltk.word_tokenize(test_s) #測試句子中的每一個單詞，如果在詞庫中出現過，就在标準位置上 1 for word in test_s_tokens: try : freq_vector[standard_position_dict[word]] = 1 except KeyError: #如果是新詞就pass continue print('測試句子的表示',freq_vector)

運行結果如下：

基于深度學習的自然語言處理（真IT小叮當深度學習）12

3.文本分類

文本分類的概念比較廣，例如判斷某句話是否是某人說的，一則新聞是屬于政治、軍事、還是其它的類别等等。

今天，我們就來了解一種常見的文本分類方法TF-IDF。

TF : Term Frequency,衡量一個term在文檔中出現的多麼頻繁。

TF(t) =( t出現在文檔中的次數）/(文檔中term的總數)

IDF: Inverse Document Frequency,衡量一個term有多重要。

有些詞在文章中可能出現的次數很多，但卻不一定對文章的語義理解有用。例如‘is’,'the','a'等。

為了平衡這一現象，我們适當的降低這些無用的高頻詞的權重，把有用的詞的權重（weight)提高。

IDF(t)=log_e(文檔總數/含有t的文檔總數)

這樣一來，如果一個詞在很多的文本中出現，那麼它的IDF值會很低，反過來，如果一個詞在比較少的文本中出現，那麼它的IDF值會很高

TF-IDF = TF*IDF

可見TF-IDF,不僅考慮了詞頻，而且考慮了詞對整個文檔的貢獻度（權重）。這要比單純地考慮詞的頻率要好很多，在語義理解方面。

我們可以舉個例子來進一步理解這個公式

基于深度學習的自然語言處理（真IT小叮當深度學習）13

例如:一篇文檔中有100個單詞，其中單詞life出現了5次。

則 TF（life）= (5/100)=0.05

文檔總共有10M，life出現在其中的1000個文檔中

則 IDF(life) = log(10000000/1000)=4

TF-IDF(life) = TF(life)*IDF(life)=0.05*4=0.2

NLTK實現TF-IDF

代碼如下

import nltk from nltk.text import TextCollection #将所有文檔放到TextCollection類中，進行自動斷句，統計，計算 corpus = TextCollection(['i am a good boy', 'i am a handsome boy', 'i enjoy my life ']) #計算出一句話中某個詞的TF-IDF print('boy在第一句話中的TF-IDF值',corpus.tf_idf('boy','i am a good boy')) #獲得标準大小的句子來表示句子 #分詞 tokens = nltk.word_tokenize('i am a good boy ' 'i am a handsome boy ' 'i enjoy my life ') #建立标準詞庫 standard_vocab = list(set(tokens)) print('标準詞庫為:',standard_vocab) #新句子 new_sentence = 'she is a beautiful girl' #獲得新句子的TF-IDF向量 new_sentence_vector=[] #遍曆所有vocabulary中的詞 for word in standard_vocab: new_sentence_vector.append(corpus.tf_idf(word,new_sentence)) print('新句子的向量表示',new_sentence_vector)

運行結果如下

基于深度學習的自然語言處理（真IT小叮當深度學習）14

可以看到，經過如上的TF-IDF操作，我們可以得到每個句子的TF-IDF相同長度的向量表示。

之後根據這些向量，我們便可以使用機器學習來為我們愉快地分類了。

基于深度學習的自然語言處理（真IT小叮當深度學習）15

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技手機上的解壓遊戲文件怎麼才能打開
手機上的解壓遊戲文件怎麼才能打開?打開手機，選擇手機上的“文件管理”點擊“更多”，現在小編就來說說關于手機上的解壓遊戲文件怎麼才能打開?下面内容希望能幫助到你，我們來一起看看吧!手機上的解壓遊戲文件怎麼才能打開打開手機，選擇手機上的“文件管... 2022-07-06
科技好用的crm有哪些
在客戶關系管理領域中，在線CRM已經占據了CRM行業的75%以上，越來越多的公司轉而投資在線CRM。與傳統的CRM相比，白碼推出的在線CRM有什麼關鍵的功能？讓我們一起來一探究竟。1.快速設置銷售和營銷團隊不應該花費大量時間來适應新的、令人... 2022-10-30
科技牛欄山跟紅星二鍋頭哪個好喝
牛欄山跟紅星二鍋頭哪個好喝?要說國内最便宜，最接地氣的白酒，非二鍋頭莫屬了，作為國民級白酒，二鍋頭走的是低端、親民路線，不到20元就能買上一瓶，不管是自己小酌還是跟朋友暢飲，都别有一番樂趣，現在小編就來說說關于牛欄山跟紅星二鍋頭哪個好喝?下... 2022-10-09
科技華為nova4優缺點
12月17日，華為nova4正式發布，作為第四代Nova手機，整體相比前代又有了不小的進步。Nova系列手機定位年輕消費群體，主攻線下市場，賣點與OV手機類似，主打拍照、高顔值等特性。那麼，華為Nova4值得買嗎？今天我們将通過華為Nova... 2022-09-04
科技為什麼我的手機屏幕底部出現中國移動
為什麼我的手機屏幕底部出現中國移動?手機屏幕問題：用一個别的軟件看看，如果還在，就是手機屏幕問題找手機生産商或銷售商處理，下面我們就來聊聊關于為什麼我的手機屏幕底部出現中國移動?接下來我們就一起去了解一下吧!為什麼我的手機屏幕底部出現中國移... 2022-06-05
科技諾基亞想X6手機鎖屏密碼怎麼解除
諾基亞想X6手機鎖屏密碼怎麼解除?硬格相當于重裝系統格機後手機回複到出廠剛時的狀态，現在小編就來說說關于諾基亞想X6手機鎖屏密碼怎麼解除?下面内容希望能幫助到你，我們來一起看看吧!諾基亞想X6手機鎖屏密碼怎麼解除硬格相當于重裝系統。格機後手... 2022-06-17
科技迷你世界新版本如何養戰鬥雞
[閩南網]迷你世界新版本雞吃什麼？雞飼飼料怎麼做？相信不少玩家還不知道吧！下面就讓小編來告訴大家吧！養了雞，就要負責養到雞的一生，吃住都要照顧好。雞飼料就必不可少了，隻要直接放在地上讓雞吃，雞吃了就會找你做的雞窩去下蛋了哦!下面就是雞飼... 2022-11-16
科技 ARS-AL00是華為的什麼手機
ARS-AL00是華為的什麼手機?ARS-AL00是華為暢享MAX全網通版的型号華為暢享MAX手機很不錯的，手機參數如下：，下面我們就來聊聊關于ARS-AL00是華為的什麼手機?接下來我們就一起去了解一下吧!ARS-AL00是華為的什麼手機... 2022-06-17
科技不錯的App可以看免費的vip
不錯的App可以看免費的vip?最近發現一個免費看視頻的App,上面有最新上映的電影，各種vip電視劇等，都是免費看真不錯，分享給大家，今天小編就來聊一聊關于不錯的App可以看免費的vip?接下來我們就一起去研究一下吧!不錯的App可以看免... 2022-10-04
科技單缸柴油機的型号表示的意思是什麼
單缸柴油機的型号表示的意思是什麼?我國柴油機的型号一般由三個部分組成，我來為大家講解一下關于單缸柴油機的型号表示的意思是什麼?跟着小編一起來看一看吧!單缸柴油機的型号表示的意思是什麼我國柴油機的型号一般由三個部分組成。首部為缸數符号,中部為... 2022-07-15
科技 win10更新後開機未找到引導
win10更新後開機未找到引導?安裝的是win10正版操作系統，使用的是UEFI快速啟動啟動速度是十分快的，不用經過開機自檢開機直接啟動操作系統的，我來為大家講解一下關于win10更新後開機未找到引導?跟着小編一起來看一看吧!win10更新... 2022-06-05
科技有什麼傻瓜式的剪輯軟件排行
媒體訓練營6月15日報道文|魏力6月15日，360公司正式推出了國内首款在線視頻剪輯軟件——“快剪輯”。360快剪輯軟件，永久免費，無廣告。在攻城獅3月12日接到研發通知，3月15日正式立項開發，到今天正式發布，一鍵錄制小視頻，一鍵剪輯和分... 2022-12-10
科技十大辦公軟件排行
十大辦公軟件排行?騰訊QQ是深圳市騰訊計算機系統有限公司開發的一款基于Internet的即時通信(IM)軟件騰訊QQ支持在線聊天、視頻電話、點對點斷點續傳文件、共享文件、網絡硬盤、自定義面闆、QQ郵箱等多種功能，我來為大家講解一下關于十大辦... 2022-06-05
科技 oppo手機怎麼投屏到海信電視上
oppo手機怎麼投屏到海信電視上?首先打開智能電視，進入電視界面，選擇我的應用，下面我們就來聊聊關于oppo手機怎麼投屏到海信電視上?接下來我們就一起去了解一下吧!oppo手機怎麼投屏到海信電視上首先打開智能電視，進入電視界面，選擇我的應用... 2022-06-02
科技台式電腦怎麼能跟手機同屏
台式電腦怎麼能跟手機同屏?下載手機or電腦多屏互動，将app安裝至安卓手機雙擊運行電腦接收端程序（退出請按ALT+F4），再打開手機端裝好的名為“Sender”的應用，手機會自動搜索到内網PC接收端的信息，請手動選擇對應的IP進入，再按“播... 2022-06-16
科技如何讓手機變成随身WIFI
如何讓手機變成随身WIFI?先看看你的桌面、應用程序、通知欄有沒有【便攜式WLAN熱點】或者【網絡共享】等類型的功能，如果有，那麼可以直接點開用，我來為大家科普一下關于如何讓手機變成随身WIFI?以下内容希望對你有幫助!如何讓手機變成随身W... 2022-06-18
科技 amd顯卡全部功能講解
AMD的顯卡我們俗稱的A卡，其實最早A卡并不是AMD的而是ATI的，ATI在2006年被AMD以54億美元的巨資收購了，成為了AMD的一部分。在2010年8月份AMD宣布放棄ATI品牌，将旗下所以顯卡都統一更名為AMD，所以現在市面上的A卡... 2022-11-06
科技學習粵語速成辦法
學習粵語速成辦法?打開百度手機助手，在搜索欄搜索‘百度翻譯’，今天小編就來說說關于學習粵語速成辦法?下面更多詳細答案一起來看看吧!學習粵語速成辦法打開百度手機助手，在搜索欄搜索‘百度翻譯’。下載安裝‘百度翻譯’。打開百度翻譯，選擇中文--粵... 2022-06-10
科技主機市場走向
對于建站新手而言，選擇一個滿意且價格适宜的主機空間方案就顯得尤為重要。Hostinger是近幾年備受歡迎的美國虛拟主機提供商，專注于提供超值優質的虛拟主機産品，深受數百萬站長信賴。Hostinger主機為大家提供單網站主機(Single)、... 2022-10-23
科技山特ups不間斷電源如何關機
幾個月前在值友手裡花200塊買了一套蝸牛，刷了黑群晖,挂了三塊2T3.5硬盤放家裡存照片用。由于家住老舊小區電線路老化，時常出現使用功率過大導緻電壓不穩甚至整個樓跳閘的情況，所以有些擔心硬盤損壞導緻數據丢失。正好趕上張大媽有山特TG-BOX... 2022-10-30
科技電腦word
電腦word?首先嘗試最簡單的方法操作看看，登錄到系統桌面，右鍵桌面空白處點擊打開“個性化”設置窗口，今天小編就來說說關于電腦word?下面更多詳細答案一起來看看吧!電腦word首先嘗試最簡單的方法操作看看，登錄到系統桌面，右鍵桌面空白處點... 2022-06-27
科技手機掉水裡有水印需要修嗎
手機掉水裡有水印需要修嗎?手機進水後應該馬上關機，不關機的話會形成渦電流，輕的燒壞屏幕電池，重的直接燒掉主闆主闆壞了，離報廢也差不多了所以堅決不要開機，用毛巾或者紙巾擦拭掉手機外殼上的水然後迅速拔下SIM卡将其保管在别的地方接下來，用紙巾吸... 2022-06-20
科技傳奇手遊正版是哪個版本
傳奇手遊正版是哪個版本?《傳奇》該遊戲具有戰士、魔法師和道士三種職業，所有情節的發生、經驗值取得以及各種打獵、采礦等活動都是在網絡上即時發生，我來為大家講解一下關于傳奇手遊正版是哪個版本?跟着小編一起來看一看吧!傳奇手遊正版是哪個版本《傳奇... 2022-06-16
科技哪個品牌的平闆最耐用
以維護環保為名的綠色和平組織近期與iFixit網站合作，對40款行動裝置進行環保評估，包括智能手機、平闆電腦以及筆記型電腦等，都列為主要分析項目，并列出了哪些品牌的手機、平闆最難修理。根據外媒的報導，綠色和平組織主要以産品電池、屏幕元件、零... 2023-01-09
科技手機拍照構圖技巧講解
手機拍照構圖技巧講解?中央構圖法，雖然這是很基礎的構圖法，但是很多攝影大師也是經常用到的把你要拍的主體放在畫面的正中央，離得近一些這種構圖能夠使人的視線集中在你要表現的東西上，比較保險拍出來的照片主體大而清晰，背景簡單幹淨，現在小編就來說說... 2022-07-02
科技洗手機殼妙招
洗手機殼妙招?用牙膏和食鹽一起刷洗其實我們的手機殼變黃是因為我們經常在使用它，和外界的接觸太多，積累了很多的灰塵和摩擦痕迹導緻的我們可以先将牙膏擠出大約三厘米左右的長度放在手機殼上，之後用牙刷刷洗，主要注意的是，這個時候不要蘸水，要用牙刷直... 2022-06-12
科技騰訊視頻軟件怎麼關閉迷你頁面彈窗推送
騰訊視頻軟件怎麼關閉迷你頁面彈窗推送?電腦：組裝機系統：Win10，我來為大家講解一下關于騰訊視頻軟件怎麼關閉迷你頁面彈窗推送?跟着小編一起來看一看吧!騰訊視頻軟件怎麼關閉迷你頁面彈窗推送電腦：組裝機。系統：Win10。軟件：騰訊視頻11.... 2022-07-13
科技機械革命12代酷睿筆記本
IT之家5月1日消息，機械革命現已上架新款無界14筆記本，搭載了英特爾i7-12700H處理器，核顯配置，首發4999元。IT之家了解到，機械革命新款無界14筆記本采用了航空級鋁合金材質，重量約為1.4kg。屏幕尺寸為14英寸，2560*1... 2023-01-22
科技三國志戰略版平民最強陣容關羽
猜一猜：祝融帶2回合打出11048傷害，帶的是什麼戰法。有人會說這是打野怪，不算的！祝融真垃圾，2回合打出11000傷害，有手就行，雖然祝融還有治療5000-8000兵力的能力，但我還是認為祝融垃圾。正文：白闆關羽，多穿打滿紅一般來說，白闆... 2022-11-10
科技手機話費每個月什麼時候扣費
各大運營商為了吸引手機用戶的眼球，各種優惠套餐不斷推陳出新。特别是現在新推出的日租流量，雖說是優惠套餐，可真的算下來，費用一點也不比之前的便宜，但用戶為了能夠擁有充足的流量可以随時上網，還是不得不選購。這樣一來，有的人很多時候一個月的話費到... 2022-10-30

tft每日頭條

> 科技

> 基于深度學習的自然語言處理

基于深度學習的自然語言處理

相关科技资讯推荐

热门科技资讯推荐

网友关注