文本挖掘和語義挖掘-tft每日頭條

文本挖掘和語義挖掘

情感更新时间:2025-07-04 08:50:28

一、案例描述：

本案例基于python與R語言，對豆瓣某電影短評進行簡單情感分析：

實現：

（一）、基于python爬取豆瓣電影短評500條；

[由于豆瓣的反爬措施，用戶需登陸後才能爬取到500條評論]

（爬取方法：1、使用selenium爬取；

2、複制登錄後的cookies，使用requests庫爬取）;

（二）、基于R語言進行文本讀取、清洗、分詞、情感打分、可視化；

本案例的代碼、數據集、情感詞典、停用詞請關注私信領取

二、實操過程：

本案例基于兩部分展開：

（一）數據獲取：

【cookies為用戶自行登錄後，于google浏覽器的netWord監督組件中獲取】

文本挖掘和語義挖掘（R文本挖掘情感分析）1

1、數據爬取代碼如下：

文本挖掘和語義挖掘（R文本挖掘情感分析）2

（二）、基于R語言對數據進行情感打分：

1、基于R語言對評論數據進行簡單的情感分析：

實操過程中發現：繁體字對情感打分的影響、停用詞、切詞效果對語句情感得分的影響;

2、過程：數據讀取、數據清洗、詞典導入、分詞、情感打分、詞雲圖；

2.1：數據導入：

在使用R導入數據之前，需用excel将評論中的繁體字評論轉為簡體；

文本挖掘和語義挖掘（R文本挖掘情感分析）3

2.2數據清洗：

本案例的數據清洗部分僅去除評論中的不可見字符【空格、換行符、制表符等】

文本挖掘和語義挖掘（R文本挖掘情感分析）4

2.3詞典導入：

文本挖掘和語義挖掘（R文本挖掘情感分析）5

2.4分詞：

文本挖掘和語義挖掘（R文本挖掘情感分析）6

2.5情感打分：

文本挖掘和語義挖掘（R文本挖掘情感分析）7

2.6繪制詞雲圖：

文本挖掘和語義挖掘（R文本挖掘情感分析）8

Wordfreq：

文本挖掘和語義挖掘（R文本挖掘情感分析）9

詞雲圖：

文本挖掘和語義挖掘（R文本挖掘情感分析）10

三、總結：

1、案例僅簡單對評論數據進行情感打分，局限性在于未對評論中的英文評論進行處理；

2、實操過程中發現停用詞、切詞效果對語句情感得分影響較大；

[停用詞中包含停止詞]

3、效果圖：

文本挖掘和語義挖掘（R文本挖掘情感分析）11

感謝您的閱讀！

附：完整代碼：

#--------------載入所需R包： library(pacman) p_load(readr,jiebaR,jiebaRD,plyr,stringr,stringi,ggplot2,wordcloud2) #-----------------步驟一：數據讀取------------------- text <- read.table("D:/a情感分析/text1.csv", dec = ",", sep = ",",stringsAsFactors = FALSE, header = TRUE, blank.lines.skip = TRUE) str(text) #查看數據類型； #------------------步驟二：數據清洗------------------： #這裡僅僅簡單清理了下空格（包含換行符、制表符等） text$comment<- as.character(sapply(text$comment, str_replace_all, '[\\s]*', '')) #------------------步驟三：讀取情感詞典--------------: #正負詞典中包含文本和得分，負向我标記為-1，正向我标記為1. pos <- read.table("D:/a情感分析/tsinghua.positive.gb.txt", header = F, stringsAsFactors = F,strip.white = T,skip = 1,col.names = "words") pos1 <- read.table("D:/a情感分析/正面評價詞語（中文）.txt", header = F, stringsAsFactors = F,strip.white = T,skip = 1,col.names = "words") pos$weight<-1 pos1$weight<-1 #對正面情感詞、評價詞打分； #合并正面情感詞、評價詞： positive<-rbind(pos,pos1) neg <- read.table("D:/a情感分析/tsinghua.negative.gb.txt", header = F, stringsAsFactors = F,strip.white = T,skip = 1,col.names = "words") neg1 <- read.table("D:/a情感分析/負面評價詞語（中文）.txt", header = F, stringsAsFactors = F,strip.white = T,skip = 1,col.names = "words") neg$weight<--1 neg1$weight<--1 #合并負面情感詞、評價詞： negative<-rbind(neg,neg1) #合并正、負情感詞典，賦值給mydict對象： mydict<-c(positive,negative) #-----------------------步驟四：分詞-----------------: engine<-worker(stop_word = "D:/a情感分析/chineseStopWords.txt") #設置分詞引擎； #将詞典添加進引擎 new_user_word(engine, mydict$words) #分詞 segwords <- llply(text$comment, segment, engine) str(segwords) #查看分詞； #-----------------------步驟五：情感打分-------------- #自定義情感函數 fun <- function(x,y) x%in% y getscore <- function(x,pwords,nwords){ pos.weight = sapply(llply(x,fun,pwords),sum) neg.weight = sapply(llply(x,fun,nwords),sum) total = pos.weight - neg.weight return(data.frame(pos.weight,neg.weight, total)) } score1 <- getscore(segwords, pos$words, neg$words) #将得分與評論合并到一起：a evalu_score1<- cbind(text, score1) #判斷得分是否大于1，賦予相應标簽： evalu.score1 <- transform(evalu_score1, emotion = ifelse(evalu_score1$total> 0, 'Pos', 'Neg')) #查看效果: View(evalu.score1) # 計算詞頻 wordfreq <- unlist(segwords) wordfreq <- as.data.frame(table(wordfreq )) wordfreq <- arrange(wordfreq , desc(Freq))#排序 head(wordfreq) write.csv(wordfreq,"D:/wordart.csv") # 繪制詞雲: wordcloud2(wordfreq,size=1,shape='star')

小結

本文轉載自學習使我快樂，請支持原創！

感謝大家耐心看完，自己的文章都寫的很細，代碼都在原文中，希望大家都可以自己做一做，請關注後私信回複“數據鍊接”獲取所有數據和本人收集的學習資料。如果對您有用請先收藏，再點贊轉發。

也歡迎大家的意見和建議。

如果你是一個大學本科生或研究生，如果你正在因為你的統計作業、數據分析、論文、報告、考試等發愁，如果你在使用SPSS,R，Python，Mplus, Excel中遇到任何問題，都可以聯系我。因為我可以給您提供最好的，最詳細和耐心的數據分析服務。

如果你對Z檢驗，t檢驗，方差分析，多元方差分析，回歸，卡方檢驗，相關，多水平模型，結構方程模型，中介調節，量表信效度等等統計技巧有任何問題，請私信我，獲取最詳細和耐心的指導。

If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.

Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??

Then Contact Me. I will solve your Problem...

加油吧，打工人！

往期内容：

R文本挖掘：文本聚類分析

R文本挖掘：中文文本聚類

R文本挖掘：中文詞雲生成

R文本挖掘：社會網絡分析

R文本挖掘：文本主題分析topic analysis

R文本挖掘：手把手教你做詞雲圖，小白教程

R文本挖掘：詞雲圖怎麼做，worldcloud2初識

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

情感元宵節發朋友圈的說說
1、收到我的祝福的人永不被炒;閱讀的人會飛皇騰達;儲存的人會愛情甜蜜;删除的人會好運連連;轉發的人薪... 2023-07-08
情感關于花的唯美說說
1、清風吹過。一陣陣花雨飄落下來。山野像鋪上了一床彩色的大錦被。2、春天，嬌嫩的綠葉中，一簇簇潔白如... 2023-07-08
情感打羽毛球心情朋友圈
1、好久沒打羽毛球了，再不運動，身體要廢了。2、又是兩個小時，本來想靠打羽毛球減肥的，結果全程都在撿... 2023-07-08
情感微信說說心情2020傷感
1、一萬個美麗的承諾也抵不上現在一個溫暖的擁抱。2、有些事，回頭看很美，有些人，回頭愛很累。3、慢慢... 2023-07-08
情感适合早上發的簡短句子
1、生活是看不到盡頭的海，也是走不完終點的路。早安！2、激情帶不來天長地久，愛情到最後總會變成親情。... 2023-07-08
情感一句話換回愛情
1、我相信，隻要我堅持愛你，我們就能夠擁有完美的結局，我也相信，隻要你還愛我，我們就不隻是現在這般結... 2023-07-08
情感脫單最好方法
1、搞好形象，首先先要自省，是不是平時都不太注重形象，給異性不好的印象了，人們其實都是視覺動物，男生... 2023-07-08
情感超好聽的古風句子
1、平生憔悴自知矣。再吹去，弦斷寒心，惘然知己。憶往長自最銷魂，歸向杯中月裡。又攜來，夢痕依稀。塵緣... 2023-07-08
情感沒有安全感的句子
1、沒有安全感，注定不懂愛。2、我不高貴，但不是每個男人都有機會。3、在我的舞台上，你不再是主角。4... 2023-07-08
情感甜蜜浪漫的愛情說說
1、愛是緣分，愛是溫馨，愛是體諒，愛是寬容，愛是浪漫，愛是原諒，愛是堅守，愛是犧牲，愛是感動，愛是一... 2023-07-08
情感傷感心情簽名
1、我們笑着說再見，卻深知再見遙遙無期。2、總有一個人，一直住在心底，卻告别在生活裡。3、真正愛你的... 2023-07-08
情感寫給朋友的最美的句子
1、我們即将步入新的生活，前面的路還很長很長，讓我們更加珍惜今天所擁有的青春和友誼，用真情去澆灌友誼... 2023-07-08
情感看破不說破的經典語錄
1、即使看破，也能不說破，明白對方心中所苦，又給人留以體面，是做人的一種境界。2、成長就是很多的事情... 2023-07-08
情感别人說喜歡你怎麼回答更幽默
1、可以說：喜歡好呀，總比讨厭我強吧！2、你眼光真好，我也喜歡我自己。3、我又不是人民币有什麼好喜歡... 2023-07-08
情感有哪些哀莫大于心死的句子
掏心掏肺之後，帶來的傷痛和失望，終于體會到了什麼是哀莫大于心死。哀莫大于心死，不愛也許是最大的傷害，... 2023-07-08
情感經曆過後才明白的句子
1、人生吃一蟄長一智，經曆過後才會明白，路遙知馬力，日久見人心，誰好不好，遇事就知道，更應該的是強大... 2023-07-08
情感表白文案
1、藍藍的天空飄着雪花，漂亮的皮鞋漏着腳丫，你我的相識是個神話，請您溫柔地回個電話。2、就是為了這不... 2023-07-08
情感教師節感謝語
1、春雨，染綠了世界，而自己卻無聲地消失在泥土之中。老師，您就是我們心田的春雨，我們将永遠感謝您。2... 2023-07-08
情感溫暖的句子唯美簡短
1、世界這麼大，人生這麼長，總會有這麼一個人，讓你想要溫柔地對待。2、與其熱鬧着引人奪目，步步緊逼，... 2023-07-08
情感告别2020年迎接2021年的句子
1、對于生命垂危的病人來說，時刻就是寶貴的生命;對于做生意的人來說，時刻就是财富，有的人說時刻就像是... 2023-07-08
情感作家張愛玲經典語錄
1、你如果認識從前的我，也許你會原諒現在的我。bai2、于千萬人之中遇見你所要遇見的人，于千萬年之中... 2023-07-08
情感一句話說到人心裡
1、你永遠也無法辨别什麼是真愛，因為真愛往往伴随着失去而來。失去了才領悟，失去了才懂的珍惜。2、君子... 2023-07-08
情感最美朋友圈早安心語
1、和陽光的人在一起，心裡就不會晦暗。早安~2、慢下來，把日子過成詩，簡單而精緻。早安~3、付出不一... 2023-07-08
情感一句話說說超短最新
1、餘生還很長，你不必慌張！2、說話别給老子沖，大不了就是一場掰。3、當一個人熬過了最艱難的時候，就... 2023-07-08
情感摘草莓沙雕文案
今天是草莓味的一天。出門采摘快樂。今日份草莓碎片。願我每天“莓”煩惱。我喜歡你，就像喜歡草莓一樣的味... 2023-07-08
情感友誼短句八個字
1、天涯海角，如影随形。2、一生有爾，幸甚至哉。3、與朋友交，言而有信。4、人之相知，貴在知心。5、... 2023-07-08
情感如何做一位優秀老婆
1、接受丈夫的不完美。所謂“人無完人，金無足赤”，你的丈夫也是一樣。他可能有各種各樣的不完美，不像你... 2023-07-08
情感父親節祝福語簡短8字
1、父親是偉岸的大山。2、父親是兒女的靠山。3、父愛，給我們遮擋風雨。4、父愛，給我們澆灌希望。5、... 2023-07-08
情感打動人心的溫暖句子
1、有的人對你好，是因為你對他好；有的人對你好，是因為懂得你的好。2、我喜歡的婚姻生活是這樣的：兩個... 2023-07-08
情感說說句子勵志
1、永遠不要被陰雲吓倒，隻要我們相信自己，隻要我們敢于接受挑戰，我們的心就會得到冶煉，我們的前路就不... 2023-07-08

tft每日頭條

> 情感

> 文本挖掘和語義挖掘

文本挖掘和語義挖掘

相关情感资讯推荐

热门情感资讯推荐

网友关注