當前位置:
首頁 > 最新 > 數據探索東野圭吾暢銷之謎——男默女淚

數據探索東野圭吾暢銷之謎——男默女淚

今天,小兔與大家繼續探索東野圭吾暢銷之謎。昨天的文章中,小兔實現了《解憂雜貨鋪》整篇小說的全文分詞。那麼,接下來的步驟就是針對文中每個句子進行情感分析,判斷句子的情感傾向並量化情感傾向。小兔今天仍舊按照從原理到實踐的步驟為大家進行梳理,和大家一起看看文章中的男默女淚。

情感分析

原理

情感分析主要研究如何識別、分類、標註和提取主觀文本及其所表達的情感、情緒和觀點。它也被稱為意見挖掘(Opinion Mining)、意見分析/傾向性分析(Opinion Analysis)、情感分類(SentimentClassification)、或者主觀性分析(Subjectivity Analysis)。

受到應用的驅動,情感分析技術已經成為文本挖掘領域中一項重要的研究內容。在斯坦福CS224N的自然語言處理課程中,針對情感分析的應用場景進行了較為集中的介紹,主要包含以下集中場景:

(1)識別用戶評價中的褒貶,可以應用在電影評論、產品性能評估等場景,如 Google Product Search、Bing Shopping等

(2)行為預測:用戶情感與調查、投票等結果可能具有較高的一致性,這一成果往往應用於政治選舉結果預測之中。這一成果詳見論文:Brendan O"Connor, Ramnath Balasubramanyan, Bryan R. Routledge, and Noah A. Smith. 2010. From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series. In ICWSM-2010,對於這一成果,小兔只想說:真twitter治國!

情感分析方法

(1)基於詞典:這一方法起源於基於語法規則的文本分析,方法比較簡單純樸。首先需要具有語法敏感性的專業人士構建情感分析的詞典:正向情感詞典和負向情感詞典,即將某語言中用於表達情感的辭彙分為兩個類別,然後比對文本中正負情感詞的個數之類的方法,評估文本的情感傾向,方法比較容易理解。

情感詞的程度深淺在基於詞典的方法之下也需要進一步量化,舉個例子,小嶽嶽的「臭不要臉」與丞相的「厚顏無恥」的負向程度,有著顯著的不同,因而也需對應不同的負向權重。

GIF

GIF

毫無疑問這種方法包含一定的語法分析的成分,同時也需要專業人士客觀的量化打分。

(2)基於機器學習:首先製作一個規模龐大的訓練集,由人工識別文本的正負向,然後通過機器學習或演算法(SVM、隨機森林、樸素貝葉斯等等)等方式訓練模型,得出模型後再用來識別新文本的情感傾向。

(3)基於詞典與機器學習:這種混合的思路有兩種:1.將「詞典+規則」視為簡單的分類器,然後融合多種不同分類器進行情感分類;2.將詞典信息作為一種特徵與現有特徵(句法特徵、POS特徵等)進行結合,然後選擇最優的特徵組合進行情感分類。

(4)基於弱標註信息的情感分類方法:從互聯網用戶產生的數據中挖掘有助於訓練情感分類器的信息,但由於這類信息標註沒有統一標準,具有較大的隨意性,將這種標註信息稱為弱標註信息。利用這類信息構建的情感分類方法即為基於弱標註信息的情感分類方法。

(5)基於深度學習的情感分類方法:針對情感分類問題的機器學習方法有兩個步驟:1.從海量評論語料中學習出語義詞向量;2.通過不同的語義合成方法用詞向量得到所對應句子或文檔的特徵表達。

資源推薦

針對希望深入學習與應用文本情感分析的小夥伴,小兔在這裡整理了一些資源,與君共勉:

實踐

小兔使用R軟體實現《解憂雜貨鋪》的情感分析,採用的方法為最基本的基於詞典的情感分析方法,這一過程分為以下幾個步驟。

準備工作:詞典

小兔首先選擇使用大連理工大學提供的情感辭彙本體庫中的感情極性文檔,由於這一文檔提供了各個辭彙的情感強度,因而,可以直接完成量化的步驟,但由於這一詞庫的數據含量較小,僅包含27467個辭彙的情感傾向且詞典來源多為古文和成語辭彙,因而對於譯制小說的解釋能力較弱。

為彌補這一詞典覆蓋問題,小兔改選使用python調用百度NLP api的辦法直接應用百度平台的數據分析基礎對句子情感進行評價。

其他詞典:漢語情感詞極值表、台灣大學情感NTUSD、知網Hownet情感詞、中文褒貶義詞典v1.0(清華大學李軍)等來源的情感極性結果也具有較高的接受度,希望大家嘗試後,幫小兔對比出哪家的詞典水平最為優質,獲得對比成果的小夥伴可以私戳公眾號助手,有驚喜哦~

準備工作:註冊百度api

由於百度NLP api有100000次/天免費調用的便利,因而小兔在分析的最後選擇應用百度平台的直接結果。

準備工作:裝包

R:安裝讀取excel數據的包readxl

python:

安裝AipNlp包,調取百度NLP api;

安裝pandas,進行數據處理

實踐R部分:調用已有詞典完成分析

實踐python部分:調用api並返回結果

結語

今天小兔為大家簡述了情感分析的方法和如何實現,歡迎小夥伴們在平時多多實踐,《解憂雜貨鋪》的情感分析任務完成了,但《嫌疑人X的獻身》的還等你嘗試。此外,如何實踐其他方法進行文本情感分析也是未來研究的重點,感興趣的小夥伴可以在公眾平台留言與小兔一起討論。希望大家持續關注將在新年後舉辦的大數據訓練營,一起揭示數據的奧秘。

明天將是這一專題的最後一篇,通過情感曲線,歡迎大家與小兔一起解密東野圭吾小說暢銷之謎。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 全球大搜羅 的精彩文章:

《燒話連篇》之「二逼婦女」薛文那
龍承浩的私人FM·第二期

TAG:全球大搜羅 |