當前位置:
首頁 > 新聞 > MIT切割大量文本黑科技!數十億選擇中「海底撈」出一本好書

MIT切割大量文本黑科技!數十億選擇中「海底撈」出一本好書

新智元報道

來源:MIT

編輯:向學

【新智元導讀】MIT和IBM的研究人員結合了三種流行的文本分析工具——主題建模、詞嵌入和最優傳輸——來每秒比較數千個文檔。而且可以更快、更準確對文檔分類,輕輕鬆鬆從數十億選擇中更快找到更相關的讀物。戳右邊鏈接上新智元小程序了解更多!

在線有數以十億計的書籍、新聞故事和文檔,如果你有時間瀏覽所有選項,現在正是閱讀的最佳時機!MIT助理教授Justin Solomon說:「互聯網上有大量文本,任何有助於切割這些材料的東西都是非常有用的。」

在線本文的數量比這還多得多

在MIT-IBM沃森人工智慧實驗室和MIT幾何數據處理小組的幫助下,Solomon最近在NeurIPS會議上提出了一種切割大量文本的新技術。該技術結合了三種流行的文本分析工具——主題建模(Topic Modeling)、詞嵌入(Word Embeddings)和最優傳輸(Optimal Transport),這比流行的文檔分類基準的競爭方法提供更好、更快的結果。

如果一個演算法知道你過去喜歡什麼,它可以掃描出數百萬個類似的可能性。隨著自然語言處理技術的改進,那些「你可能也喜歡」的建議正變得越來越快,也越來越相關。

在NeurIPS提出的這種方法,是一種演算法根據集合中的常用詞將一種集合(比如說書)歸納成主題。然後將每本書分成5-15個最重要的主題,並估算每個主題對整本書的貢獻。

NeurIPS 現場,熱鬧非凡,人潮湧動

為了比較書籍,研究人員使用了另外兩種工具:詞嵌入(一種將詞轉換成數字列表的技術,以反映詞在流行用法中的相似性)與最優傳輸(一種計算在多個目的地之間的移動對象或數據點的最有效方式的框架)。

詞嵌入使得兩次利用最優傳輸成為可能:首先將集合中的主題作為一個整體進行比較,然後在任意兩本書中比較常見主題的重疊程度。

該技術在掃描大量書籍和冗長的文檔時特別有效。在這項研究中,研究人員提供了Frank Stockton的《戰爭辛迪加》(The Great War Syndicate)的例子,這本19世紀的美國小說,預言了核武器的興起。如果你正在尋找一本類似的書,那麼主題模型將有助於識別與其他書共享的主要主題——在這種情況下,是航海、元素和軍事。

戰爭辛迪加

但是僅僅是一個主題模型並不能將Thomas Huxley在1863年的演講《有機自然過去的環境》(The Past Condition of Organic Nature)確定為一個很好的匹配。這位作家是Charles Darwin進化論的擁護者,他的演講中充斥著化石和沉積作用,反映了關於地質學的新觀點。當Huxley演講中的主題與Stockton的小說通過最優傳輸相匹配時,出現了一些交叉主題:Huxley的地理、動植物、知識主題 ,分別與Stockton的航海、元素和軍事主題緊密相關。

有機自然過去的環境

根據書籍的代表性主題(而不是單個詞)對書籍進行建模,使高層次比較成為可能。該研究的主要作者、IBM研究員Mikhail Yurochkin說:「如果你讓某人比較兩本書,他們會把每本書分解成易於理解的概念,然後比較這些概念。」

研究表明,結果是更快、更準確。研究人員在一秒鐘內對比了Gutenberg Project數據集的1720對書籍,比次佳方法快800多倍。

Gutenberg Project數據集

與其它方法相比,該技術還可以更準確地對文檔進行分類:例如,按作者對Gutenberg Project數據集中的書籍進行分組,按部門對亞馬遜的產品評論分類,以及按體育項目對BBC體育報道分類。在一系列的可視化中,作者展示了他們的方法可以很好地按類型對文檔進行聚類。

除了快速和更準確地對文檔進行分類之外,該方法還提供了一個窗口來了解模型的決策過程(想想就很厲害~~)。通過出現的主題列表,用戶可以看到模型推薦文檔的原因。

您覺得這項技術厲不厲害?歡迎來小程序里跟我們交流、探討哦~

參考資料:

http://news.mit.edu/2019/finding-good-read-among-billions-of-choices-1220

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

馬庫斯批判Hinton、吳恩達、LeCun等煽風點火!炒作將帶來AI寒冬
致命缺陷!谷歌實現量子霸權的超導量子比特,或將敗於光子量子比特