MIT切割大量文本黑科技！數十億選擇中「海底撈」出一本好書

新聞 12-31

新智元報道

來源：MIT

編輯：向學

【新智元導讀】MIT和IBM的研究人員結合了三種流行的文本分析工具——主題建模、詞嵌入和最優傳輸——來每秒比較數千個文檔。而且可以更快、更準確對文檔分類，輕輕鬆鬆從數十億選擇中更快找到更相關的讀物。戳右邊鏈接上新智元小程序了解更多！

在線有數以十億計的書籍、新聞故事和文檔，如果你有時間瀏覽所有選項，現在正是閱讀的最佳時機！MIT助理教授Justin Solomon說：「互聯網上有大量文本，任何有助於切割這些材料的東西都是非常有用的。」

在線本文的數量比這還多得多

在MIT-IBM沃森人工智慧實驗室和MIT幾何數據處理小組的幫助下，Solomon最近在NeurIPS會議上提出了一種切割大量文本的新技術。該技術結合了三種流行的文本分析工具——主題建模（Topic Modeling）、詞嵌入（Word Embeddings）和最優傳輸（Optimal Transport），這比流行的文檔分類基準的競爭方法提供更好、更快的結果。

如果一個演算法知道你過去喜歡什麼，它可以掃描出數百萬個類似的可能性。隨著自然語言處理技術的改進，那些「你可能也喜歡」的建議正變得越來越快，也越來越相關。

在NeurIPS提出的這種方法，是一種演算法根據集合中的常用詞將一種集合（比如說書）歸納成主題。然後將每本書分成5-15個最重要的主題，並估算每個主題對整本書的貢獻。

NeurIPS 現場，熱鬧非凡，人潮湧動

為了比較書籍，研究人員使用了另外兩種工具：詞嵌入（一種將詞轉換成數字列表的技術，以反映詞在流行用法中的相似性）與最優傳輸（一種計算在多個目的地之間的移動對象或數據點的最有效方式的框架）。

詞嵌入使得兩次利用最優傳輸成為可能：首先將集合中的主題作為一個整體進行比較，然後在任意兩本書中比較常見主題的重疊程度。

該技術在掃描大量書籍和冗長的文檔時特別有效。在這項研究中，研究人員提供了Frank Stockton的《戰爭辛迪加》（The Great War Syndicate）的例子，這本19世紀的美國小說，預言了核武器的興起。如果你正在尋找一本類似的書，那麼主題模型將有助於識別與其他書共享的主要主題——在這種情況下，是航海、元素和軍事。

戰爭辛迪加

但是僅僅是一個主題模型並不能將Thomas Huxley在1863年的演講《有機自然過去的環境》（The Past Condition of Organic Nature）確定為一個很好的匹配。這位作家是Charles Darwin進化論的擁護者，他的演講中充斥著化石和沉積作用，反映了關於地質學的新觀點。當Huxley演講中的主題與Stockton的小說通過最優傳輸相匹配時，出現了一些交叉主題：Huxley的地理、動植物、知識主題，分別與Stockton的航海、元素和軍事主題緊密相關。