當前位置:
首頁 > 知識 > 怎樣在小型設備上處理文本?試試 Facebook 的新版 fastText 吧

怎樣在小型設備上處理文本?試試 Facebook 的新版 fastText 吧

怎樣在小型設備上處理文本?試試 Facebook 的新版 fastText 吧



近日 FAIR 實驗室在官方博客中指出,目前 fastText 資料庫已經能夠在智能手機及小型電腦上使用,而且內存只需要幾百千位元組,充分增強了 fastText 的延展性。

為實現這一目的,FAIR 實驗室需要儘可能減少 fastText 模型在運轉時所消耗的內存。Facebook 的 FAISS 團隊與 fastText 團隊進行合作,發布論文《FastText.zip: Compressing Text Classification Models》(FastText.zip:壓縮文本分類模型),能夠克服模型遷移到小型存儲設備存在的挑戰。


Facebook 團隊一直努力在提升精度的同時儘可能地減少計算的複雜度,讓實際應用在使用的過程中變得更加靈活方便。而在機器學習拓展的過程中,團隊所面臨的問題在於,需要涉及一個通用庫來解決文本分類問題。因此,fastText 應運而生,針對文本表達和分類幫助建立量化的解決方案。


FAIR 實驗室去年開源了資料庫 fastText,AI 研習社此前也做過覆蓋。


FAIR fastText 的具體實現原理過程有兩篇相關論文闡述,分別是《Bag of Tricks for Efficient Text Classification》(高效的文本分類技巧)和《Enriching Word Vectors with Subword Information》(使用子字信息豐富辭彙向量)。當時開源的資料庫對內存要求較高,動輒數 GB,因此主要支持筆記本電腦及 X86 用戶。

對於有大量類別的數據集,fastText 採用了分層分類器,將不同的類別整合進樹形結構中。並且結合線性及多類別的對數模型,能夠大量減少訓練的時間,也減少了訓練的複雜度。利用類別不均衡的客觀事實,研究人員採用 Huffman 演算法建立用於表徵類別的樹形結構。並且根據樹形出現的頻率高低,深度也有所不同,這樣一來也提升了計算效率。


FAIR 實驗室採用低維度向量對文本進行表徵。高向量自然能提升準確性,但所耗費的訓練時間和計算量也較多。研究顯示,如果有正確的表徵與足夠龐大的語料庫,那麼即便是低維度向量也可以得到最優的結果。在編碼期間,向量的大小會通過常規獲得低維向量的優化方法來獲得。團隊通過「bag-of-words」(詞袋)提取特徵和線性分類器以訓練模型。因為詞袋並不能識別句子中的單詞順序,所總結的高頻單詞特徵並不能與低頻率單詞共享,導致低頻單詞的準確率也要稍低。「n-gram」模型能夠解決詞序問題,但也會增加訓練的複雜度、時間和相應的費用。fastText 部分採用了「n-gram」,通過選擇主題詞前後的詞數以平衡訓練時間與準確度的關係。


結果顯示,fastText 比起目前非常流行的 word2vec 以及最先進的形態詞表徵方式有著更好的表現,且兼容多種語言。除準確度外,fastText 也有著更快的速度,比起目前表現最好的神經網路,它的運行速度快 1000 到 10000 倍。這是使用低級線性模型和標準功能(如二進位)的結果。

怎樣在小型設備上處理文本?試試 Facebook 的新版 fastText 吧


而兼容小型設備後,相信 fastText 能在未來服務更多的用戶,AI 研習社也將持續關注。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 唯物 的精彩文章:

TAG:唯物 |

您可能感興趣

Django Channel處理Websocket鏈接
三款照片處理軟體橫評:Lightroom、CaptureOne、AfterShot
Jdk 動態代理異常處理分析,UndeclaredThrowableException
python介面測試之token&session的處理
Servlet Cookie 處理
Google愛上Intel+AMD合體處理器:Chromebook要用它
如何科學地使用keras的Tokenizer進行文本預處理
Oculus Santa Cruz或採用高通Snapdragon 845處理器
ZUUL 處理 gerrit patch-set 的流程
GeekBench 出現新跑分:六核處理器,或是新款MacBookPro
Intel 8核Coffee Lake/Xeon E處理器雙雙現身
開源實時數據處理系統Pulsar:一套搞定Kafka+Flink+DB
流式處理:使用 Apache Kafka的Streams API 實現 Rabobank 的實時財務告警
蘋果 3 個版本的 iPhone、MacBook 終於要用新處理器
Kafka 源碼分析 5 :KafkaConsumer 消費處理
偽 「Photoshop」的圖像處理
戴爾用第八代處理器刷新了Alienware和Inspiron產品陣容
Section 6-Halcon實戰寶典之圖像處理軟體
處理器上Windows 10 IoT Core的私人預覽
linux-shell命令處理json數據