當前位置:
首頁 > 新聞 > 斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言

斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言

斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言

【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python介面為53種語言提供標記、依存句法分析等NLP任務的重要工具。

今天,斯坦福NLP團隊發布一個重磅NLP工具包:StanfordNLP

StanfordNLP是一個軟體包組合,包括斯坦福團隊在CoNLL 2018 的通用依存解析(Universal Dependency Parsing)共享任務上使用的軟體包,以及斯坦福CoreNLP軟體的官方Python介面。

StanfordNLP支持包括阿拉伯語、中文、英語等53種語言(全部語言列表見文末)。

斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言

除了從CoreNLP繼承的功能外,StanfordNLP還包含將一串文本轉換成句子和單詞列表,生成這些單詞的基本形式、它們的詞類和形態學特徵的工具,以及超過70種語言的句法結構。

這個軟體包採用高準確性的神經網路組件構建,這些組件支持用戶使用自己的注釋數據進行高效的訓練和評估。這些模塊構建在PyTorch上。

StanfordNLP具有以下特徵:

  • 本地Python實現,只需最少的設置工作;
  • 用於穩健的文本分析的完整神經網路pipeline,包括tokenization、多詞標記(MWT)擴展、外延化、詞類(POS)和形態學特徵標記,以及依存句法分析(dependency parse);
  • 支持73個treebank中53種(人類)語言的預訓練神經模型;
  • 穩定、官方維護的轉到CoreNLP的Python介面。

獲取地址:

https://stanfordnlp.github.io/stanfordnlp/index.html

安裝與測試

我們強烈建議使用pip安裝StanfordNLP,這非常簡單

斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言

要查看StanfordNLP的neural pipeline的運行情況,可以啟動Python互動式解釋器,並嘗試以下命令:

斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言

最後,我們應該能看到示例中第一句的依存句法分析。更多詳細指南,請參閱官方入門指南:

https://stanfordnlp.github.io/stanfordnlp/installation_download.html#getting-started

除了neural pipeline之外,StanfordNLP還提供了用於訪問Java Stanford CoreNLP Server的官方Python包裝器。要使用它,首先需要像下面這樣設置CoreNLP包:

  • 下載你希望使用的語言的Stanford CoreNLP和模型。
  • 將模型的jar包放到分發文件夾中
  • 告訴Stanford CoreNLP所在的位置:export CORENLP_HOME=/path/to/stanford-corenlp-full-2018-10-05

設置完CoreNLP之後,就可以按照我們的演示腳本進行測試。

演示腳本:

斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言

輸出應該像下面這樣:

斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言

StanfordNLP支持的所有語言:

斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

美國警察靠不住,清華畢業計算機教授遭持槍劫車靠貪心演算法追回
五張動圖,看清神經機器翻譯里的Attention!

TAG:新智元 |