斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言
【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python介面為53種語言提供標記、依存句法分析等NLP任務的重要工具。
今天,斯坦福NLP團隊發布一個重磅NLP工具包:StanfordNLP。
StanfordNLP是一個軟體包組合,包括斯坦福團隊在CoNLL 2018 的通用依存解析(Universal Dependency Parsing)共享任務上使用的軟體包,以及斯坦福CoreNLP軟體的官方Python介面。
StanfordNLP支持包括阿拉伯語、中文、英語等53種語言(全部語言列表見文末)。
除了從CoreNLP繼承的功能外,StanfordNLP還包含將一串文本轉換成句子和單詞列表,生成這些單詞的基本形式、它們的詞類和形態學特徵的工具,以及超過70種語言的句法結構。
這個軟體包採用高準確性的神經網路組件構建,這些組件支持用戶使用自己的注釋數據進行高效的訓練和評估。這些模塊構建在PyTorch上。
StanfordNLP具有以下特徵:
- 本地Python實現,只需最少的設置工作;
- 用於穩健的文本分析的完整神經網路pipeline,包括tokenization、多詞標記(MWT)擴展、外延化、詞類(POS)和形態學特徵標記,以及依存句法分析(dependency parse);
- 支持73個treebank中53種(人類)語言的預訓練神經模型;
- 穩定、官方維護的轉到CoreNLP的Python介面。
獲取地址:
https://stanfordnlp.github.io/stanfordnlp/index.html
安裝與測試
我們強烈建議使用pip安裝StanfordNLP,這非常簡單
要查看StanfordNLP的neural pipeline的運行情況,可以啟動Python互動式解釋器,並嘗試以下命令:
最後,我們應該能看到示例中第一句的依存句法分析。更多詳細指南,請參閱官方入門指南:
https://stanfordnlp.github.io/stanfordnlp/installation_download.html#getting-started
除了neural pipeline之外,StanfordNLP還提供了用於訪問Java Stanford CoreNLP Server的官方Python包裝器。要使用它,首先需要像下面這樣設置CoreNLP包:
- 下載你希望使用的語言的Stanford CoreNLP和模型。
- 將模型的jar包放到分發文件夾中
- 告訴Stanford CoreNLP所在的位置:export CORENLP_HOME=/path/to/stanford-corenlp-full-2018-10-05
設置完CoreNLP之後,就可以按照我們的演示腳本進行測試。
演示腳本:
輸出應該像下面這樣:
StanfordNLP支持的所有語言:
※美國警察靠不住,清華畢業計算機教授遭持槍劫車靠貪心演算法追回
※五張動圖,看清神經機器翻譯里的Attention!
TAG:新智元 |