斯坦福發布重磅NLP工具包StanfordNLP，支持中文等53種語言

新聞 02-01

【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP，通過Python介面為53種語言提供標記、依存句法分析等NLP任務的重要工具。

今天，斯坦福NLP團隊發布一個重磅NLP工具包：StanfordNLP。

StanfordNLP是一個軟體包組合，包括斯坦福團隊在CoNLL 2018 的通用依存解析(Universal Dependency Parsing)共享任務上使用的軟體包，以及斯坦福CoreNLP軟體的官方Python介面。

StanfordNLP支持包括阿拉伯語、中文、英語等53種語言(全部語言列表見文末)。

斯坦福發布重磅NLP工具包StanfordNLP，支持中文等53種語言

除了從CoreNLP繼承的功能外，StanfordNLP還包含將一串文本轉換成句子和單詞列表，生成這些單詞的基本形式、它們的詞類和形態學特徵的工具，以及超過70種語言的句法結構。

這個軟體包採用高準確性的神經網路組件構建，這些組件支持用戶使用自己的注釋數據進行高效的訓練和評估。這些模塊構建在PyTorch上。

StanfordNLP具有以下特徵：

本地Python實現，只需最少的設置工作;
用於穩健的文本分析的完整神經網路pipeline，包括tokenization、多詞標記(MWT)擴展、外延化、詞類(POS)和形態學特徵標記，以及依存句法分析(dependency parse)；
支持73個treebank中53種(人類)語言的預訓練神經模型；
穩定、官方維護的轉到CoreNLP的Python介面。

獲取地址：

https://stanfordnlp.github.io/stanfordnlp/index.html

安裝與測試

我們強烈建議使用pip安裝StanfordNLP，這非常簡單

斯坦福發布重磅NLP工具包StanfordNLP，支持中文等53種語言