LingPipe : 自然語言處理工具包
(點擊
上方公眾號
,可快速關注)
來源:伯樂在線 - 劉立華
LingPipe是運用計算機語言學處理文本信息的工具包,可用於如下任務:
在新聞中查找人名、組織或位置。
自動分類Twitter搜索結果。
提供查詢的正確拼寫建議。
架構
LingPipe的架構是有效的、可擴展的、可重用的、健壯的。亮點包括:
Java API源碼和單元測試;
多語種、多域、集成型模式;
用新任務的新數據訓練;
n最優統計的置信度估計輸出;
在線訓練;
線程安全模型和並發讀同步獨佔寫(concurrent-read exclusive-write)解碼器;
字元編碼敏感的I/O。
教程列表
主題分類
通過人物語言模型分類新聞文章。
http://alias-i.com/lingpipe/demos/tutorial/classify/read-me.html
命名實體識別
介紹如何運行、訓練和評估命名實體識別器。
http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html
聚類
單連接和完整連接的層次聚類器圖,包括各種聚類評估技術。
http://alias-i.com/lingpipe/demos/tutorial/cluster/read-me.html
詞性標註
介紹如何從語料庫用標籤解析器和處理器訓練詞性標註器,如何編譯模型到磁碟並讀取,如何運行並評估第一次最佳、第n次最佳及置信得分標註器(confidence-scored taggers)。
http://alias-i.com/lingpipe/demos/tutorial/posTags/read-me.html
句子檢測
介紹如何使用分塊介面檢測語句等。
http://alias-i.com/lingpipe/demos/tutorial/sentences/read-me.html
拼寫校正
類似搜索引擎的拼寫檢查,介紹如何調整和訓練模型。
http://alias-i.com/lingpipe/demos/tutorial/querySpellChecker/read-me.html
資料庫文本挖掘
第一部分使用MEDLINE引用JDBC填充MySQL資料庫。第二部分運行資料庫腳本創建表和實體。第三部分介紹如何通過資料庫查詢做資料庫文本挖掘。
http://alias-i.com/lingpipe/demos/tutorial/db/read-me.html
字元串比較
介紹如何使用距離和接近措施結束字元串,包括加權編輯距離,TF/IDF距離等。
http://alias-i.com/lingpipe/demos/tutorial/stringCompare/read-me.html
興趣短語檢測
從一個語料庫中統計顯著多字片語和相對的「熱詞」的提取
http://alias-i.com/lingpipe/demos/tutorial/interestingPhrases/read-me.html
人物語言建模
訓練和調整人物語言模型。
http://alias-i.com/lingpipe/demos/tutorial/lm/read-me.html
中文分詞
介紹了如何細分中文字元成不同的話。
http://alias-i.com/lingpipe/demos/tutorial/chineseTokens/read-me.html
連接符和音節
展示了如何從訓練數據字典中訓練連字元和音節。例如荷蘭語、英語和德語。
http://alias-i.com/lingpipe/demos/tutorial/hyphenation/read-me.html
情感分析
使用語言模型的分類做電影評論的情感分析。
http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html
語言識別
語言識別作為分類問題
http://alias-i.com/lingpipe/demos/tutorial/langid/read-me.html
奇異值分解
使用奇異值分解因子矩陣。解釋了如何處理位置值估算、正規化、調優參數設置。
http://alias-i.com/lingpipe/demos/tutorial/svd/read-me.html
邏輯回歸
介紹了如何為判別標準估計正規化多項式邏輯回歸模型。
http://alias-i.com/lingpipe/demos/tutorial/logistic-regression/read-me.html
期望最大化
介紹了如何為半監督學習(semi-supervised learning)各種任務使用期望最大化。
http://alias-i.com/lingpipe/demos/tutorial/em/read-me.html
詞義消歧
詞義消歧是根據一個詞的上下文確定一個詞的含義的過程,用於分類、搜索、聚類等。
http://alias-i.com/lingpipe/demos/tutorial/wordSense/read-me.html
Eclipse
使用Eclipse IDE編譯和測試LingPipe的基本說明。
http://alias-i.com/lingpipe/demos/tutorial/eclipse/read-me.html
開發文檔
教程
http://alias-i.com/lingpipe/demos/tutorial/read-me.html
下載
http://alias-i.com/lingpi
pe/web/download.html
API文檔
http://alias-i.com/lingpipe/docs/api/index.html
Demos
http://alias-i.com/lingpipe/web/demos.html
【關於投稿】
如果大家有原創好文投稿,請直接給公號發送留言。
① 留言格式:
【投稿】+《 文章標題》+ 文章鏈接
② 示例:
【投稿】《不要自稱是程序員,我十多年的 IT 職場總結》:http://blog.jobbole.com/94148/
③ 最後請附上您的個人簡介哈~
看完本文有收穫?請轉發分享給更多人
關注「ImportNew」,提升Java技能
※FutureTask 在線程池中應用和源碼解析
※一份不能錯過的 Docker 實戰指南
TAG:ImportNew |