學會信息提取,掌握科研神器!
中外學術情報
後台回博/碩,進博/碩群
很多學科的老師同學都有這種感覺,那就是做論文最酷最炫的就是對比如網路數據這樣的大快數據進行分析呈現。無論是密集的數據,還是精美的圖表,都非常吸引期刊編輯老師的注意,讓論文發表變得既省心、又容易。
可是問題來了。雖然誰都知道對大塊文本數據進行結構化處理是科研發文的一種神器,但具體操作一點不會啊~
鑒於這個問題,中外學術情報專門邀請了美國名校Jack老師來給大家講授「用機器學習實現有用文本信息提取」這個課。Jack老師是信息科學博士,在信息與數據處理相關研究方法方面經驗老道,並擁有豐富教學經驗。讓他講這個方法,實在太適合不過了。
課程簡介:高效準確地從大塊文本中提取有用的信息,能夠節約處理信息的時間成本和經濟成本。從大塊文本中抽取出名字/規則/機構等等各式各樣的命名實體、基於提取出的實體,做關係分析、事件提取等,能夠充分地利用文本數據做諸如事件預測、命名實體識別、客戶抱怨分析和識別、產品創新、醫療健康個性化方案推薦等研究。在信息提取領域,基於規則、一些諸如馬爾可夫模型等方法,雖然能夠起到一定的信息抽取效果,但是並沒有採用機器學習的方法高校準確。機器學習比較成熟和穩定,在信息提取領域是比較新和performance高的方法。
本系列課程共分六講,講課中,老師極其注意效率,內容豐富,全面系統。外加這是個視頻課,直觀可視,簡直是一學就會,一聽就懂。
具體來說,該課程包括但不限於以下內容:
第一講信息提取介紹
1.信息提取
2.案例
3.信息提取典型的類型
4.挑戰
第二講 基於規則的信息抽取
1.典型的信息提取方法
2.基於規則的信息提取方法
2.1正則表達式的介紹和應用
2.2有限狀態自動機的介紹和應用
第三講 機器學習的相關介紹和實驗案例簡介
1.機器學習
1.1基本的機器學習演算法
1.2特徵表達
1. 3 Bootstrap方法
2.實驗介紹
第四講 對信息抽取標記的評價
1.標記的可靠性測量
2.用訓練集/校驗集/測試集進行模型評價
3評價標準介紹
3.1結果的質量
3.2運行的好壞
第五講將機器學習應用於關係抽取
1.關係抽取案例
2.關係抽取方法
3.自助法講解
4.機器學習法講解
第六講用Python + Weka進行整個實驗演示
1. Brat tools for annotation
2. Feature extraction
3. Resampling
4. WEKA運行機器學習演算法
如上所示,學生通過該課程,可以通過老師理論和實踐案例相結合的演示教學,手把手學會如何採用機器學習做信息提取,可謂收穫滿滿。這個方法真的非常有用,最好一定要來學學。
※博後有代價,申請需謹慎!——The price of doing a postdoc
TAG:中外學術情報 |