當前位置:
首頁 > 知識 > 新型人工智慧系統:通過網上衝浪提高其性能

新型人工智慧系統:通過網上衝浪提高其性能


新型人工智慧系統:通過網上衝浪提高其性能



信息提取,或者自動分類數據項存儲為純文本,是人工智慧搜索的一個主題。

圖片來源於: 麻省理工學院新聞


引言


來自於麻省理工學院計算機科學和人工智慧實驗室的研究人員發表一篇關於信息提取的新論文,推進了傳統的機器學習技術。


信息提取

網際網路上具有大量信息財富,絕大部分是純文本的。這些數據需要回答無數的問題,這就是說,工業使用的化學物質和疾病事件之間的相關性,或者新聞報道的模式和民意測驗結果之間的相關性,都是可以在網上獲取的。但是,從純文本中提取這些信息,或者為海量分析組織這些數據可能是非常耗時的。


信息提取,或者自動分類數據項存儲為純文本格式,是人工智慧搜索的主要研究方向。上周,在計算機語言協會關於自然語言處理實證方法的會議上,來自於麻省理工學院計算機科學和人工智慧實驗室的研究人員,獲得了最佳論文獎,因為他們發表一篇關於信息提取的新論文,推進了傳統的機器學習技術。


大多數的機器學習系統,都結合了訓練示例,去尋找人類註解者提供的分類模式。例如,人類能夠以一些文本標記詞性,而機器學習系統將嘗試區分解決歧義的模式,例如,什麼時候「her」是一個直接賓語,什麼時候是一個形容詞。


典型地說,計算機科學家將嘗試給機器學習系統反饋儘可能多的訓練數據,以普遍地增加系統能夠解決困難問題的機會。


在新論文中,作為對比,麻省理工學院的研究人員在稀疏的數據上訓練他們的系統,因為在他們研究的方案中,通常所有數據都是可用的。但是,他們卻在尋找解決一個簡單問題所需的有限信息。電氣工程和計算機科學專業的教授,新論文的高級作者 Regina Barzilay 說,

「在信息提取中,傳統地說,在自然語言處理中,給定一篇文章,所需要做的所有工作就是從文章中正確地提取信息。這和你我通常的方式十分不同,當你正在讀一篇你無法理解的文章的時候,你將去網路上尋找一篇你可以看得懂的。」


信心提振


從本質上講,系統做了同樣一件事情。機器學習系統將給每個分類一個信心分,根據訓練數據中的辨別的模式,衡量正確分類的統計學可能性。在新系統中,如果信心分太低,系統將自動產生一個網路搜索查詢,抓取文本包含系統嘗試提取的數據。


然後,系統將嘗試從其中一個新文本中提取相關數據,並且與最初想要提取的結果保持一致。如果信心分仍然太低,它將移動到通過搜索欄位抓取的另外一個文本,如此往複。


麻省理工學院電氣工程和計算機科學系(EECS)的研究生,這篇新論文的合著者 Adam Yala 說:

「基礎提取器不會變化,你將找到提取器更加容易讀懂的文章。那麼,你擁有一個非常弱的提取器,你可以自動地從網路上找到適合的數據。」


和Yala 以及 Barzilay 一同參與這篇論文的還有文章的第一作者 KarthikNarasimhan,他同樣也是 EECS 的研究生。


明顯地說,系統根據機器學習的結果,進行的每次決策。系統學習如何產生搜索查詢,計算新文本和其提取任務的相關性,並且決定結合多次信息提取的嘗試,總結出最佳策略。


應用案例

在實驗中,研究人員將它們的系統應用於兩個提取任務。一個是關於美國大規模槍擊事件的數據,這對於槍支管制來說有著十分重要的意義。另外一個是食品污染數據。系統對於每個任務都獨立地進行訓練。


在第一個案例中(大規模槍擊事件的資料庫),系統要提取槍擊者的姓名,槍擊位置,和傷亡人數。在食品污染的案例中,它要提取食物類型,污染類型和位置。在每個案例中,系統在300份文件的基礎上進行訓練。


對於那些文件,它學習搜索條目簇,相關與可能和要提取的數據條目。例如,大規模槍擊事件的姓名和那些條目例如「警察」、「鑒定」、「逮捕」、「判刑」有關。在訓練過程中,對於要分析的每一篇文章,系統平均要從網上抓取9到9到10篇新文章。


研究人員將他們的的系統與幾個使用更加傳統的機器學習技術訓練的提取器,進行了性能對比。對於所有任務中的每個數據項來說,新系統的表現會超過前任10%。


參考資料


【1】"Improving information extraction by acquiring external evidence with reinforcement learning" arxiv.org/pdf/1603.07954v3.pdf


【2】http://phys.org/news/2016-11-artificial-intelligence-surfs-web.htm


請您繼續閱讀更多來自 IntelligentThings 的精彩文章:

FIWARE開源平台:創造出物聯網市場新商機
MRV,將是下一代汽車嗎?
科學家使用硬體來檢測計算機軟體病毒
新系統:讓非專家也能優化在多核晶元上運行的程序
新型電子技術:讓你可以品味和咀嚼虛擬世界的食物

TAG:IntelligentThings |

您可能感興趣

著力提高人工智慧系統的通用性和自適應性
智能語音可提高人與品牌的互動
提高男人性能力最快捷的辦法
男人提高性能力的四大神器
英國宇航系統公司開發可提高空間和衛星操作技術穩定性的新型抗輻射技術
健身長跑可提高呼吸系統和心血管系統機能
黑客通過腦電波「竊取」用戶密碼,新興腦機介面設備安全性待提高
深蹲為什麼能提高男人性功能
巧用心理學技巧提高網站流量和銷量:選擇效應!
新的性愛風格提高性愛質量
美陸軍無人機系統提高態勢感知能力和任務性能
美媒猜測中國新型高超音速武器,開發機動式彈頭提高突防能力
生活中能提高情商的小技巧!
新能源車門檻提高 動力電池產能嚴重過剩
拳擊運動可以提高人的靈敏性和反應能力
想要主動打出高質量的回球,提高移動速度是關鍵
騎自行車能預防大腦老化,提高神經系統的敏捷性
如何提高個人的創新能力
中國常規潛艇巡航能力顯著提高,網路戰和電子戰能力穩步增強