北郵李蕾:關於自動文本摘要的分析與討論
人工智慧論壇如今浩如煙海,有硬貨、有乾貨的講座卻百里挑一。由中國科學院大學主辦,百度公司提供支持,讀芯術作為指定合作自媒體的「AI未來說·青年學術論壇」第二期「自然語言處理」專場已於2019年2月23日下午在中科院舉行。李蕾老師為大家帶來報告《關於自動文本摘要的分析與討論》。
李蕾老師是北京郵電大學計算機學院副教授,中國人工智慧學會理事,中國人工智慧學會自然語言理解專業委員會秘書長。
主要研究領域為自然語言處理、自動摘要、機器學習、知識圖譜、數據挖掘、社交網路分析等,參加國內外相關評測10餘次,在TAC、ACL/EACL Multiling、ACM SIGIR BIRNDL、SIGHAN、NLPCC等多個自動摘要與內容關聯評測任務中多次獲得好成績。在相關領域已發表學術論文60餘篇,主持和參與國家級、省部級科研項目10餘項,企業合作項目10餘項,獲得國家授權專利5項。
關於自動文本摘要的分析與討論
李老師首先介紹了自動文本摘要是什麼,然後從多個角度分析與討論了自動文本摘要任務的要點和問題,最後介紹了李老師團隊與此相關的工作。
李老師提出了 Summarization 和 Summary 兩個詞的問題,指出前者側重摘要這一過程,後者側重摘要結果,而自動文摘的研究重點便是在摘要的過程。
自動文摘在現在愈發重要,因為現在知識過載的現象愈發明顯。自動文摘的研究方面主要有文本特徵和摘要模型。評測方面有很多,與具體領域的需要有關。應用方面有直接使用摘要和間接檢索摘要等。
自動文摘領域的研究發展趨勢總體是從單文檔發展到多文檔,從單一語種到多語種,也可以從多個角度分析,包括:抽取式和生成式,有監督和無監督,通用摘要與個性化摘要,傳統文本與網路新文本等。
單文檔摘要是基礎。單文檔具有形式和內容上的完整性與規律。
多文檔摘要的核心在於多篇之間存在關聯。人們對多文檔的需求更多,其實用性也更強。但是多文檔摘要存在很多難點:摘要的壓縮比更大了,不同文檔選取的主題側面不同,不同文檔的格式、用語和風格不同,不同文檔的時序更加雜亂,不同文檔的冗餘問題更加複雜,摘要是側重選取重要性還是全面性。
多語言摘要是國際化時面臨的問題。語言間天然具有關聯,但語言都有獨特之處,研究方法各異,不同語言研究所積累的資源水平也不同。TAC 2011 MultiLing 較早啟動了一個多語言文檔摘要演算法的系列評測任務,成為了該領域的里程碑。多語言摘要研究可劃分為語言相關性研究和語言無關性研究。
抽取式摘要適用於長文本,易於實現、通用性強、語言和領域的依賴度低、能夠保持原文風格。但是,抽取式摘要詞源單一,無法突破斷句限制,通常不夠連貫靈活有邏輯。生成式摘要需要分析原文結構和語義,重新產生摘要文本,隨著深度學習、端到端生成模型的發展,近年來 Seq2seq 成為生成式摘要的核心模型,但效果仍然不佳。
有監督、無監督、半監督主要是關於學習式模型的訓練思路、評價指標的區別,而有監督學習又產生了可移植性的問題,即新數據產生後如何去適應。
通用摘要與個性化摘要體現了用戶的不同需求,更多的是採用個性化需求改造和指導通用摘要的產生方法。
傳統文本與網路新文本主要反映了待摘要文本對象的發展變化,網路新文體出現了傳統文本所沒有的特徵,如文本之外的元數據,以及作者屬性,作者間關係,內容互動,文章標籤等。
最後,李老師介紹了他們團隊做的單文檔抽取式無監督新聞摘要系統,介紹了面向多語言用戶的多話題多語言摘要系統以及參加評測效果等。
※滴滴巨虧109億後,裁員2000人,補償方案已出,員工爭著
※想遠離欠擬合OR過擬合?正則化最有效!
TAG:讀芯術 |