谷歌發布「與書對話」檢索引擎,從字裡行間邂逅心儀書籍
雷鋒網 AI 科技評論按,今日,谷歌分享了 Semantic Experiences,在博客中展示了兩大關於自然語言理解的互動工具。Talk to Books 是一個可以從書中的句子層面搜索書籍的全新檢索模式;另一個互動內容則是 Semantris,一個由機器學習驅動的單詞聯想遊戲。
地址:https://research.google.com/semanticexperiences/
雷鋒網了解到,谷歌還發布了「通用語句編碼器」(Universal Sentence Encoder),更加詳細地呈現了上述示例所使用的模型;當然,谷歌還為開源社區提供了一個預訓練的 TensorFlow 模型,開發者可以測試自己的句子及短語編碼。
地址:https://tfhub.dev/google/universal-sentence-encoder/1
自然語言理解在近年已經有了極大進步,這得益於詞向量(word vectors)的發展,這一技術使演算法能根據實際語言使用的例子來學習單詞之間的關係。這些向量模型根據概念和語言的等價性、相似性或關聯性,將語義相似的詞或短語投影到臨近點。
建模方法
谷歌拓展了在向量空間中表徵語言(language)的構想,這一想法通過為像完整句子或段落為代表的較大語言塊創建向量來實現。語言是由具有概念的層次結構組成的,因此團隊採用模塊的層次結構來構建向量,每一模塊都要考慮與不同時間尺度序列所對應的特徵。各種類型的關係,如關聯、同/反義、部分/整體等都可以用向量空間語言表示。團隊在論文《Efficient Natural Language Response for Smart Reply》有更多介紹。
論文地址:https://arxiv.org/abs/1803.11175
Talk to Books
以往我們在檢索書籍時,通常會從書名、作者、主題等表面標籤入手。而谷歌發布的「Talk to Books」可以為用戶提供一種檢索書籍的全新方法。用戶只需要做一段相關描述,或是提一個相關的問題,那麼 Talk to Books 可以在不依賴關鍵詞匹配的情況下,從超過 10 萬本書籍中檢索所有句子,並根據句子層面的語義,找到能匹配用戶陳述或問題的句子。從某種意義上來說,Talk to Books 是一種用戶與書「交談」的新模式,系統給出的回答也能幫助用戶確定自己是否對相關主題感興趣。
模型在正式發布前經歷了超十億次的對話訓練,以打磨更好的用戶體驗——對用戶的提問或陳述給出更加合適的回答。這一方式相比起普通的谷歌檢索,可能會幫助用戶找到一些更有趣的書籍,特別是在關鍵字搜索中並不會顯示的一些結果。
不過,這一模型還有更多的改進空間,比如搜索範圍局限在句子層面上,而不是段落,因此可能會產生「斷章取義」的情況。另外,因為只看某一句子的匹配程度,這也可能導致某些眾所周知的、「符合口味」的書並不會出現在檢索結果的前列。谷歌團隊此舉,更多的是希望幫助人們以一種新的探索方式,發現不曾料想過的作者和書名,竟然會有讀者感興趣的內容。
地址:https://books.google.com/talktobooks
Semantris
Semantris 是一個由相同技術驅動的單詞聯想遊戲。屏幕上會呈現所有單詞,用戶可以輸入某個單詞,隨即系統會根據屏幕上單詞與用戶輸入單詞的關聯程度進行重新排序。不論是近義詞、反義詞還是相近概念,系統都能找到對應的排序模式。
如圖所示,用戶輸入「Photo」時,最頂部的「Camara」因為與輸入單詞的關聯最為緊密,因此會更替排序調整到第一位「消掉」。這確實是一個鍛煉聯想能力的好機會,此外還有限時模式和不限時模式供用戶體驗。
地址:https://research.google.com/semantris
相信在這兩個工具的驅動下,人工智慧能夠與用戶更好地進行交互學習,並且幫助人類在現實生活中更好地理解科技,使用科技,並受惠於科技。更多資訊敬請關注雷鋒網AI科技評論。
※幣安確認總部將搬至馬爾他
※我們與博世董事會成員Dirk Hoheisel,聊了聊這家零部件巨頭眼中的自動駕駛和商業化
TAG:雷鋒網 |