解密600年前的秘密,科學家利用AI成功破譯「伏尼契手稿」第一句
唐旭 編譯整理
量子位 出品 | 公眾號 QbitAI
1912年,一份殘餘240頁、從頭至尾由未知文字與奇異插圖寫成的手稿在羅馬附近的一所耶穌會大學圖書館中被波蘭書商伏尼契(《牛虻》作者艾捷爾·麗蓮·伏尼契的丈夫)發現並買下。
伏尼契手稿
碳十四測年法推定,這份手稿寫成於15世紀初;但對於手稿的作者,沒人能給出確切結論。手稿中的文字無法對應世界上任何一種已知語言,同時配有大量類似於植物、裸體人物以及天文符號的怪異圖畫;手稿從左至右書寫十分流暢,沒有明顯的錯誤、修改痕迹甚至標點符號;同樣地,沒有任何類似密碼對應的線索。
後世將這份神秘的手稿稱為「伏尼契手稿」。無數密碼學家、密碼破譯者乃至一戰、二戰中的情報人員在其面前束手無策。自「伏尼契手稿」被發現至今,無人能對手稿內容作出令人信服的解釋。
簡而言之,一本「天書」。
但最近,阿爾伯塔大學教授、自然語言處理專家Greg Kondrak和他的研究生Bradley Hauer宣稱,運用人工智慧,他們已經找到了破譯「伏尼契手稿」的線索。
他們發現,「伏尼契手稿」上的文字實際上是古希伯來語,而且文字的排布有固定規律可循。
Kondrak稱,研究的第一步,是找出手稿內容所使用的語言。為了達到這個目的,他們先讓AI學習了以380種不同語言書寫的《世界人權宣言》文本,以建立模式。在演算法識別語言的準確率達到97%之後,AI對於「伏尼契手稿「進行了分析,判斷文本內容有較高概率由加密過的希伯來語寫成。
Kondrak和Hauer對此十分吃驚,在研究之初,他們本以為手稿中的文字是阿拉伯語。
「這很令人意外。」Kondrak在一份聲明中說。「當然,告訴大家『這是希伯來語』只是第一步,下一步要做的是搞清楚如何才能破譯它。」
第二步,研究者們對於前人提出的一種假說進行了驗證——有人認為,「伏尼契手稿」的文本規則其實是依照字母表排列順序的異位構詞法(舉個例子,在此規則下,APPLE就會被轉換為AELPP,BANANA就會變成AAABNN)。在先前的基礎上,研究者們設計出了一種加入了這種構詞規則,能將為本破譯為正常希伯來語的演算法。
「結果顯示,超過80%的文本都能在一本希伯來語詞典中找到,但我們還不知道這些單詞拼在一起是否能說得通。」Kondrak說。
最後一步,研究者們依照上面的規則對手稿的第一句進行了破譯。他們發現,在希伯來語中,破譯所得結果並不能組成一個連貫的句子。
「然而,做過幾次拼寫上的修正後,谷歌翻譯已經能夠把它翻譯成說得通的英文:
『She made recommendations to the priest, man of the house and me and people.』」
研究者們在發表在《計算機語言協會學報》上的報告中如是寫道。
Kondrak表示,對於「伏尼契手稿」的具體內容,他們其實依然不能理解。他認為,只有古希伯來方面的歷史學家參與到研究中,他們才有對破譯後的文本進行研究的機會。
與此同時,這支團隊正計劃將這種演算法應用到其他古代文本的解讀上。
—完—
活動報名
加入社群
量子位AI社群13群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot4入群;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進群請加小助手微信號qbitbot5,並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。(專業群審核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
※ICLR 2018入選論文公布:23篇Oral,508篇被拒
※最近有啥ML比賽能表現自己的優秀?CVPR2018圖像壓縮大賽
TAG:量子位 |