機器學習應用於古文獻,解密聖經起源
選自 Gizmodo
作者:Maddie Stone
機器之心編譯
參與:周亮
在以色列南猶太地區的阿拉德古堡中發現的著墨碑文
兩千六百年前,在耶路撒冷被尼布甲尼撒洗劫前夕的最後幾天里,一隊猶太士兵正守望著他們王國的南部邊境 。他們留下了大量的石碑——而如今,一種開創性的數碼分析技術揭示了有多少個書寫者撰寫了這些石碑。這一研究和創新科技將會告訴我們聖經的起源。
「我們都理解,聖經不是在一時一地完成的,而可能是後來逐漸書寫和編輯成的。」Arie Shaus, 一位來自以色列特拉維夫大學的數學家告訴 Gizmodo,「問題是,聖經到底是何時成書的?」
Shaus 是試圖以激進的方式解決這一問題的幾名數學家之一:他們要通過使用機器學習工具來確定在那個古老年代有多少人能讀書認字。他們的第一篇主要分析成果刊登在《美國國家科學院院刊》上,這篇研究表明在古猶太王國讀寫能力相當普遍,這就為聖經的編撰創造了基礎。
儘管部分結論仍然富有爭議,這一研究背後的技術卻可能顛覆我們對聖經時代的識字和教育狀況的理解。
多數學者都同意,最早的聖經文本——包括《約書亞記》、《士師記》和兩部《列王紀》——都是在第一聖殿時期的晚期,在耶路撒冷陷落於巴比倫王之前成型的。然而,這些文本是在什麼條件下被書寫的,它們何時被書寫,有多少作者?這些都並不清楚。令人驚訝的是,那些與聖經無關的文本卻可能揭示出這些問題的答案。
阿拉德古堡的航拍,這裡發現了本研究中的石碑
例如,在這一時期人們把許多信息都書寫在陶片上。「這些文字本身十分乏味」,Shau 說。他列舉了一些軍事命令和供應訂單,這些是陶片文字中較常見的內容。
然而,除了猶太士兵需要多少葡萄酒之外,我們還可以從陶片中找到另一層信息:有多少人能夠書寫。這恰恰是 Shaus 與他的同事們的工作。他們分析了來自猶太地區南部邊界附近的遙遠軍事古堡中的 16 片保存完好的陶片。大部分陶片都來自公元前 600 年左右,這正好是猶太王國被攻陷的前夕。
分析的第一步要求研究者們用新型圖像處理工具來重建那些已經被擦去的字母。之後,他們研發了機器學習演算法來比較和對照古希伯來字母的形狀,以確定那些統計上可以區分的手寫文字。原則上,這類似於科技公司用來偵測數字簽名的演算法。
「手寫字體分析是一個巨大的領域,近年已出現了大量的研究,」 Shaus 說。「儘管如此,我們仍然需要研發出我們自己的工具 ,這是很有挑戰性的。陶片介質的狀況很糟,書寫也很模糊。」
最終,該團隊發明出一種手寫識別工具,它能美妙地處理現代希伯來文,於是他們決定用它來檢測古代石碑。滿打滿算,他們的分析揭示出,這十六塊石碑至少擁有 6 名不同的作者。通過檢驗文本的內容,研究者認為這些文本作者遍布在整個從上到下的軍令鏈條上。「從司令官到最低級的水務員都可以用寫字來交流,」Shau 說。「這是一個非常令人驚訝的結果。」
研究者們認為,這一成果指示了公元前 600 年的猶太社會中「識字能力的激增」,而這意味著當時幾乎一定有相當多的人接受了讀寫教育,從而能為支持聖經寫作提供教育基礎。
「這是一個高度創新和重要的研究。」Christopher Rollston,喬治華盛頓大學的一位考古學和聖經研究的專家告訴 Gizmodo,他注意到,有足夠多的考古證據表明,聖經的某些部分書寫於早至公元前 800 年的年代。然而,在那樣的時代,什麼樣的人才真正具有書寫能力呢?
「我認為讀寫能力局限於精英們,他們主要是抄寫員,高級軍官與神職人員。」Rollston 說,不過他也指出,在第一聖殿時期的晚期,有可能讀寫能力已經傳播到了上層階級之外。
或許 Shau 的工作最重要的方面是把複雜的圖像識別技術引入了古代文本的研究中。 Tel Aviv 團隊熱切希望與其他考古學家分享他們這個用於重建字母和辨認手寫的工具。通過更廣泛地運用這些方法,我們或許能漸漸知曉,聖經這部歷史上最經久不衰的書籍是什麼時候在哪裡由什麼人書寫的。
文中提到的論文查詢:
最全面超值的量化對沖課程
量化與對沖概覽
期貨量化交易
量化投資在股票市場的應用
量化投資理論進階與高級實踐
2016年5月27--28日 深圳,兩天4000元
※李沐:從頭開始介紹機器學習,眼花繚亂的機器學習應用
※機器學習簡史
※機器學習應用日益深化 系統不確定性問題待解
※機器學習的本質是「模仿遊戲」?
※用機器學習「武裝」產品應用,蘋果的人工智慧時代降臨
※機器深度學習與大數據結合在醫學圖像分析應用
※機器學習讓機器更智能
※利用機器學習技術抵禦未來網路威脅
※大腦如何思考?科學家正用機器學習解碼人類智能
※如何成為機器學習工程師?
※演算法新應用,機器學習無人機幫忙數動物
※機器學習的發展還得靠「開源」
※從機器學習談起
※機器學習不神秘!手把手教你用R語言打造文本分類器
※經濟學家們,請謹慎使用機器學習
※「機器學習爆款App技術解讀」如何用「攝像頭秒解數獨」
※「全自動機器學習」ML 工程師屠龍利器,一鍵接收訓練好的模型
※「谷歌新項目公開」無需學編程,用手機攝像頭和瀏覽器即可機器學習
※科學家藉助機器學習技術探索新型材料