從Twitter、Amazon學習,90歲的《牛津英語詞典》這樣擁抱數字化
題圖來源:視覺中國
現在很少有人會知道,英語最開始是只是屬於盎格魯-撒克遜(Anglo-Saxon)民族的語言,因為現代英語已經演變成了一種全球化「混合語言」。
「預計在2020年,中國的英語學習人數將會超過5億。這意味著在中國英語學習者的群體將超越美國總人口數。而在全球範圍內,這一群體數字將會是20億。」日前,牛津大學出版社全球業務總裁及詞典部總裁Casper Grathwohl 在接受鈦媒體專訪時說。
英語的全球化普及,1928年問世的牛津大學出版社的《牛津英語詞典》(Oxford English Dictionary,OED)功不可沒。它一直被視為最全面和權威的英語詞典。不少對英語辭彙的學術研究都以 OED 作為切入點。而詞典對辭彙拼法的要求,影響了不同地區的書面英語。
1928 《牛津英語大詞典》 第一版(簡裝)
牛津大學出版社涉足印刷業最早可以追溯到1480年,是世界第二古老的出版社,僅次於英國劍橋大學出版社。一開始,只作為印刷聖經、祈禱書和學術著作的主要印刷商。在19世紀中後期,牛津大學出版社承印了《牛津英語詞典》的項目,其業務也不斷擴充,包括英語語言文字教學書籍等,自此便開啟了全球化業務拓展的道路。
Grathwohl 已經在牛津大學出版社工作超過20年。從紙質圖書印刷到現在的在線詞典,他親眼見證了牛津大學出版社的歷史,也見證了整個科技演變的過程及其對行業帶來的影響。
經過九十年的發展,OED 多語言詞典的編撰有一套精密而複雜的流程。Grathwohl 介紹說,首先在搜集語料的過程中,要了解細分市場的需求,接著,他們會根據市場需求做針對性的調研並且出具調研報告。在此基礎上,團隊會先做一些樣本,利用樣本做面對面小組的深入調研,以找到解決市場需求最佳方式。
完成以上學術方面的工作之後,出版社會還要做一些財務上的分析,判斷是否具備足夠大的細分市場,預計未來是否有足夠的銷售額,以及以是以電子版還是紙質版的形式面世。
在 Grathwohl 的推動下,「牛津英語詞典」已經從紙質出版物轉型成為了語言數據服務品牌。
牛津大學出版社全球業務總裁及詞典部總裁Casper Grathwohl
「我們並不是想要把紙質的字典變成電子的字典,不是一個簡單的重複過程,而是希望字典的內容和使用,能夠融合在語言學習的過程當中。」Grathwohl 說。
最開始,OED 選擇了和美國矽谷的一些全球性的科技公司進行合作。具體操作的手法是,將牛津大學出版社搜集的所有的語料,包括日常生活中接觸到的英語辭彙進行加工,把它們變成智能化的語言數據,除了辭彙、語句、詞義之外,還會打標籤、加備註。
全球性的科技公司利用這些智能語言數據,開發成各種 APP 等數字產品和服務,增強英語學習者的日常體驗。
在將語言數字化和智能化的過程中,最關鍵的是「過濾」——篩選出最精準和最常被大家使用的語言到底是什麼。在虛擬世界中,數據非常龐大。通過累積專業的語料庫,以及專業語言學家處理的語言信息,同時基於一些語義規則來對語言進行分析。同時,OED團隊還會利用自然語言處理等科技手段在龐大的語料庫抓取所需信息。
「為什麼說這是非常困難的部分呢?因為我們處在與三十年前完全不同的情境,以往我們做編撰的時候,還會覺得素材不夠,現在我們已經被大量的語言所淹沒,數據有點太多了。」Grathwohl 告訴鈦媒體。
這也是他們選擇與一些大型的全球性科技公司合作的原因。出版社將語言數據給到科技公司,幫助科技公司的 AI 進行學習,也協助他們進行一些翻譯工作。與此同時,大型的科技公司也會建立一些新的工具分析實際語言使用情況,然後把數據反饋給出版社,讓 Grathwohl 團隊後期做出更加精準、更加符合現在實際情況的語言資料庫,這是一個雙向互贏的過程。
而隨著科技的進步,語言的「迭代」速度也在加快,如何處理大量的語料?鈦媒體了解到,Grathwohl 團隊目前主要從新聞報紙資料當中獲取,也會參照 Twitter 這類社交網路,甚至還會關注到類似 Amazon 的電商評論,還有當下電影文本中使用的語言。
被廣泛使用語言因龐雜的數據而煩惱,但對於還在存活的小語種世界中的人們而言,這又是另外一個世界。當下只有15種左右的語言在數字化的世界中擁有大量數據和使用者。據不完全統計,全球擁有超過300種語言,還有超過100種語言存活,並且在線下被大量使用著,這些語言正缺失於高度發展的數字化世界裡。
比如祖魯語,它是南非的一種語言,目前可能會有一億人在使用,孟加拉語有超過七千萬人在使用,但是它沒有任何一個電子或者是智能化的語料庫和語言數據。
因為語言缺少數據化的過程,這些語言的使用者們,不僅不能用母語上網、使用智能手機,甚至是發簡訊。在虛擬世界中,他們只能用第二語言溝通和學習。牛津大學出版社目前正著手把這些語言的語料庫或者是智能語言數據建立起來。
「這是豐富的語言世界的遺憾。我們非常希望豐富多語言的環境能夠被保存下來,世界上的人都能夠享有豐富的語言環境。」Grathwohl 對鈦媒體表示。
目前,牛津大學出版社正積極推動小語種的智能語言數據。牛津做的就是利用自身科研的優勢,將這些小語種智能化,把數據給到大型的科技公司。這樣一來,科技公司就可以利用小語種進行個性化和本地化的開放,利用技術讓這些小語種擁有自己語言的虛擬應用環境。(本文首發鈦媒體,作者/李程程)
※中國年輕人的「兩棲」基因,正在秒殺日本的「低慾望社會」
※OV、華為們適不適合做電視?
TAG:鈦媒體APP |