未來的網路考古很頭痛
22世紀的歷史學家想要研究互聯網歷史的話,他們將會從哪裡開始入手?
今天,歷史學家必須拼湊文物、文獻、歷史傳說等等細碎的證據,來獲取歷史的細節。然而,百年之後的歷史學家如何考證我們今天的互聯網歷史呢?
即便是現在,很多人的資料都多得連自己都無法應付了——想想那些堆砌在角落裡的我們無暇顧及的照片,我們多長時間沒有進行整理了?還有存在硬碟里的大量信息,是不是都已經變成一團亂麻了?我們私人的一點文檔,在這個信息驚人爆炸的時代都無法整理好,那麼,幾百年後,面對互聯網上所遺留下的多如牛毛的數字遺產,他們將用什麼樣的方法來應對如此龐大的信息呢?況且還有無數匿名和別名現象跟著搗亂,讓人分不清信息的真假——這些惱人的問題該讓未來的歷史學家們如何是好?
如何追蹤信息的原始出處?
我們的文字、圖片、視頻信息一旦上網,就會被不斷地複製、編輯、注釋和修改著。這對互聯網考古學家來說,是件喜憂參半的事情。一方面,這些一連串的複製和改動能為信息如何傳播提供有價值的參考;而另一方面,信息的快速廣泛流動卻又讓他們幾乎沒法尋找信息的源頭。
數學可以幫上忙。從信息中篩選文件源頭的一種比較粗略的方法是散列法,也稱作哈希法,它是一種將原始字元重新轉換排列後進行資料庫搜索的方法,用這種方法在資料庫中搜索比用原始值更快,所以散列法使文件對照變得簡單快捷,能夠迅速找出信息流動和變化的路徑。但是,因為散列法對變化非常敏感——哪怕一點小的改動也會引起散列值巨大的波動——所以,利用散列法找出各副本彼此之間的關聯並不容易。
不過,我們還是可以用它來分辨出一些具有極大相似性的副本或者殘缺的早期草稿。通常的方法是,將一個文件分成幾個部分,然後為每一部分創建散列,再進行文件比較檢索。這種分離式「模糊哈希」方法會顯示兩個文件在某些特定情形下最可能具有的相似關係。
雖然傳記作家會從「模糊哈希」法得到莫大的幫助,但是,這一方法仍不完美:它只能進行模糊的識別,並且還對文件類型有所依賴,對有些文件毫無辦法。例如,略微壓縮一張圖形文件可能不會對它的外觀產生大的影響,但是這麼做卻會顯著地改變它的散列值,從而得出截然不同的結果。
如何分辨匿名作者?
網路中充斥著大量匿名的評論、帖子和博客。歷史學家可能想知道真正的作者是誰。這又該怎樣分辨?其中一個方法就是利用所謂的「寫作風格」:他們的辭彙量、常用的句子長度,以及他們所偏好的詞語和標點符號的使用形式,甚至可能還包括一些習慣性的語法錯誤。
一般來說,這種方法需要大量的文本作為支持,但是法國一家計算與自動化研究所的科學家們設計了一個測試系統,這個系統不需要大量文本,僅靠分析組成這些用戶名的字元就能辨別出同一個人使用的別名。
更先進的方法顯然會做得更好,但是隨著時間的流逝,我們的寫作風格難免會有些變化,這無疑又給尋找文章真正作者的工作增添了難度。不過,這種風格上的變化卻也可以用來窺探一個作家的人生軌跡變化:對英國著名女偵探小說家阿加莎?克里斯蒂晚期著作的分析就表明,她晚年很可能患有一定程度的老年痴呆症。
剖析語義,給寫作者畫像
寫作風格只能給出關於文章結構的一些分析,而語義分析工具卻可以使研究更為深入、更加透徹——它能探尋存在於語句間的微妙關係。不必追蹤你不斷更新變化的信息,研究人員憑藉語義分析工具,分析一下你已有文字資料,就能勾勒出你的大致輪廓。
美國馬薩諸塞州技術研究所的科學家正設計一個名為「Defuse」的系統,它按照評論者使用的語言類型進行劃分,並根據分析結果來描繪寫作者的風格。還有一個名為「Personas」的系統,可以追蹤一個寫作者在網上「與人交往的常用技巧、教育程度、相關新聞」等幾項參數,從而為匿名寫作者畫像,了解他們的性格、生活習慣、人生態度等等。
不過,數字存儲只能記錄生硬的數據文字。我們越是依賴它,就越認為是技術不到位造成的現象,而事實卻是這類存儲根本不具備刻畫真實性和綜合描述這樣的能力,因為每一個在電腦屏幕前敲打鍵盤、移動滑鼠的人,都是複雜多變、性格多樣的,無論什麼分析方法,都只能分析他們生活的壓縮了的部分,都只能從一個特殊的視角、以一個特定的目的進行分析的,這樣的分析得出的結論無疑是片面,有時是南轅北轍的。
因此,即使網路分析系統的工具在今後100年里有了長足進展,甚至可以無限地接近完美,但是它們仍然具有局限性,因為我們留給這個世界的東西是有限的。雖然這些記錄日臻完善,甚至於有一天我們的心跳都會被記錄在案,可是22世紀的歷史學家還是會對我們的現狀一頭霧水,最多只能瞥見我們生活中的一角而已。
網路備份的志願者
還有一個問題就是,在網路上,每天都有新的信息覆蓋舊的信息,由誰來歸納、分類、存儲這些信息,以便將來的研究者進行分析發現呢?
在網路剛興起的時候,保存一個國家在線資料的花費可能只是一杯星巴克咖啡的價錢,但是,在今天這樣的信息泛濫的時代,縱然千萬個星巴克的經營利潤都用於此,恐怕也難以支付用於硬體維護的各種成本。花大價錢來保存信息,換來的僅是一兩句好話?不,沒有公司願意干這樣的賠本買賣,即使是以公益節目著稱於世的BBC也沒興趣。
並且,這不僅僅是一個惱人的經濟問題,還是個棘手的法律問題。試想,哪家企業有如此大的權力能夠使其在各種社會網站間遊走,而不必擔心侵犯到他人的隱私呢?一旦不小心被告上法庭,不但公司形象受損,而且還會招致接踵而來的譴責。甚至連國家圖書館也不能對所有資料進行備份。例如,大英圖書館雖然在法律上享有對英國和愛爾蘭每個印刷品的複製權,但是卻不能強制所有的網站提供它們所存有的內容。所以,與其冒著這樣的風險,還不如就乾脆放手不幹。
於是,在這樣的背景下,網路志願人員就登場了。現在,世界上已經有了很多專門整理、備份網路檔案的志願小組,拷貝備份了海量網路信息,雖然對他們的存在還尚有爭議,但他們卻很可能成為未來網路考古學家心目中的英雄——正是他們的努力極大地豐富了網路考古資料,為未來網路考古學開拓了一片生氣勃勃的「網路新大陸」,為令人頭疼的網路考古增添了一絲成功的新光亮。
TAG:大科技雜誌社 |