網路寫作，大數據讓你無法隱身

知識 04-21

不管我們寫任何東西，都必定透露大量關於我們自己的個人信息，無論是你在微信發了一條朋友圈，或者是在網路新聞下面發表匿名評論。美國語言學家們向我們揭示了我們的「數字指紋」是怎樣出賣我們的，同時，也教給我們一些隱藏自己的小竅門。

「中本聰」之謎

比特幣如今是網路上炒作得最火熱的貨幣，但它的創始人中本聰到底是誰，至今仍是個謎。我們所知道的就是，他是個天才、億萬富翁，善於隱藏自己，並且已經撼動了全球金融界。不過專家相信，這個世界上最難以捉摸的人已經被揭露出來了！而揭露他（他們）的正是其寫作風格。

2014年，英國阿斯頓大學的一群學生在法醫語言學家傑克·格里夫的帶領下，分析了中本聰2008年發表的關於比特幣的學術論文。他們從「仍然」「只有」這類可有可無的詞的使用頻率，「和」「但是」前的逗號的使用習慣等線索中，推斷出「中本聰」可能是精通加密貨幣的美國計算機科學家尼克·薩博的筆名。2017年，美國企業和政治專家亞歷山大·繆斯聲稱，美國國家安全局使用過類似的語言識別技術來尋找中本聰，不過，他們並沒有公開結果是不是薩博。

雖然尼克·薩博並未承認自己就是中本聰，但這些試圖找出中本聰的故事給我們提出了一些有趣的問題：我們每次寫東西時是如何暴露自己的身份的？會暴露多少我們的個人信息呢？隨著數字通信的激增，我們的微博、微信、郵件中隱藏的關於我們的線索是什麼？隨著大數據分析的興起，我們還有什麼方法可以隱藏自己嗎?

事實上，幾個世紀以來，偵探們一直在用書面語言習慣的特徵來追捕罪犯。這種分析方法叫作「筆觸分析」。現在，計算機筆觸分析的應用其實更常見，它是大學計算機專業的必修課程，是大學和出版者檢測剽竊的日常工具，也是專家們從罪犯的網路書寫記錄中劃定嫌疑人範圍的有效途徑。

「魔鬼地帶」勒索信

下面，我們來看一個著名的勒索信案例。綁匪綁架了受害人，用電腦打出了一封勒索信，要求其家人把錢留在「魔鬼地帶」，否則就撕票。

於是，警察尋求了美國語言學家羅傑·舒易的幫助。舒易知道「魔鬼地帶」是一個罕見的俚語，指人行道和街道之間的草地，而事實上，只有俄亥俄州阿克倫市的人會使用這個俚語。當舒易問警察是否有來自阿克倫市的嫌疑犯時，警察非常吃驚。最終，這名來自阿克倫市的嫌疑犯供認了自己的罪行。

這個案例告訴我們，如果你不想讓你的語言暴露自己，就要避免使用地區性辭彙或其他特殊辭彙。可是，只要我們提筆落字，我們就有可能被出賣，舉凡字母的大小寫，標點後空格的距離，段落是否縮進，句子的長短等文本特徵都有可能出賣我們，更不用說介詞、連詞、人稱代詞等的使用頻率。

研究顯示，有些看似毫無意義的語言可能會指向一個人的性格類型、健康狀況，甚至是未來的自殺行為。這是由於語言具有非凡靈活性。語言學家認為，我們學會統一的語法之後，就會開始偏離它來表達我們的個性。而現在更普遍的觀點是，我們每個人都有自己的語言的心智模型，這是由於我們所處的社會和情感環境不同造成的，所以，語言就像我們的指紋一樣，每個人都有不同的語言指紋。

模仿中隱藏？

那麼，怎樣才能躲避那些試圖用你的語言指紋找出你的人呢？有人說，假設有100位作者，每個人都提交了一篇文章，而你不希望被人認出哪篇是你寫的，你所要做的就是：讓你的文字看起來像其他99位作者之一。

這種方法在某些情況下很有效。在一項研究中，科學家讓人們模仿美國著名作家科馬克·麥卡錫的寫作方式記錄自己的早晨，結果，一個用來檢測麥卡錫作品的電腦程序竟然被愚弄了：它認為這些文字都是麥卡錫寫的！

然而，人們通常不能堅持這種「正確」的改變。在「魔鬼地帶」案例中，罪犯故意拼錯「警察」和「可以」這兩個單詞，以偽裝成一個受教育程度較低的人，可惜的是，他同時也拼寫對了一些很難的單詞。事實上，當一個人故意偽裝出和自己平時不同的寫作手法時，他可能會暴露更多自己的特徵。

語言指紋難以偽裝，這對偵破刑事案件來說肯定是好事，但是，我們普通人的隱私該怎麼辦？畢竟，保持匿名是一種合理合法的需求。很多時候，只有匿名的情況下人們才能安心地表達自己的真實想法，例如學者們希望他們在同行的評審中保持匿名。另外，匿名也可能是攸關告密者、政治人士甚至是程序員生死的問題。這裡，我們所討論的程序員並不是指黑客，而是普通程序員——在一些國家或地區，別的地方能用的程序是被當地禁止的，所以有些程序員希望人們能使用一些公開軟體，卻不希望給自己帶來麻煩。

這些情況下，單靠我們個人的模仿能力似乎很難完全隱藏自己。於是，有人提出了讓高科技去對付高科技——既然有筆觸分析軟體，那肯定有反筆觸分析軟體吧？

事實上，許多支持匿名功能、反筆觸分析的程序員正致力於保護匿名的研究。你所要做的就是上傳你的文字，讓電腦程序告訴你需要改變哪些細節，才不會被筆觸分析軟體檢測出來。

反筆觸分析軟體

有一個叫「匿名嘴」的匿名軟體，其目標就是降低筆觸分析的準確性，使其變得像隨機猜測。匿名嘴的內核是一個叫JStylo的筆觸分析程序。據稱，JStylo只需要6500個單詞樣本就可以創建一個作者的語言指紋，它將文本與作者進行匹配的準確率可以達到80%到85%。如此，匿名嘴就可以通過評估句子長度、單詞選擇和某些字母的使用頻率等功能，建議作者如何修改文本，使其看起來不像是他自己寫的。

類似的軟體還有一個名為「艾瑪身份」的人工智慧程序，該程序需要8000個單詞樣本來建立一個作者的個人資料，匹配準確度是85%。

然而，現實中可以用來訓練JStylo和艾瑪的樣本可能並不充足，而當匿名的文本是一封精心書寫的信件或亟待發表的科學論文時，作者可能會跳過使用這些程序來修改的步驟。因此，有研究者設計了一款名為「作者網」的工具，可以給作者提供寫作的目標風格，並用一個可視化的儀錶盤來提供實時反饋，讓作者知道自己寫的東西和目標風格的匹配程度。這可以幫助作者更容易、更持久地隱藏他們自己本身的風格。

語言學家告訴我們，其實最具希望的反筆觸分析方法很簡單，那就是合作寫作。一個人寫，另一個人編輯，可以有效地互相抵消語言指紋。這可能正是中本聰長期隱瞞自己身份的策略——有些人認為，比特幣背後隱藏著的是一個群體，而不是一個人，隨著他們的語言指紋錯綜複雜地交織在一起，他們可能會繼續安全地潛伏下去。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 大科技雜誌社 的精彩文章:

※空間非你所想像
※假聲音，真世界

TAG:大科技雜誌社 |