Unicode 中的幽靈字元
# 感謝 Weibing 投遞譯稿
1978年,日本經濟產業省(日本行政機關之一)發布了一套編碼系統,即後來的 JIS X 0208。這份編碼系統對日本後來的所有編碼系統都影響深遠。但是就在這份編碼發布後,大家發現有其中的幾個字元很奇特——沒人知道它們從何而來、什麼意思、怎麼發音。這就是所謂的幽靈字元(日語: [幽霊文字] ) 。
很長一段時間,這些幽靈文字雖然奇特,但是無人解釋,也被大多數人遺忘(畢竟不是很多)。但在1997年,日本人終於坐不住了,發起一個大型的調查來研究這些文字的來龍去脈。
一般來說,收錄到 JIS 標準的字元都有具體來源記錄。即使來源不甚清楚,也會說明在哪些文檔。所以,你可能認為會很容易追溯到這些字元的根源,但是我們可能得談談」文檔「的定義——這些幽靈字元的一個常見來源是《國土行政區劃總覽》(日語:國土行政區畫総覧),包含了所用的日本地名。你可能和我一樣,一開始認為這僅僅是普通的地圖冊,一本幾百頁的大書。但事實是,最新版本的《總覽》是一套七卷本,每本大概都900頁。想像一下在這裡面一個一個地查找字元,而且還不知道在那一頁!
幽靈字元:妛挧暃椦槞蟐袮閠駲墸壥彁
儘管如此,日本人還是做到了(佩服):他們發現了這些幽靈字元的來源——至少是最可能的來源。通過詢問那些參加標準制定的索引員們,調查員們發現一些幽靈字元其實是在索引過程中錯誤地製造出來的!例如,「妛」這個字本來是用來表示「上山下女」的另外一個字,一個在日本非常著名地點用到的字(因此值得收入到 JIS 標準)。在當時,因為沒有這字,所以沒有辦法列印這個字,所以索引員單獨列印了「山」和「女」,然後剪切粘帖在一張紙(基礎PS……),最後掃描複製。但是後來的索引員讀到這個複印件,把兩個字中間粘縫產生的橫線認為是一划,於是錯誤地造了這個字。諷刺的是,本來想表示的那個字(「上山下女」)直到最近才加入到 JIS 和後來的 Unicode 文檔,導致很多網站都無法顯示這個字(冤……)。
調查之後,所有的幽靈字元中只有一個字元沒明確來源:「彁」。最有可能的解釋是:這是另一個字元「彊」的錯寫,但沒在其他文檔發現這種錯法。
由於 JIS 標準的廣泛接受,在 CJK 合併過程的時候,這些幽靈字元也被 Unicode 收錄。
所以,1978年的一系列錯誤無中生有地製造了幽靈字元。當我們發現這個錯誤的時候,為時已晚,幽靈已經嵌入整個系統。現在這些字元——至少有可能——成為全世界所有電腦的一部分,徘徊在字元表的黑暗角落。
照此下去,它們將於人類共存亡,永遠。
[Weibing via dampfkraft]
TAG:煎蛋 |