關於漢字的探討
第107期
作者是擁有麻省理工物理學博士學位的中文專家。 90年代中曾經編寫「下里巴人」PC中文編輯軟體, 蜚聲海外(用過者請留言)。嚴博士對中文語言有深刻的理解和獨到的見解,現在依然在自然語言處理NLP行業耕耘,專攻美國法律資料的計算機分析,是業內不可多得的專家。本文比較了中文象形文字和西方拼音文字的特點,中文西文各有千秋。這是一篇二十年前文章,首發於華夏文摘。在人工智慧自然語言機器處理的熱潮中,仍具有現實意義。
漢字,是世界上最古老的活文字。它,記載了我們的繁榮昌盛,也記載了我們的恥辱悲傷。今天,隨著計算機的迅速普及,漢字面臨著空前的挑戰。很多人開始懷疑漢字是否適應現代社會的需要。常有人問筆者,漢字是不是比拼音文字差?
其實,對漢字的懷疑並不是現在才有的。一百年前,中華民族陷入了空前的災難,國難當頭,亡國無日。一大批知識分子懷著強烈的危機感和愛國心,尋找著中國落後挨打的根源。他們找到了腐朽沒落的清政府,找到了孔孟之道,也找到了中國文化的基本載體——漢字。錢玄同1918年在「論中國今後文字問題」一文中說,「中國文字,論其字形,則非拼音,而為象形文字的末流,不便於識,不便於寫;論其字意,則意義含糊,文法極不精密;論其在今日學問上之應用,則新理、新事、新物之名詞,一無所有;論其過去之歷史,則千分之九百九十九為記載孔門學說及道教妖言之記號…。欲使中國不亡,欲使中國民族為二十世紀文明之民族,必以非孔學、滅道教為根本之解決,而廢記載孔門學說及道教妖言之漢文,尤為根本解決之根本解決。」吳雅暉在「新世紀」第40號上說,「中國文字,遲早必廢」。胡適和陳獨秀在錢、吳的文章發表後,立刻表示贊同。胡適說:「我以為中國將來應該有拼音的文字。但是文言中單音太多,決不能變成拼音文字。所以必需先用白話文字來代替文言的文字,然後把白話的文字變成拼音的文字」。陳獨秀說:「……惟有先廢漢文,且存漢語。而改用羅馬字母書之。」在這群知識分子的積極推動下,一場轟轟烈烈的文改運動從大力倡導白話文開始,到漢語拼音方案和簡化字的頒布結束,持續了整整五十年。然而,文改先驅的最終理想——以拼音文字徹底取代漢字,卻依然遙遙無期。
文字改革,尤其是用拼音文字全面取代漢字這樣的改革,會對整個社會產生非常深遠的影響。在作任何決策之前,我們首先要對漢字,對漢字與字母文字的差別有一個全面的、透徹的認識。本文從過去的有關爭論中幾個較少涉及的側面探討中文的特點。
一、中文是否真的難學?
一百年來,中文的拼音化之所以成了許多人孜孜以求的目標,一個重要原因是中文「難學」。文改先驅盧戇章就認為拼音文字「無師能自讀」,較學習方塊字中文「省費十餘載之光陰」。
讓我們首先看看事實。在同樣的十年制或十二年制教育下,中國學生的質量絲毫不比美國(或任何使用拼音文字的國家)相當家庭背景或社會背景的學生差。學拼音文字的不能無師自通,學中文的也沒有多費十餘載光陰。
明明中國學生並不比外國學生差,為什麼會有這麼多人認為漢字相較於拼音文字「非常繁難」?要回答這個問題,我們先看一看拼音文字的優越性是什麼。
對於理想的拼音文字,知道了發音,就知道了書寫,看到了書寫,就知道了發音。之所以如此是因為理想的拼音文字的有兩個特點:第一,發音與字形一一對應,語言和文字二者中只有一個獨立變數。第二,字形又分解為幾十個聲母和韻母,人們只需要掌握這些聲母、韻母和少量組合規則。相比之下,漢字與漢語的關係就沒有這麼簡單,首先是一音多字(極少量一字多音),其次是字形一般不能分解為聲母韻母加少量拼音規則。建立音與形的對應關係需要較多的記憶。
我們大家都有這樣的親身經歷。小學時,最費心血的是認字和寫字。所謂認字,很大程度上就是知道並記住這個字的發音。對於理想拼音文字來說,這個問題就簡單多了。這樣,我們的問題就變成了:既然拼音文字有如此明顯的優越性,為什麼中國學生並不比外國學生明顯地差?
實際上,對於初小教育和成人掃盲,拼音文字總是見效快,這已經被無數試驗證明。如果我們的教育的最終目標就是初級掃盲的話,拼音字母是再好不過的了。從民國初年到五十年代,文改運動之所以如此有聲有色,一個重要原因,是當時中國人口中的大多數是文盲,人們很自然地以掃盲之難易來衡量文字之優劣,從而得出拼音文字優於漢字的結論。
一個人在學習文字之前,一般都有了一定的語言知識,對於記載已經知道的語言,拼音文字是比漢字容易。然而,一個文盲在掌握了拼音字母和拼音規則後,是否就能寫象樣的總結報告、經驗介紹、技術資料了呢?答案是否定的。一個文盲再能說會道,他所知道的還是口頭語言,這種語言一般只適用於少數人的交談,要舞文弄墨還需要學會書面語言。因此,要比較拼音文字和方塊漢字,就要考察書面文字的學習效率。
中國學生一般從四年級開始進入大量擴張辭彙的階段。也就是在這個階段里,中國學生的語文能力迅速地趕了上來。五、六年級的小學生就可以去啃幾十萬字的大部頭了。令使用字母文字的學生所望塵莫及的是,連啃幾十本小說的過程可以是一個不看詞典,不問老師的過程。
中文與各種自然存在的拼音文字的共同差別,是中文的高度會意性。舉一個典型的例子:
中文
牛
公牛
母牛
小牛
牛肉
小牛肉
英文
cattle
ox,bull
cow
calf
beef
veal
具體的例子當然都有歷史的原因,但總體來講,中文比英文會意度高是毫無疑問的。
會意度高有利於迅速擴展辭彙量,使得我們能夠迅速增強閱讀能力,補回了開始學字多花的時間。因此,綜合看來,中文對於高小及以後的學生來說,比現有的主要拼音文字只易不難。(會意度高也有利於口頭語言的學習,只是書面語言對辭彙量的要求更大)。
原則上,拼音文字也可以象中文一樣,做到高度會意化。之所以很多拼音文字都不這樣做,是因為還有其他的考慮,下一節將探討這個問題。有興趣的讀者不訪設想一種高度會意化的拼音文字,看看會遇到些什麼問題。
二、中文為什麼會意度高?
如果你隨便問一個人,「qing1」是什麼意思,他一定會問你:是哪個「qing1」。因為發音為「qing1」的有清、青、輕、傾、卿、氫,等等,每一個字的意思和用法都不一樣。這樣一來,中文就沒有拼音文字的發音和字形一一對應的簡單性。可以說,這麼多的同音字是漢字招來種種責難的禍根。以如此高昂的代價,我們換取了什麼呢?
我們換取了中文的高度會意性。
中文基本上是一種拼意文字。所謂拼意,是指辭彙由具有固定意義(穩定且較小涵義域)的詞根構成。拼意的概念與拼音的概念是完全對等的。對於中文,這些詞根主要是單字。
有些人認為中文的會意性高是件壞事。他們的理由是,會意有時會會偏了意,只有查詞典才能保證準確地掌握詞語的意思。這種說法誇大了詞典的作用。在絕大多數情況下,詞典是無法描述詞的完整涵義的。如果詞典真有那樣神奇的功用的話,人們只要學習詞典就能讀書作文了。詞典只是提供一個零級近似,一個詞的完整涵義是在反覆的閱讀和使用中逐步掌握的。中文的所謂會意,實際上是通過詞根組合提供一個零級近似,這個零級近似雖然與詞典所提供的可能有所不同,但它同樣可以大大加快進一步逼近的過程,效果與詞典是一樣的。當然,凡事總有例外,但無妨大局。(最近從台灣人口中學會了兩個詞,「推展」和「情勢」,沒有查字典,也沒有問人,一聽就學會了。)
有趣的是,拼音文字的使用者未必真的老查詞典。最近我問了幾個美國年輕人,問他們看到生詞時怎麼辦,他們告訴我一般都根據上下文猜,無關大局就跳過去。查詞典也是一種代價,人總是在無意識地優化。
中文有一個拼音文字幾乎沒有的成詞途徑。大家知道,拼音文字必須分詞書寫。在分詞書寫的狀態下,幾個音節連在一起寫就屬於同一詞,不連在一起寫就不是同一詞。而中文不分詞寫,這樣允許各種較短的語法合理結構在反覆使用中逐步詞化。這樣產生的詞總是有高度的會意性。你說「吃飯」、「看病」、「搬家」是動賓結構還是詞?也正因為如此,對中文搞一刀切的「正詞法」是有害的。
三、方塊字與拼音文字的視覺差異
前面的討論,是基於拼音文字與中文(白話文)的一個共同點加三個大差別。這個共同點是漢字與拼音文字一樣,是記錄語言的文字,並不是表達意思的圖畫。這三大差別是:第一,對於每一個音節(聲韻搭配),中文有多個圖像表示(即同音字),而理想的拼音文字只有一個。第二,中文表示音節的圖像(漢字)並不直接標明如何發音,而理想拼音文字直接標明。第三,漢字採用筆劃二維排列,理想拼音文字採用字母一維排列。(這三點實際上可以有很多種等價的描述形式,不同描述形式可以突出不同的側面)。
下面我們將逐個分析這些差別所帶來的視覺差異。
對於第一個差別(一音多字),我們前面已提到它助長了中文的拼意化。為探討其視覺後果,我們可以設想從現有漢字出發,造一個一字一音(但不是聲韻拼音)的「白字文字」,即在每一組同音字中,挑一個最簡單的為代表。這樣一來,表達漢語1300個字就夠了。用這樣的文字記錄漢語,我們可以得到類似這樣的句字:「在個方面的協住下,它到住名穴撫尋回講作,江自幾的之十傳壽給廳眾」。
仔細考查這種白字文字,我們可以發現一個問題,這就是要猜出一個字的大致意思,必須分析這個字周圍好多個字(包括此字自己在內約為6個字),不容易一目了然。也就是說,閱讀時所需的「分析長度」相對於現在的採用同音字的漢字形式增加了。此白字文字的分析長度約為6.0字,現行漢字的分析長度約為1.7字。
為能用統一的標準分析字母文字,我們用信息分布的縱橫比來重新定義分析長度。對於漢字,每個字可以看做為一個信息縱橫分布對稱的單元。對於字母文字,每個字母是一個縱橫對稱單元。按此定義,白字文字的分析長度約為6.0,中文約為1.7。字母文字的分析長度就是要知道一個字母所處鄰域的大致意思所需要看的字母數。
現在考慮第二和第三個差別。如果我們用理想的拼音文字取代漢字,即用聲韻母拼音再加聲調來拼寫漢語,則掌握髮音所要學的就進一步從白字文字的一千三百個字降到幾十個聲母、韻母和聲調了。
這樣的拼音文字的分析長度如果以音節來算的話,應等於白字文字,如果以空間長度來算的話,則大於或等於白字文字,取決於字母與聲母、韻母的對應關係。按現行漢語拼音方案,每個字約需4.5個字母(聲調算0.5個),這就會導致分析長度等於27。這是一種幾乎無法閱讀的文字。採用分詞書寫,則分析長度約為9,這原則上可以閱讀,但比起現行中文來說,還是相差很多。那種一目數行的感覺是不可能有了。英文的分析長度約為6(5個字母加一個空格)。中文之所以可以不分詞書寫,就是得益於分析長度短。
由於人腦對小視角視覺信息的本徵分析能力對於上下左右是對稱的,分析長度越大的文字要求越複雜的人腦分析程序。而複雜的程序不僅建立困難,而且靈活性差。這一點可以從兩個事實上得到證實。一個是少年兒童中誦讀困難(dyslexia)的發生率,中國是最低的,使用字母文字的國家約為中國的十倍。另一個是一個讀慣了從左向右橫排漢字的人,只要很短時間就能適應豎排或從右向左橫排的漢字。字母文字就十分困難。
四、漢字與漢語的信息量的對稱性
有人覺得,眾多的同音字使中文的信息量超過了漢語的信息量,文字應該是語言的忠實記錄,因此應該增加漢語或降低漢字的信息量。
其實,拼音文字也不是語言的忠實記錄。聲母和韻母只規定了一個字的基本發音骨架,人在講話時還加入了極大量的輔助信息來影響人的聽覺效果。同樣一段文字,從不同的人口中出來會有完全不同的效果。這些輔助信息雖然是現有任何文字都無法表達的,但每一個政治家、推銷員都非常清楚它的重要性,每一個搞語音合成或識別的人也清楚地知道它的存在性和複雜性。
既然語言可以根據聽覺的特點來優化聽覺分析效果,文字也應可以根據視覺的特點來優化視覺分析效果。事實上,為了達到更好的視覺傳輸效果,人們採用了各種藝術字體,各種排版技巧,這些都是語言中沒有的。中文不要求文字直接反映拼音,給提高視覺分析效果提供了更大的空間。從這個意義上說,漢字與漢語在信息量上比拼音文字有更好的對稱性。
五、為什麼拼音文字拼意性差?
原則上拼音文字也可以同時兼有拼意的能力,只要在音部以外在加一個意部就行了。但這樣一來拼音文字的空間表達效率就更低了。會意能力高的拼音文字必然表達效率低,表達效率高的拼音文字必然會意能力低。中文以降低字形與發音之間的約束為代價,換取了高會意度和高表達效率的並存。現在你只要見到一本多文種的說明書,就會發現,中文的總是其中最短的。
六、為什麼現實世界中沒有理想語言?
中文不是理想拼意文字,英文不是理想拼音文字,世界上沒有一個自然產生的文字接近理想文字。這不是偶然的。除了種種歷史原因外,最根本的原因還在於所謂理想文字本來就不是最有效的文字。語言文字是一個多維問題,所謂理想文字,只是對兩、三維作優化,整體並沒有優化。在整體優化的狀態下,沒有任何一維是徹底優化了的。任何搞過多參量優化問題的人大概都知道這個道理。
七、其它
01
簡化字
簡化字與繁體字相比,有幾個變化。一、橫筆劃相對密度減少,斜筆劃相對比例上升,斜筆劃雖依然少於橫筆劃,但較繁體接近多了。這有利於在減少筆劃的同時,不降低字與字之間的形象差別從而不降低可辨性。二、一些同音字被一個字取代。這降低了同音字的意思分解。
02
語法
我們沒有專門學習語法,但這並不等於中文沒有嚴密的語法。英文可教的語法只是實際語法的極小一個部分。實際上每個詞有每個詞的語法。對中文的所謂「文法極不精密」的指控,實際上是對自然語言的語法的複雜性缺乏足夠認識的表現。語言文字並不是越簡單越好,其自然發展表明,「高效」始終是人們追求的主要目標。
03
漢字的計算機輸入
與字母文字相比,漢字沒有簡單直接的小鍵盤輸入法。目前採用如下幾種方法:編碼;拼音;語音;手寫。編碼法雖然需要記憶,但綜合考慮,並不是那麼可怕,比起學習漢字來,還是簡單多了,輸入速度可以達到或超過字母文字,且不需要什麼高技術。拼音法雖然遇到漢字同音字多的麻煩,但以詞或句為單位的拼音輸入法已經可以實用。要讓拼音法達到字母文字的輸入速度,還必須有技術上的突破,使得整句拼音的猜字正確率不低於百分之九十八。這一目標估計可以在今後十到二十年內達到。語音輸入本質上跟拼音輸入沒有太大兩樣。漢字的手寫體輸入比拼音文字容易,現在已經進入實用,走在字母文字的前面。
總之,漢字的計算機輸入雖然複雜,但並不是不可逾越的障礙。
八、總結
本文的論點大多是建立在初步分析和感覺基礎上,還不具備充分的說服力。筆者僅想通過本文說明,文字是個多側面的東西,要對所有側面進行綜合評價不是件容易的事。文字形式各有千秋,沒有絕對的好壞,在某一時期的綜合優劣取決於這一時期內的技術條件、人民的基本教育水平、平均壽命、使用習慣等許多因素。我們不能簡單地根據某個側面來下結論。
一個落後民族的文字永遠是不方便的,不管是拼音的還是拼意的。
作者簡介
中國科技大學近代物理系七七級,MIT物理系博士。曾任矽谷工程師協會會長。1989年,編寫了中文文字處理軟體「下里巴人」,可以整句拼音輸入。90年起從事手寫文字識別,是92年NIST競賽手寫數字識別獲勝團隊成員。長期在NLP領域的工作,目前從事法律資料的文本信息挖掘。育有三子,熱愛登山,居美西俄勒岡。
編輯:牟志堅796 王雅薇14MBA
TAG:瀚海數據說 |