十二月可以說是個「資訊月」。第五屆資訊周展覽活動由二日起,在臺北、台中、台南、高雄、花蓮等地,巡迴展出四十天。一如往年,展示期間吸引了大批人潮,光是在臺北的七天中,就有廿八萬人前往參觀。此外,月中在淡江大學舉辦的「一九八四年國際計算機會議」也普遍引起學界與業界的注意。
這股熱潮中,我國獨特性產品——中文電腦的發展,仍是人們最關切的話題。過去,結構複雜的中文字體,一直被視為電腦處理上的「包袱」;而今,國產中文電腦已能將中文與英文一樣地處理;展望未來的第五代電腦,中文似乎還存在不少優勢呢。
中國的文字之美,在文化上與藝術上的地位為世所公認。然而中文也是「號稱」世界上最難學的文字之一。許多外國學者認為,中文的「難」,不但在教育上造成困難,也延緩了整個現代化的腳步。
所謂「延緩現代化的腳步」,關鍵在電腦處理中文較為困難。
由於中文構造複雜、每字都是獨特的個體,若要將所有字都存在電腦裡,需佔很大的空間,且以往的技術有困難;不像英文只要有廿六個字母就行了。因此,過去中文電腦,都是把中文當「圖形」處理,顯示時是一點一點地打出來,好比畫圖時一筆一畫地「描」(英文則是字母直接儲存與輸出),所以速度很慢,在螢幕上顯示一頁資料需4.8秒,使用者往往要花很多時間在等待顯示上。
另一個問題是,電腦源自歐美,他們習慣用打字機,所以電腦輸入資料的方法也以按鍵為主;而中國人則沒有用鍵盤的習慣,用電腦還得先學按鍵,很不方便。
電腦科技的進步,已使中文與電腦的關係日益「改善」,不但處理速度已與英文無異,手寫字及語音輸入法的發展,也突破了按鍵的限制,而且中文字由於每個字儲存與顯示只佔一個空間,不像英文若一個字由五個字母組成就得佔五個位子,在資料的儲存與顯示上更為經濟。

清華大學教授許文星研究電腦圖形辨識,除致力於中文手寫字輸入法外,也研究以電腦比對指紋(。(鐘永和)
第四代中文電腦出現?
近年來,電腦硬體因大量生產而價格下降,記憶、儲存的成本愈來愈低,加上技術的突破,二年前IBM公司的5550中文電腦首先將一千個常用字直接存在硬體中;去年底我國的宏碁公司進一步開發出將所有中文字型直接存在電腦唯讀記憶器(ROM)上的新機種,自此中文的處理過程完全與英文無異,每秒鐘可顯示三萬個字。
除速度外,宏碁公司這項新產品,也具備所謂的「第四代電腦」的功能——本身有處理資料能力,也能連接大電腦、做為工作站,因此號稱「第四代中文電腦」。目前已有多家廠商跟進,即將推出類似產品。

清華大學教授許文星研究電腦圖形辨識,除致力於中文手寫字輸入法外,也研究以電腦比對指紋(。(鐘永和)
為什麼電腦會有智慧?
從一九四○年第一代電腦出現,到目前的第四代電腦,都以按鍵輸入資料;「智慧型的第五代電腦則能直接閱讀手寫字、處理成標準字型輸出;及接受語音指示,也發言報告結果。」清華大學教授許文星說。
他指出:「按鍵輸入法一向是中文電腦發展的瓶頸之一。因此,雖然手寫及語音輸入法也為其他語文電腦的輸入方式提供了較多的選擇,然對中文電腦助益尤大。」
為什麼電腦會能看、能聽呢?
其實電腦只具記憶、基本運算,及簡單的邏輯能力;長處是資料一經輸入,就永誌不忘,且以電流處理,完成一次運算只需百萬分之一秒,故資料處理能力驚人。
隨著硬體的進步,記憶容量愈來愈大、運算及邏輯能力日益提高,可以輸入更多資料,列舉各種狀況並指示處理方法,逐漸構築一個思考架構,好比人的學習過程。但人的記憶會褪色,電腦則永不遺忘,因此當接獲一個訊號時,他就很快地「搜索枯腸」,找出「學習」過的反應。
因此,要使電腦看懂手寫字、聽懂人語,得先告訴他各種標準筆畫(語音)的手寫(口念)形式有那些,並事先建立標準字型(音)庫,供其比對。

圖3.:必須有軟體配合,電腦才能發揮功能,圖中操作員手持的就是軟體磁碟。(鐘永和)
電腦如何認字?
在辨識手寫字方面,「較困難的是,中國字雖有固定的筆畫,但手寫時卻很有彈性,每個人的筆觸、筆畫數都不同,加上字型構造複雜、相似字(如問與間、王與玉)不少,電腦又是『說一不二』,不像人類會猜測,須建立相當大的資料庫,才能『識字』」許文星教授說。
電腦「認字」的過程為:
二值化——將輸入的字體化成黑點,沒字的部分為白點(對機器來說則是一與○,也就是有電和沒電)。
細線化——將黑點構成的圖形變細,簡化需處理的符號。
找出筆畫——尋出黑點的筆畫順序,當然這有賴事先的「教導」,如筆畫是由左至右、由上至下,先直再勾等。
分割、比對字根——將字分成幾個字根(文字構造的基本單元),如「明」分為「日月」、「徐」分為「彳︿禾」,分別與標準字根比對,然後回復組合,找出存在字型庫中的標準字,顯示在螢幕上。
雖然經過這許多步驟,但因皆以電流速度處理,每秒鐘可辨認五十至一百個字。
同是輸入手寫字、經過辨認輸出(顯示)標準字型的方法,依輸入形式可分為:光學自動讀字(OCR)及連線自動讀字(OLCR)二種。

圖1.:神通公司總經理侯清雄指出,中文電腦的輸入法不必統一,只要不同廠牌的電腦間能流通資訊與功能互通即可。(鐘永和)
光學自動讀字與連線自動讀字
光學自動讀字是將全頁寫好的字一起輸入,類似影印,由光掃瞄;不過影印僅將原樣複製,光學自動讀字則傳入電腦,處理成標準字型,可以儲存、修改、運算、編輯或傳輸,當然也能透過印字機印出來。
連線讀字則是以光筆在模寫板(為一平板,置於鍵盤電腦的鍵盤處)上寫字,邊寫邊輸入處理。
這二種手寫輸入法,英文因只有廿六個字母,變化較小,已有產品問世;日文系統去年才商品化,除可辨識平假名、片假名外,也能辨認二千個漢字,唯手寫筆畫以少於標準字二畫為限;中文系統則因須涵蓋八千至一萬三千個常用字,十分複雜,至今全世界都仍在研究中。
許文星教授二年前開始研究中文的光學自動讀字,他說:「基於文化背景,我們在研究中文手寫形式及分割字根上,都比較容易,希望二年後能開發成功。」
雖然,隨著第五代電腦的發展,電腦智慧提高、辨識能力也會增強,但若有人的字特別龍飛鳳舞、筆畫簡略,則電腦也無能為力。「未來的情況可能是:人人將自己的筆跡輸入自用的電腦,讓它認得,就好像每人有個專任秘書一樣。」許教授說。

2.:宏碁公司總經理施振榮(右)正在解說他們新推出的「第四代中文電腦」。
中文的語音辨識比較容易?
語音處理也有類似問題。每個人、甚至同一個人在不同地方、不同狀況、不同情緒時,說話的語氣、音調都會不一樣,是電腦辨識上的一大難題。
而且,音波屬高低波,為類比信號,需先轉換成電腦能接受的數據信號;然後據以運算,再化成電腦可以辨識的符號,「過程比手寫字的辨識更複雜,因此連英文、日文的語音系統,實用也還有一大段距離。」臺大資訊系主任李琳山說。
中文是一字一音,以語音輸入是否較英語容易呢?
李教授說:「中文雖是單音,但人們說話都非只說一個字,而是一串字;加上中文的同音字很多,只憑一個音通常無法判斷說的是那個字,因此還須看上下文;但若將常用詞彙全輸入電腦,數量又太多,以目前的電腦設備處理起來速度很慢、且造價極高,因此中文的語音輸入,並不比英文容易。」
「輸出方面,一字一音、且四聲固定的中語,是比重音、音節不固定的英語佔便宜。」李教授說。
目前國內在中文語音輸出的研究,已可使電腦「答覆」問題,雖然沒有人說得自然、悅耳,但水準不下於英語、日語系統,不過要順暢地與人溝通、為人服務,還得相當時日。
「鍵盤文化」不會被淘汰
因此,在仍是第四代電腦時代的現在,仍得涵蓋在「鍵盤文化」之下。
而且,「輸入法未來必然會走上多樣化」,銘傳商專電算科主任黃克東說:「但無論手寫或語音,速度都比按鍵慢,因此鍵盤是不會被淘汰的。」
據統計,一般人的手寫速度,一分鐘可寫廿八個國字;而熟練的鍵盤操作者,每分鐘可輸入五十個國字。
中文非拼音字,構造複雜,因此中文的鍵盤輸入方式,不若英文固定、單純。國內業者各自研究、開發出許多不同的方法,讓使用者各取所需。
中文按鍵輸入法,可大分為幾類:
大鍵盤:類似中文打字機,將字鍵按部首、筆劃排列。缺點是字鍵太多,一般人不易使用;優點為一字一鍵,由專業人員操作,輸入速度極快。中央社的中文通訊系統即採此法。
小鍵盤:也就是字根法,將字根視同英文字母。小鍵盤的好處是易學易用,適於推廣;但平均一字得按三次鍵。
數字代號:包括三角號碼、四角號碼、電報明碼等法,皆是依字的結構,每字有一數碼代號,適合專業人員使用。
注音符號:以拼音方式輸入,十分方便,但因同音字多,須以「詞」為單位。目前臺北市電信局查號臺,因資料是人名,非單字,同音的機會不多,採用此法。
輸入法需不需要統一?
在上述大分類下,各種方法依字鍵排列順序、字根拆解方式等的不同,又有不同。據統計,到民國七十三年底,國產中文電腦採用的輸入法共有廿二種,以小鍵盤居多,其中又以倉頡輸入法最多。
然而,仍有不少人埋頭研究更簡便的輸入方式,最近發表的就有:旅美學人李鑫矩的「檢字法」,已獲美國政府專利;電腦博士范光陵的「中文電腦四筆輸入法」等。清大教授梅廣也正申請國科會補助,計畫發展一套注音符號拼音、藉前一個字的音決定字體,以解決同音字問題的輸入法。
輸入法「百家爭鳴」,消費者反而無所適從,因此有人主張將輸入法統一,最多每大類一種。
但大部分學者認為,輸入法牽涉到使用者與電腦的關係,應讓使用者有選擇的機會,主張讓市場自由競爭。而且,輸入法是否統一沒有大礙,重要的是,電腦與電腦間要能交換資訊,且最好功能互通——可以使用相同的軟體。
而目前各廠牌在自行開發輸入法時,也各自定一套內碼(控制電腦內部運作的符號,每字有一碼),各種廠牌「自說自話」;不同廠牌的電腦,就好比不同國家的人,語言不通。「因此,往往要花很多功夫在使電腦與其他廠牌產品的溝通上,十分不經濟。」神通電腦總經理侯清雄說。
如何使電腦間能溝通及互通?
內碼不同,也使得電腦無法完全互通。
「就和錄音機、錄影機的發展過程一樣,先是各家紛起、漫無標準,後來漸歸出標準規格:卡式與夾式、Beta與VHS。有了標準後,一卷錄音(影)帶就可以在許多廠牌的機器上播放,錄音(影)帶業於是興起;電腦也須規格統一、軟體能互通,軟體業方能發展。軟體充足、用戶便利,電腦才會普及。」宏碁電腦總經理施振榮說。
如何才能使內碼統一?
一位熟悉日本資訊業情況的教授指出:日本早年發展日文、尤其是漢字輸入法時,也是群雄紛起的戰國時代;一九七八年日本政府製定了一套標準交換碼(JIS),規定所有電腦在與其他電腦溝通時,都先將資料轉成標準交換碼。
內碼與標準碼不同的電腦,對外溝通時需多一套轉換手續,所以後來許多業者就將標準交換碼採用為內碼,內碼就逐漸統一了。
中文電腦的海外市場潛力多大?
國內也很早就有製定標準交換碼之議,前年行政院公佈以「全漢字」及「通用漢字」二套碼為標準,試用兩年。
業者多認為,二套標準等於有的講中文、有的講英文,還是很多人無法溝通。雖然二套碼各有長短,但重要的是先訂出一個做標準,希望今年十月試用期滿後,此事能塵埃落定。
「訂出標準碼,促進軟體發展;有充足的軟體配合,能加強我國中文電腦在海外華人市場的競爭力。」宏碁電腦副理陳承光說。
華人市場以東南亞為主,但東南亞許多國家,如新加坡、馬來西亞、香港等都使用雙語文,當地華人也熟諳英語,不太需要用中文電腦;且大部分地區通用的中文字型與我們不同,因此海外中文電腦市場的潛力其實有限。
但中文電腦仍是值得、且必須發展,因為,「一來中文是我們自己的語文,必須有便利、好用的中文電腦,供國內各行各業使用,以提高生產力;且中文是世界上結構最複雜的文字,有了處理中文的技術,再去開發其他象形文字系統就很容易了。」資訊工業策進會海外部副主任柯志升說。
「象形文字」是非一次元、直線式排列的文字,除中文外,還有韓文、泰文、馬來西亞文、阿拉伯文……等。目前宏碁公司已與泰國電腦業者接觸,將合作開發泰文系統。
廿一世紀電腦,是中國人的電腦?
象形文字原被認為在電腦上較難處理,但最近的發展卻顯示未必比拼音字麻煩。
就拿構造最複雜的中文字來說,據研究,目前以字根法輸入一個中文字,平均需按三次鍵;英文則平均需按五次鍵,即使一個英文字表達的意義為中文字的1.5倍,中文資料的輸入速度仍較英文快。
「而且」,臺大教授江德曜指出:「英文若由五個字母組成,顯示或儲存就得佔五個位子,中文則每個字必定只佔一個位子,以中文儲存與顯示資料可以節省許多空間。」
鍵盤輸入速度不下於英文、不慣用鍵盤的發展瓶頸將解決、儲存與顯示資料又較英文有利,因此有人說:「廿一世紀的電腦,是中國人的電腦。」
但要達到這個目標,還有很長的路要走。中央研究院研究員謝清俊說:「即使輸入的問題解決、儲存佔優勢,但若是腦袋裏空空的,也不過是個『白癡』電腦,對我們沒有幫助。」
要電腦變聰明,必須各方面的學者專家一起來「科技整合」,「各行各業的專家,才瞭解他們的語彙及需要,將各類知識輸入,並開發處理的能力,把電腦『調教』成各種事業的好幫手。」黃克東教授說。
這項工作,不僅影響智慧型中文電腦的發展,也是各行各業能否提昇生產力的關鍵。