「死功夫」不划算
例如要查「尚書」這個官職歷代職掌的業務有何不同,只要在字鍵上按入「尚書」兩個字,電腦就會先找到有「<」符號的索引檔案,從裏頭再找出所有資料中曾提到「尚書」的段落,並列出在那本書、第幾頁、第幾段上。八部食貨志十五萬字,找出所有「尚書」出現的位置,電腦只需花一分多鐘,而且不會有遺漏。
雖然,「自動化」的初步功能有了,但是第一年工作結束後,工作人員普遍的感覺是「太累了!」原因是在標注上花的「死功夫」,佔去太多時間與精力。
標注是目前其他國家用電腦研究漢學普遍使用的方法,在查詢資料上也的確能達到省時及精確的效果。但除了標注耗時費力外,指示儲存分類及找資料的方法均依每本文獻內容設計,十分複雜,且對不同的文獻,就必須重新設計一套程式,成本相當高。
工作人員的「累」還沒恢復,第二年的工作又開始了。這次要將後半部食貨志(宋史、金史、……、遼史等五部),以及史記、漢書的全文輸入電腦。看著人仰馬疲的景況,計算機中心主任謝清俊靈機一動:為什麼不把輸入文章,與指示分類、查詢的軟體程式分開?
軟體程式單純化
如此,兩個各別的程式都變單純了,輸入全文時,不必再逐字逐句做標注、幫電腦先為資料分一次類,只要每逢輸入書、卷、章、節、段之始末,標上符號就行了。
查詢則使用「自由詞」系統,方法不變。比方說想知道「周公」在史記中有那些作為,只要在「自由詞」的指示欄,鍵入「周公」兩字,電腦就會迅速找出所有曾經出現「周公」的段落,並標明卷別、章節與段落。新增的優點為,這套系統可以適用在所有文獻上。
到了去年,查詢系統的設計又前進了一步——資料找出來,若覺得有保存價值,軟體中備有卡片系統,可將所需要的段落,直接移到卡片上,而且還可以在上面做眉批、註記,然後儲存在自己的磁碟片上,建立自己的資料檔案。
過去提到做學問,人們第一個想到的畫面是研究者埋首在一本本厚厚的書籍、一疊疊高高的資料中,經常為了找一份資料,翻了一頁又一頁。「史籍自動化」後,只要坐在終端機前就可以輕鬆地做研究了。
中研院史語所研究員蕭璠舉例說,曾有一位老先生記憶力過人,能夠背「四史」,但是假設要做一個有關「虛字」的研究,要他在短時間找出「四史」中所有的「之」字,以提供研究者分析它在句中的用法,可能嗎?答案恐怕是否定的。有人曾經將「論語」中有關「仁」字的句子摘錄下來,如此就花了三個月的時間。但是,這份工作如果交給電腦,卻可以在短短幾分鐘內輕鬆完成。
電腦博士重修文史學分
文史研究與電腦科技聯手,在國內來說,是「乳燕出谷,啼聲初試」,過程中遭遇到的困難也特別多。
謝清俊表示,目前國內各機構研究的中文輸入方法,要輸入大量資料不成問題,但要教電腦不僅會「認字」,還會像人一樣有組織、有系統地「看書」,在設計程式之前,就必須先瞭解文史研究工作者研究時的步驟與習慣,才能根據他們所需要的功能,設計軟體。
合作之初,兩個單位的工作者固定每週開一次會,私底下的溝通更是不計其數。「好像又重新做一次學生」,謝清俊表示,為了吸收文史方面的知識,他特地看了「中國字典史略」、「文字學」、「訓詁學」方面的書,以便對中文文法、標點符號的用法、文章結構……等有概略地瞭解。而史語所則負責史籍的校勘、註釋工作,並主動要求希望軟體具備的功能。
蕭璠表示,就目前「史籍自動化」的成果來說,輸入電腦的史書還不夠多,真正說要對研究工作有什麼幫助,還言之過早;但是史語所與計算中心合作的經驗,對國內其他學術單位進行類似計畫時,深具參考價值。
「史籍自動化」是必然的發展趨勢,謝清俊指出:「電腦不會疲倦、錯誤率小、速度快,這些優點是人腦在處理龐大的史籍資料時所無法比擬的;同時,電腦儲存的資料庫,還可以開放供其他單位使用,加速學術交流。」
據他表示,目前該資料庫可提供廿八人同時使用,只要具備中文個人電腦、一個可轉換訊號的調變器,接上電話線,再向中研院申請一個使用的密碼,靠電話線與中研院的電腦連線,就可以分享這項成果。
當歷史只在電腦中呈現……
經常參加國外各類「自動化」研討會的銘傳商專電算科教授黃克東則表示,日本的漢學研究重鎮——京都大學目前已有四個龐大的資料庫,統合成「文史工作站」,開放給學術研究者使用;近年來,中共也十分積極地利用電腦處理文史資料。雖然,中研院研究出來的這套軟體,已經超越日本、中共依然仰賴事前標注的軟體技術;但是單憑中研院的努力,畢竟是人力、物力有限,進行速度不夠快。
「倒不是別人做了,我們就一定要跟著做,而是資訊化既是世界趨勢,我們就應該積極、主動地拓展它的用途」,黃克東表示,電腦資訊對於人類思想的影響,也許現在還不很明顯,但是可以預見。
他舉中國對日抗戰史為例說明:同樣一個事件,日本、中共和台灣就有三種不同的研究報告。當有一天,人類的資訊完全要依靠電腦來傳遞,誰的「自動化」腳步較快,資料較詳盡,就可能最先被人接受。而歷史的真相能否呈現,就操縱在自動化較先進的國家手裡。
「如果我們不加緊腳步,或許有一天,我們的下一代要瞭解自己的歷史,還得透過電腦上的英文、日文才能得知,那就太可悲了!」黃克東語重心長地說,中研院的「史籍自動化」計畫,單純來看,或許只是國內在電腦運用上的新嘗試,但是背後的意義,更值得深思。