堪稱全球網際網路上最大的中文文獻資料庫,已於本月開放給大眾使用。
由中央研究院歷經十三年發展完成的「古籍全文資料庫」目前累積達一億二千多萬字,包括了二十五部史、十三經、台灣方志、文心雕龍等。這個能做全文檢索的龐大資料庫,提供了學術、文化與教育界一個縱貫古今,橫跨文、史、哲、政經、社會資料的革命性工具。
早在民國七十三年,中研院歷史語言研究所和計算中心,基於研究古籍的需求,開始開發「二十五史食貨志全文資料庫」,希望藉由電子版史料無耗損、儲存方便、可以大量匯集、做高速檢索的優越特性,來提升研究工作的效能。隨著電腦和網路技術的快速進展,投入規模越來越大,民國七十九年完成二十五史的建製。同時台灣史、文哲、近代史等各研究所陸續加入,開發各種古籍全文資料庫。
這個原本供中研院學者做研究的工具,以往雖然提供外界使用,但只是學術、教育機構以付費或合作方式共用,如國內有十多個大學已經安裝,國外也有哈佛大學的燕京圖書館、海德堡大學漢學系等學術機構陸續安裝。八十四年網際網路起飛,中研院各資料庫也陸續放上網路,但仍沒有完全對外開放。由於各界希望開放呼聲日益加大,今年三月在院長李遠哲推動下,終於宣佈大幅開放。
開放的方式分為兩種,一為免費使用,包括二十五史、台灣方志、台灣檔案、文心雕龍考異及注、佛經三論、新清史──本紀、上古漢語語料庫七個資料庫,共六千餘萬字。但仍有若干限制,包括每次檢索不得超過三十筆,二十五史部份不能從頭至尾瀏覽全文。
另一種為付費使用,除了上項限制解除外,還包括十三經、諸子、古籍三十四種、大正新脩大藏經等另外七個資料庫,也有約六千萬字。現階段僅限國內機構申請,單機連線者只要台幣四千元年費,就可以使用全部的資料庫,多機連線者(最多可達二百五十部)年費二萬五千元。
中研院計算中心的分析師林晰表示,這個古籍全文資料庫的特色在以原文件的所有文字做素材,包括書籍的章、節、段落的結構及頁碼、行次,以便使用者可以據此調閱正文,或用於報告檢索詞的出處;系統也保持原書的注文、補文、贅文與原文格式的區別。
檢索的條件可用一個或多個字詞,甚至達數百詞也無不可,除了一般檢索運用的布林運算──「以及」、「或」、「除外」等功能外,還有一個中研院設計的特殊功能──「排除字集」,可以過濾掉大量資料中不必要的詞彙。林晰舉例說明:比如要找史記中含有「里」字的地名,先以「里」字檢索,系統會列出千百個結果,大約瀏覽後發現許多的「里」是有關數字的,都不需要,若用布林運算的「除去」功能,刪掉「一」、「二」、「三」……,「百」、「千」、「萬」等字,雖然可以過濾掉一里、二里、千里等數字,但也同時把整篇文章中凡是含一、二、三等數字和「××里」地名的章節都刪掉了,「排除字集」就能解決這個問題,正確命中目標,大幅提高檢索的效率。
萬分之一以下的錯誤率
對研究人員來說,經過傳抄、再製的資料難免有錯,總不如一手資料的價值高,那麼中研院這套龐大的資料庫怎樣克服這個問題,而能達到「保守估計」萬分之一以下的錯誤率?中研院計算中心表示,該資料庫早期由人工校閱四至七次,後來改採新式電腦與人工混合校對──文件先交由不同人員分別打字成二份原始電子檔,然後用電腦程式比對二份文件的不同處,進行人工修正,是為初校,然後再由專業人員進行二次人工校閱。中研院十分有信心的表示,以二十五史為例,對中國上古史的研究者來說,這套資料庫應當夠格成為一手資料;對中古史和宋以後的近古史,由於史籍豐富,這套資料庫雖非唯一的史料,但仍不可或缺。
二十五史採用的是堪稱最具權威的大陸中華書局版本,從史記到清史稿,每本書大致按照本紀、志、表、列傳、後人註釋、相關附錄順序排列,共近四千萬字。有趣的是,史語所在製作過程中不但遊刃有餘,還發現了原版若干錯誤,都整理在這個資料庫的目錄頁中第一個「史籍自動化資料校對說明」選項中。
「台灣方志資料庫」是另一個開發較早的重要資料庫,大部份採用台灣銀行經濟研究室出版的《台灣文獻叢刊》標點本,內容主要是清朝統治時期各級行政區──府、縣、廳所編纂的志書,記錄了山川風物、建制沿革、政經設施、文教武功、民俗語彙等資料,由於記錄詳盡,且來自於基層、地方,可說是從事台灣研究必備工具書;不只是歷史、包括考古、語言、社會、經濟、政治等各學科都很實用。
另一個甫於近期完成的「台灣檔案資料庫」,則是有關台灣另一個角度的資料,主要是清廷中央政府的檔案,包括大臣奏議、皇帝的諭示、政府的外交、國防、內政等政策,而時間上從康熙到光緒每朝都有記錄,十分完備,除了中央政府的檔案,也包括新聞報紙的外交事件資料。這個資料庫同樣是採用台灣銀行的《台灣文獻叢刊》標點本。
至於要付費的幾個資料庫中,「十三經」是採用較通行且較受好評的阮沅本(無標點);「古籍三十四種」集合了大致是漢朝以前的各類典籍,包括了《鬼谷子》、《金匱要略》、《黃帝內經》、《釋名》、《文獻通考》、《西京雜記》、《朱子語類》等三十四本;「古籍十八種」則收錄了大致是中古、隋唐時期的著作,包括《山海經校註》、《通典》、《唐會要》等。主持史語所資料庫的教授陳弱水指出,現在有些資料庫名稱不清楚,是因為還沒有明確的劃分範圍,因為新的典籍尚在陸續開發、建製中,到了適當時機再做調整,讓資料庫的名稱可以一目了然。
中研院其他研究所也仍持續進行中文典籍電子化的計畫,目前就已經有七千多萬字的資料量,陳弱水表示,一年的進度大約是八百到一千萬字。而未來是否會開放給國外的網路使用者?院長李遠哲傾向於逐步開放,「以平衡長期以來台灣在資訊上的貿易逆差」。
中研院的網址為http:www.sinica.edu.tw進入首頁後選「資料庫」,再從資料庫的選項中選「中文全文檢索系統」即可進入。