簡介 | 包含佛醫詞彙之文獻 | 佛醫詞彙數位化處理過程 | 附件
「法的療癒」專案擬全面性的搜集漢譯佛典中與佛醫相關的文獻內容,藉重數位人文技術,建置線上資料庫。以期協助佛醫研究者無論要從巨觀或微觀的角度進行佛醫研究,都可容易的取得佛典中的第一手文獻。建置的數位內容可區分成兩大部分,包括:1. 以佛醫為主題之文獻;2. 包含佛醫詞彙之文獻。本文說明包含佛醫詞彙之文獻的建置過程。
本專案建置的佛醫詞彙,是以《大藏經索引》(以下簡稱《索引》)內的資料為主要來源。《索引》是根據日本《大正新修大藏經》(以下簡稱《大正藏》)中之印度、中國、日本等三國撰述共85冊之內容,作成共48冊索引以利學者應用。《索引》的用語之選擇,是以漢譯大藏經為準,以總合研究 ✱ 之方法,每頁選出50個學術用語(即後文所稱的「詞彙」),而把它配於50種分類項目。50種分類項目,以印度撰述部分為中心,而每項目之下再細分若干細目。且《索引》在編製過程中,投入大量佛學專業人力,以學術態度與方法執行,目標在使其為國際性的工具書 ✱ 。這是本研究選定《索引》,從中尋找佛醫相關詞彙來進行數位化建置的主要理由。
本研究所關注的,是《大正藏》第1-55冊的印度和中國撰述,對應《索引》第1-31冊,以及在《索引》所訂的50種分類項目中,經審視詞彙內容後,選取認為包含了較多佛醫相關詞彙的類別做為處理範圍。包含較多佛醫詞彙的3種類別為:「30. 心理」、「33. 生理.衛生」和「34. 醫術.藥學」。此3種類別,「30. 心理」之下再無次類別,「33. 生理.衛生」下再分成「a. 通說」、「b. 身體」、「c. 出生」、「d. 生理」、「e. 衞生」,「34. 醫術.藥學」下再分成「a. 通說」、「b. 療法」、「c. 病名」、「d. 藥」。不過實際翻閱各冊《索引》後發現,也有部份冊別只分成29或30種分類項目 ✱ ,若與50種分類項目對照來看,分類項目取捨各有不同,但就本專案所關心的3種類別,在29或30種分類項目的冊別中,也可分別找到對應類別,但其下未再區分次類別 ✱ 。
如同「佛醫主題文獻」之處理順序,針對詞彙之處理,也是先從阿含部著手,再到律部及諸部等,逐步建置以佛經詞彙連結經文全文的功能。
1.《大藏經索引》紙本版使用上的不便
紙本的《索引》提供索引碼回查詞彙出現在《大正藏》中的經文段落,但它是兩段式的查閱。我們必須先從〈分類項目別索引〉中查找欲檢索詞彙,詞彙後所列頁碼是該詞彙在〈音次索引〉中的頁碼,依頁碼在〈音次索引〉中找到詞彙,隨之列示該詞彙實際在《大正藏》中的冊數、頁數和欄等資訊,待依指示查找《大正藏》該冊、頁和欄後,還需要在該欄的29行文字中,人工尋找詞彙所在行數;可知若以人工查閱,十分耗工費時。再者,各詞彙常見多個索引碼,這些跨不同《大正藏》冊、頁和欄的資料,即使將大藏經擺滿一桌,將所需詞彙在藏經中的用例一一人工查找出來,若欲再進行文脈比對,無論對於眼力和腦力來說,都將是極大考驗!而且若欲將查找的結果進行記錄以備研究使用,只能去掃描或影印……。以上過程還只是針對單一詞彙進行查找,如果想要進行更多詞彙間的用例比較,或同一詞彙跨經或跨部之用例比較,資料查找與整理程序將更加繁複與困難。
故本專案擬優先將《索引》中的佛醫相關3類詞彙數位化,建置線上檢索系統,讓使用者可以在網站上查找詞彙,先檢視詞彙上下文段落,必要時再由詞彙直接連結回經文全文;此外提供各種不同角度(檢索條件)的詞彙檢索與清單下載,以便於研究者進行詞彙的各種分析,例如進行不同範圍下的詞頻統計,用語年代分析,或譯者用語分析等,以發展進一步研究或應用。
2. 處理過程說明
在《索引》數位化過程中,除了將紙本資料轉換為電腦可處理的純文字檔為必不可少的步驟之外,後續詞彙的自動化查找、上下文脈顯示,以及回查經文全文等任務,都是透過與CBETA-RP這個開放式漢文佛典資料庫平台的介接來達成的。
本專案的處理方向是漢文佛典中的佛醫詞彙。一開始,由於在過去法鼓文理學院數位典藏組的其他專案執行過程中,已曾就《索引》的阿含部、法華部、華嚴部、律部等4部 ✱ 中的詞彙進行打字,或將紙本掃描後進行OCR ✱ 之文字轉換處理,而留有現成可用的詞彙清單檔,此外,此4部之內容也分別包含了原始佛教(阿含部和律部)與影響漢傳佛教最深遠的大乘佛教(法華部和華嚴部)最具代表性的思想源頭,故先就此4部中與佛醫相關3個類別的詞彙,規劃執行數位化處理作業。
初期取得的4部3類詞彙資料,並不包括索引碼,索引碼還有賴人工輸入,故在2017.02-04期間,徵用工讀生進行索引碼人工輸入作業(參圖1)。例如「34. 醫術‧藥學」下「a. 通說」的詞彙「啞者」,索引碼為(27) 1545-34,178b,代表該詞出現在《大正藏》第27冊,1545經,34卷,178頁,b欄。根據詞彙及其索引碼,撰寫詞彙查找程式呼叫CBETA Data Web API ✱ ,批次轉出詞彙在CBETA-RP中的行首資訊、詞彙前後文kwic(key word in context)、以及連結到包含了詞彙的CBETA-RP全文之網址(參圖2)。
圖1、人工輸入的數位原始檔
圖2、程式轉出的詞彙之CBETA行首資訊、上下文(kwic)和全文連結
接著,另外撰寫詞彙統計程式,彙整4部詞彙清單成為不分部的10類(3大類別及其次類別),以此清單計算各詞彙在《大正藏》中各經出現的詞頻 ✱ ;加總詞頻後除以各經字數,計算詞頻於各經的密度。再根據各經於《大正藏》中被歸屬的「部」,累計詞彙清單在各部的詞頻和密度,然後依各部累計的佛醫詞頻由多至少排序,用以推估在專案時程及預算有限的情況下,第二階段待處理佛醫詞彙之部別優先次序。
根據上述詞頻和密度分析結果,再加上對專案後續研究興趣的評估,於2017.04-07期間增加輸入般若部、涅槃部、毘曇部、瑜伽部、中觀.釋經論部(此冊只處理了30, 34類)、諸宗部(二)(與漢地佛教關係最密切的天台和淨土典籍)、事彙部(於漢地編纂的各種佛教詞典)和目錄部(於漢地編纂的各種佛教典籍目錄)等,合計約8部之《索引》詞彙及其索引碼。並增加輸入寶積部、大集部、經集部、密教部、律疏部、諸宗部(一)(在漢地發展的三論宗和華嚴宗等諸典籍)和諸宗部(三)(在漢地發展的禪宗典籍)的《索引》詞彙部分,但暫緩輸入作業成本較高的索引碼,以備專案後續研究與應用之需。
3. 已知問題與限制
上節曾提及本專案使用詞彙查找程式,批次轉出詞彙在CBETA中的各項資訊。首要必須聲明的是,由於《索引》各冊詞彙加上索引碼的資料量極大,完全不可能單純以人工處理,故專案呈現結果皆為程式自動轉出,並存在以下已知之限制與配套處理過程。總括來說,本網站提供方便快速的參考資源,但 就研究所需的關鍵性資料,使用者必須自負意義判讀之責,必要時亦應回查原書及相關原典。
(1) 單一索引碼可能產生多筆符合的詞彙
前述說明了《索引》所列索引碼只列到詞彙所在欄為止的資訊,故原則上原意應只指涉該欄中的某一筆詞彙,但一方面程式處理無法做意義的判讀,另一方面為便利使用者直接讀取到詞彙所在位置及其上下文脈,故在轉檔過程中,會列出在同欄中所有符合的詞彙,意即可能輸出一筆以上的結果,使用者必須自負意義判讀之責。
(2) 人工修正情況說明
在轉檔過程中發現,存在各種不同原因,造成根據《索引》所列索引碼搜尋不到詞彙的情況。大部分情況為:《索引》的詞彙用字與CBETA-RP中的用字不一致;索引碼的冊、經、卷、頁、欄等資訊有誤…等,這時就需要人工介入查看,並在觀察資料後,就各種可能原因進行綜合判斷,再決定修正方式;但工作小組不能保證所做修正必然符合原始資料之意旨。在修正資料的同時,工作小組亦保留刊印於紙本的原始資料供讀者查閱,如有興趣或需要,亦於網站的詞彙上下文查詢頁面,提供「原始索引資訊」的查閱視窗;視窗中的資訊表達用例,整理於附件一、《索引》部分凡例及修正原始資料原因說明。如果工作小組實在難以做出建議的修正,則會在「工作小組注」的欄位中直接註明「找不到」。
4. 數位化底本文獻
綜上,本專案現階段已編輯及數位化的佛醫詞彙,是《索引》50類分類項目中,包含較多佛醫詞彙的30. 心理、33. 生理.衛生和34. 醫術.藥學等3種類別。已處理詞彙及其索引碼的《索引》冊數如下表:
《索引》冊數
[分類別]* |
對應《大正藏》
部別 |
對應《大正藏》
大致冊數與範圍 |
包含的《大正藏》
經號與內容 |
---|---|---|---|
第1冊 | 阿含部 | 第1-2冊 | No. 1 - 151 |
第3冊 | 般若部 | 第5-8冊 | No. 220 - 61 |
第4冊 |
法華部、
涅槃部 |
第9冊 pp. 1-394、
第12冊 pp. 395-1119 |
法華部:No. 262 - 77、
涅槃部:No. 374 - 96 |
第5冊 | 華嚴部 | 第9冊 p. 395以後、第10冊 | No. 278 - 309 |
第12冊 | 律部 | 第22-24冊 |
律藏:No. 1421 - 64
部派佛教戒律相關:No. 1465 - 83 大乘戒:No. 1484 - 1504 |
第13冊 第30、34類 |
釋經論部、
中觀部 |
第25冊及第26冊前半 |
釋經論部:No. 1505 - 35、
中觀部:No. 1564 - 78 |
第14-16冊 | 毘曇部 (上)(中)(下) |
上:第26冊 pp. 771-1032、第27冊、第28冊 pp. 1-521
中:第26冊、第28冊(不含另收入其他冊數的內容) 下:第29冊 |
上(《發智》與《婆沙》):
No. 1543 - 47共5部 中(大多為說一切有部系論書): No. 1536 - 42;1548 - 57共17部 下:(《俱舍》、《順正》與《顯宗》): No. 1558 - 63共6部 |
第17冊 | 瑜伽部 |
第30冊 pp. 279-1035、
第31冊 pp. 589-896 |
第30冊:No. 1579 - 84、
第31冊:No. 1604 - 27 |
第26冊 第19、21類 | 諸宗部(二) | 第46冊、第47冊前半 | 中國撰述之天台宗典籍(有關觀門,即實踐、觀心和修道之撰述):No. 1911 - 56共46部 以及 淨土教典籍(論書和禮讚文類):No. 1957 - 84共29部 |
第30冊 |
事彙部、
外教部 |
第53-54冊(不含No. 2128唐.慧琳撰《一切經音義》和No. 2129宋.希麟集《續一切經音義》的內容) |
事彙部:No. 2121 - 27,No. 2130 - 36
外教部:No. 2137 - 44 |
第31冊 | 目錄部 | 第55冊 | No. 2145 - 84 |
*未註明處理類別者,皆處理了30, 33和34等3類。
分類索引部分之詞彙凡例:
三大患 (=病) | 表示「患 」字可被「病」字取代,而成為「三大患」和「三大病」兩個詞彙。 |
瞻病(之人、者、人) | 表示除了「瞻病」一詞之外,還有「瞻病之人」、「瞻病者」和「瞻病人」等三個詞彙。 |
波羅捨佉(鉢羅奢佉) | 表示「波羅捨佉」和「鉢羅奢佉」是異譯詞。 |
少壯 yauvana | 表示「少壯」的梵語或混合梵語為yauvana。 |
弱脊,~長根 | 表示除了「弱脊 」一詞之外,還有「弱脊長根」。 |
渴〔九種病ノ一〕 | []中是詞彙的註解(補足語或說明語),此例說明「渴」是「九種病」之一。 |
音次索引部分之索引碼凡例:
125-12,604b | 表示該詞彙位於第125經,第12卷,第604頁,b欄。原意應只指涉該欄中的某一筆,但程式處理無法做意義的判讀,故列出所有同欄中符合的詞彙。 |
125-12,604b* | 加注*表示該詞彙在同一頁內多次出現,或在同一卷內頻出,音次索引碼只列示第一次出現時所在的頁、欄資訊。本專案之程式處理為列出所有同欄中符合的詞彙。 |
125-12,604b° | 加注°表示該名詞於本文中有細目說明。本專案之程式處理只列出同欄中第一筆 ✱ 符合的詞彙。 |
原始索引資訊
原始資料(可能同時表達下列多種情況):
原始資料內容 | 意義 | 詳細說明 |
---|---|---|
125-2,653b | 原音次索引找不到詞彙 | 表示根據音次索引原本所列的索引碼找不到所指詞彙。若經工作小組人工判斷可能是編輯或排版印刷之誤,便更新為建議修正的索引碼,並在原始詞彙欄中註記原來登錄的索引碼。 |
(教說d, 言語f) | 音次索引標記之分類別 | 表示該詞彙根據分類索引所列音次索引頁碼找不到原屬分類,或找到原屬分類之外還增列屬於其他分類。 |
單純的詞彙,
或符合分類索引凡例者 |
分類索引詞彙不一致或有所補充(音次索引詞彙與CBETA詞彙一致) |
原印刷的詞彙在CBETA-RP中無法找到,可能是以下情況之一:
|
音:痔瘻 | 音次索引詞彙不同(分類索引與CBETA詞彙一致) | |
類.音:痔瘻 | 分類索引與音次索引詞彙一致,但與CBETA中的詞彙不一致 | |
類:臗背;音:臗脊 | 分類索引、音次索引和CBETA詞彙都不一致 | |
其他 | 由於《索引》為日本六所佛教大學分工編成,除上述大致整理的各種情況外,仍有發現例外或不一致的標註情況。工作小組難以就所有情況列舉說明,只能據實加以記錄呈現;其表達意義則由使用者自行參考與研判,或請進一步參考《索引》凡例中之說明。 |
CBETA校勘資訊:
若詞彙中含有CBETA校勘資訊,註記於此。
工作小組注:
工作小組提供的補充說明。