[morosiki top] [Moro files] [BOOKS, PAPERS and PRESENTATIONS]

これは、『月刊アスキー』1998年11月号の記事「仏典のデジタル化について」のオリジナル原稿をHTML化し、同編集部の許可を得て公開するものです。なるべく原稿の表記を忠実に残そうとしたため、文面と実際のリンクとで異なる場合があります。


特別レポート
仏典のデジタル化の現状 このエントリーを含むはてなブックマーク

仏典のデジタル化に挑む人たちがいる。テキストとしても膨大で、大変な作業であるが、そうした困難とは別に、技術的に難しい問題もある。そこには紙メディアのデジタル化にともなう問題点と1つの解決法が現れている。ここでは、日本・中国の仏教史を研究している若手仏教研究者でコンピュータや文字コード問題にも詳しい,師茂樹氏にレポートをお願いした。

師 茂樹(もろ・しげき) '72年生。早稲田大学第一文学部卒。現在,東洋大学大学院博士後期課程在学中。日本印度学仏教学会データベースセンター主事。大蔵経テキストデータベース研究会事務局で技術・公開面を担当。郷里会津の僧,徳一を中心として,日本・中国の唯識仏教史を研究。論文に「最澄所引の賓法師『融文』について」(『東洋大学大学院紀要』34,1998年)。漢字を主とした仏典のデジタル化や外字処理に関する共著書、『電脳中国学』(好文出版)は11月中旬発売予定。

そもそも仏典とは?

 仏教にコンピュータ,というと違和感があるかもしれないが,じつは日本国内の仏教研究におけるコンピュータ利用の歴史は古く,JIS漢字の第1水準,第2水準(*1)がようやくパソコンでも使えるようになった頃から始まっている。筆者が3年ほど前から参加した仏典の電子化プロジェクトも,スタートしたのはかれこれ10年近く前になるという。

(*1)現在パソコンやワープロで広く用いられている、JIS X 0208 という約6000字の文字集合の原型となる規格が登場するのは'78年。十数年前までは、漢字フォントはROMで提供され、パソコンと別に購入する必要があった。それが85年発表のPC-9801VMは、標準で第1水準、第2水準とも漢字ROMを搭載していた。パソコンでの日本語処理が一般化したのは、このころから。

 コンピュータは言うまでもなくテクノロジーの最先端であるわけだが,もともと仏教も,時代の先端技術を担うものでもあった。奈良時代に橋をかけ,大仏を作り,病気を治していたのは僧侶である。仏教教団はかつて,最先端のテクノロジーを有していた技術者集団でもあったのである。ではそれらの知識を何から学んだのであろうか? それはお経である。お経というと,葬式や法事でお坊さんが唱えているイメージしかないかもしれないが,あれは古代の中国語(いわゆる漢文)で書かれたものを節をつけて唱えているのであって,普通の文章として読むこともできる。中に何が書いてあるかというと,普通,釈迦の教えが物語仕立てで書いてある。内容は多岐にわたり,哲学・思想が中心であるが,医学(痔の治し方が書いてあるお経なんてのもある),文学,美術,建築とさまざまである。仏教はアジア諸国の文化に大きな影響を与えているから,仏典がデジタル化されることによってもたらされる研究上の利益は,仏教学だけにとどまることはない。

 仏教はインドで発生したものであるから,もともとはパーリ語やサンスクリット語といったインドの言葉で書かれていた。それが中国語に翻訳され,朝鮮半島を経て日本にも輸入されたのである(写真1)。その間にさまざまな国のさまざまな人の手で注釈書・研究書が作られ,また釈迦を騙った多くの偽書も作られた(*2)。「八万四千の法門」とも言われる,これらの仏典のすべてが信仰の対象となり,連綿と書き写されて現代にまで残されている。信仰心に裏付けられた,こうした仏教の「写経」という習慣は,コンピュータが市民権を得た今日,筆がキーボードに持ちかえられて,今も続けられているのである。(写真2、画面1)

(*2)自国の言語に対して強烈な自身をもっていた当時の中国人は,苦労して輸入した原典であっても翻訳が完了した時点で捨ててしまっていたらしく,漢訳仏典に比してインドネイティブの仏典の残存は少ない。したがって偽書を作りやすい環境と言える。

(●●●写本(写真1)→活字(写真2)→電子テキスト(画面1)を並べた絵)

世界のデジタル化プロジェクト

 今まで行なわれてきた仏典のデジタル化は,ほとんどが個人による「写経」であるが,その量は膨大である。筆者が見たなかでは,1つの仏典で約120万文字(400字詰め原稿用紙で3000枚)あるものを,たった1人で入力(おそらくキーボードによる手入力)したというのが最大であろうか。筆者の作ったリンク集(http://www.bekkoame.ne.jp/i/moro/ebt_index/index.html)から,その集積の一部にアクセスすることができる。

 しかし,やはり個人の努力にも限界があることは否めない。『般若心経』『法華経』などの人気経典にコンピュータ写経が集中するのは仕方がないとしても,字句の間違いなどが未校正のまま残されてはデータベースとしては使い物にならない。そこで,OCR等の技術を駆使し,仏典全体を漏れなく,組織的にデジタル化していくプロジェクトが世界的に進められている。

 仏典の編纂作業自体は,釈迦が死んだ直後から始まっている。聴衆の能力や好みに応じて内容や表現を変えていたという釈迦の説法は,当時でも少なからぬ矛盾を含んでいたとされる。釈迦自身が自ら筆をとってその教法を留めていたわけではないので,弟子たちによる「結集(けつじゅう)」という整理・編纂作業が行なわれた。それが中国や日本に伝わった際にも,時の皇帝らの手によって蒐集・組織化された「一切経」「大蔵経」が編まれた。現在,研究者の間では『大正新脩大蔵経』という,その名の通り大正時代に日本で編纂された大蔵経がワールド・スタンダードとして用いられている(写真3)。仏典のデジタル化プロジェクトもまた,このような整理・編纂という歴史の延長線上にあるといえるだろう。

(●●●大正新脩大蔵経がずらーっと並んだ背表紙の写真(写真3))

 現在,漢字仏典のデジタル化では「大正新脩大蔵経テキストデータベース(SAT)(http://www.l.u-tokyo.ac.jp/~sat/)」と「中華電子佛典協會(CBETA)(http://ccbs.ntu.edu.tw/cbeta/)」とが,大正新脩大蔵経全85巻の電子化をめざしている(画面1、2、3)。両プロジェクトは,協力関係をむすんで情報交換や技術協力,データそのものの交換等を行なっており,インターネット時代にふさわしい効率的なデジタル化のあり方を示していると言えよう。またそのほかにも,Asian Classics Input Project(ACIP)(http://acip.princeton.edu/)や東洋文庫(http://www.toyo-bunko.or.jp/)によるチベット仏教文献の組織的な入力,タイを中心としたパーリ語大蔵経の電子化など,他の東洋学の分野と比較してその充実ぶりは目を見張るものがある。

(●●●SAT,CBETAのページ紹介画面(画面1、2、3))

 ところで,このような大規模なデジタル化事業は,じつは30年以上も前から欧米で行なわれていたことである。西洋の古典を入力し公開しているグーテンベルク・プロジェクトが有名だが,そもそも欧米で辞書を作る場合,最近は予備作業として電子テキストを用意することが普及している。『Oxford English Dictionary』のCD-ROM版が発売されたが,これは「ディケンズの作品の中から,ヘブライ語を語源とする単語すべてを抜き出せ」などという学術レベルにかなった検索ができ,テキストをデジタル化したときの威力をまざまざと見せつけてくれる。

 このようなデジタル化プロジェクトに際しては,フォーマットやマークアップの統一化が必須であるが,欧米ではTEI(Text Encoding Initiative)(*3)によるSGML(*4)をもとにしたガイドラインがすでに公開されている。仏教学の分野においても,EBTI(Electronic Buddhist Text Initiative)において,TEIを意識しつつ仏教文献独自の電子化の問題,とくにSGML/XMLによるマークアップに際してのDTD(*5)の共通化について活発な議論がなされている。

 例えばC. Wittern氏が提唱する仏典のポインタ表記の統一化案では、大蔵経を行単位で「T09N0262.9a.3」(大正新脩大蔵経第9巻・通し番号262・9頁上段・3行目)という具合にID化し、

経曰。<QUOTE ID="T09N0262.9a.3">無一不成仏。</QUOTE>

とマークアップすることでテキスト間のリンクを実現する。XMLで提供されることになるXPointerやXLinkといった仕組みは,HTMLではできない,より柔軟なリンクを可能にするのである(画面4)。

(*3)テキストデータベースの共通交換フォーマットや,マークアップについてのガイドラインを作成することを目的として,欧米の文系研究者や図書館,出版関係者らが参加し1988年に設立(http://www.uic.edu/orgs/tei/)。
(*4)SGML
Standard Generalized Markup Languageの略。電子テキストを標準化する目的で作られたマークアップ言語。HTMLはSGMLのサブセット。
(*5)DTD
Document Type Definitionの略。SGMLやXMLにおいて、タグの種類、用い方、構造などを定義するためのフォーマット、またはファイル。

(●●●マークアップテキストの例(画面4))

デジタル化に際しての問題(1) ―テキストの多様性の表現―

 仏典に限らず、デジタル化の際に最初に問題になるのは外字である。JISやUnicodeといった文字コードセットをめぐって,「文字が足りない」「日本語が危ない」といった議論が活発に行なわれており,京都大学人文科学研究所の勝村哲也氏,丹羽正之氏による「e漢字」(http://www.zinbun.kyoto-u.ac.jp/~ekanji/),エーアイ・ネットの『今昔文字鏡』(本誌8月号p.424参照),東京大学漢字プロジェクトによる「GT明朝」など,大規模漢字プロジェクトが注目を集めつつある。以下,筆者が携わっている漢字仏典のデジタル化(前述のSAT)における外字問題について述べてみたい。

 SATで公開している仏典数は,原稿執筆時点('98年9月20日)で50典籍にのぼり,文字数にすると約630万字になる。そのうち,JIS外字はおよそ1万2000字で,全体の0.2%にすぎない。また,文字の種類については,全体で約5000種類で,そのうち1000種がJIS(第1,第2水準の約6000字)にない文字である。ちなみに、ざっと見積もったところ、Unicodeにない字は約200字、100字種だ。この中には,JIS外漢字のほかに,梵字や漢字に模した記号なども含まれる。今後,作業が進展していくなかで外字の割合は増大していくだろうが,筆者の予想では適切に選んだ1万そこそこの漢字コードで,すべての漢字仏典が表現できるのではないかと考えている。

 では,約5万字の漢字を収録する『諸橋大漢和辞典』や『康熙字典』などをコード化してしまえば,あっと言う間に問題は解決するのではないか?――これは,文字コード問題が熱を帯びるたびに出されてきた意見であるが,答えは否である。先にあげた外字1000種のうち,約2割の文字は諸橋大漢和にも康煕字典にも収録されていない。つまり,5万字の字書でも,SATの外字の8割程度しかカバーできないのである。

 康煕字典のように原典となるような大字典を入れるという「解決法」は,さらに根本的な問題を抱えている。康熙字典の成立は18世紀初頭,諸橋大漢和の初版は'55年である。一方,仏典のほとんどは,紀元2,3世紀から15,6世紀のあいだに成立している。現在,我々が文字コード問題について語る際に,一般的に使われている「正字」「俗字」「異体字」といった文字のヒエラルキーは,康煕字典が成立した頃の判断であって,仏典が成立した頃の字体の事情を反映しているわけではない。中国文字学2000年の歴史の,ほんの一時代の価値観にすぎないのである。

 SATでの文字コードの扱いは,以上のような問題点をふまえた上で,独自の基準・ルールを設定することで解決しようとしている。たとえばJISの場合,「茲」と「玆」とは包摂されているが,仏典においてこの2つは別の字として扱われているため,JISのルールを無視して後者を外字扱いとし,包摂することはしない。また,「賛」は「贊」の俗字とされているが,SATが底本とする『大正新脩大蔵経』では「賛」を使用しているので「贊」は使用しない。要するに,仏典の文字とコードとを1対1で対応させるルールを明確にしているのである(*6)

(*)一部には,SAT専用の文字コードを作るべきだという意見もあったが,(1)最終的にどれくらいの文字が必要になるかは,すべての仏典を入力しないと判断できない,(2)なるべく多くの人に利用してもらいたい,などの理由から現在の方式になっている。

デジタル化に際しての問題(2) ―テキストの多様性の表現―

 文字コードの問題をクリアしたとしても,コンピュータの構造上,電子化になじまないテキストというのもある。たとえば,7世紀頃に活躍した義湘の『華厳一乗法界図』は,文字が渦巻き状にならんでいる(写真4)。そこには,まん中の「法」に始まり「仏」に終わる一連の文章それ自身だけではなく,法と仏とが隣り合い,円環状になっているという思想も織り込まれている。ところがこのような文章をコンピュータで扱おうとしても,1次元的なメモリ空間では,最初の文字と最後の文字が隣り合うことはあり得ないため,何らかの工夫が必要になる。SATではこの『法界図』もデジタル化の対象となっており,いかに処理するかで頭を悩ませている。

(●●●法界図の絵)

 テキストのメディアが変わることによって,情報が欠落してしまったり,逆に新たな情報が付加してしまうことは珍しいことではない。たとえば,筆と墨で書かれた写本を活字化する際には,紙の質,筆遣いなどの情報が欠落するが,代わりに読みやすさや出版の容易さを獲得できる。筆遣いによって特定される書者や,紙の劣化具合などから分かる書写年代などは,脚注などによって別記されることになるが,これは翻刻した人の判断であって,それが本当に正しいかどうかは別の問題である。これと同様にデジタル化の場合も,マークアップやシソーラスなどで欠落した情報を補おうとするわけであるが,これもまた電子テキスト作者による解釈を盛り込んでいることになるのである。

 ともあれ,デジタル化の慈雨は,仏教という一見縁遠い世界にもすでに降り注いでおり,さまざまな成果をあげつつある。デジタル・テキストが十分に用意されることで用例集めや索引作りが自動化された。難解とされてきた仏教語の研究が飛躍的に進むだろう。

また、XMLでマークアップしておけば,相互にリンクされ,マルチメディア化した,より親しみやすい仏典が,インターネットを通じて有縁無縁の多くの人々に提供されるのである。学者にとっても宗教者にとっても,これは大きな利点ではないだろうか。



mailto: s-moroNO@SPAMhanazono.ac.jp
$Id: 199811ascii.html,v 1.6 2007/05/19 05:51:19 moromoro Exp $

Valid XHTML 1.0 Strict