基于Unicode的藏文文献数字图书馆的构建——以美国藏传佛教资源中心数字图书馆(TBRC)为例
作者:周卫红
出版社:情报资料工作2012年01期

周卫红

基于Unicode的藏文文献数字图书馆的构建——以美国藏传佛教资源中心数字图书馆(TBRC)为例


周卫红  来源:情报资料工作201201期  【英文标题】The Construction of Unicode-based Digital Library with Documents in Tibetan Language: Taking TBRC for Example

  【作者简介】周卫红,女,1968年生,中国藏学研究中心图书馆馆员,北京100101

  【内容提要】 文章以美国藏传佛教资源中心数字图书馆(TBRC)为例,论述了构建基于Unicode藏文编码的藏文文献数字图书馆的意义,分析了国内有关藏文文献数字图书馆的研究成果,最后提出作者对构建藏文文献数字图书馆的建议。

  Taking the Digital Library of Tibetan Buddhist Resource CenterAmerica)(TBRCas an example, this paper discusses the great significances of constructing Tibetan literature digital library based on Tibetan Unicode-based encoding, analyzes the relevant domestic scholar researches in this area. At last, this paper provides some suggestions for the construction of a digital library of Tibetan literature.

  【关 词】藏文文献/数字图书馆/美国藏传佛教资源中心Tibetan literature/digital library/Tibetan Buddhist Resource Center

  我国非常重视对少数民族古籍文献的研究和保护,1984年经国务院批准,转发了国家民族事务委员会《关于抢救、整理少数民族古籍的请示》,在国家民委和国务院古籍整理出版规划小组领导下,建立全国少数民族古籍整理出版规划小组,负责组织、协调、联络、指导等项工作。小组成员由国家民委、教育部、文化部、国家档案局、社会科学院等部门组成。1996年,第二次全国少数民族古籍工作会议确定编纂《中国少数民族古籍总目提要》,全面汇总20年来少数民族古籍工作所取得的成果。2006年,这一项目正式列入《国家十一五时期文化发展规划纲要》,其中《中国少数民族古籍总目提要·藏族卷》正在有序地编撰。藏文文献资源丰富,特别是藏文古籍现存有60万函,藏量仅次于汉语文古籍,列于56个民族的第二位。200781日,文化部下发关于印发《全国古籍普查工作方案》等文件的通知,开始全国古籍普查工作及《国家珍贵古籍名录》和全国古籍重点保护单位申报评定工作。2008-2010年文化部连续发布了三批《国家珍贵古籍名录》[1],其中藏文古籍就有132部,数量位列所有少数民族文字古籍之首。

  随着计算机技术、通信技术和网络技术的迅速发展,特别是随着国际标准、国家标准对少数民族文字编码的制定,民文信息化、数字化的要求也越来越高,构建民文数字化图书馆日益成为展现少数民族宝贵文化资源的重要工具。将藏族文化资源信息化,形成大规模资源数据库,通过网络向世人展示我国藏族所特有的璀璨文化,不仅能解决藏文古籍永久保存和利用之间的矛盾,更加方便藏族语言及文化研究学者对藏族文化的学习和研究,同时也是对国外达赖集团藏族文化灭绝论的有力回击。

  1、国内公开发表的有关藏文数字图书馆研究综述

  由于长期在藏学研究单位图书馆工作,笔者对国内外同行格外关注,特别对藏文文献的数字化建设尤为关注。笔者发现国内从事藏文数字图书馆研究的人员比较少,相关项目也很少。主要有:(120043月在国家民族委员会的关心下,由中国藏学出版社、新疆民族语委、西藏大学、西南民族大学、西双版纳出版社、潍坊北大青鸟华光、内蒙古蒙科立公司及北京书同文数字化技术有限公司8个单位联合发起的中国多民族文字数字图书馆平台及示范系统(MDL。(2)中国藏学研究中心扎西次仁负责的珠穆朗玛Unicode藏文字体项目,项目成果《珠穆朗玛系列藏文字体》光盘已由中国藏学研究中心出版社出版。(32001年国家民委投入200万元在西北民族大学建设藏文信息技术重点实验室,从事藏文信息技术的研究和科技成果转化,为学校招收藏文信息硕士研究生创造了条件。到2007年,实验室已经在藏文软件开发方面取得丰硕成果,培养出12名藏文信息技术硕士研究生到国内各民族高校从事藏文信息技术的研究和教学工作,成为国内藏文软件研究、开发的骨干力量。该校主要研究项目有:①民族文字古籍文献数字化保护技术应用研究(项目编号:2005DIB6J174);②甘肃省自然基金藏文古籍数字化保护技术研究,(项目编号:3ZS061-A25-057);③国家语委馆藏少数民族文献信息库建设科研项目(项目编号:MZ115-76[2]。西北民族大学计算科学与信息工程学院的单广荣教授是该中心主任,陆续发表了数篇有关藏文数字图书馆建设的论文。其中《藏文数字图书馆的体系结构与元数据方案建设》[3]从藏文数字图书馆体系结构的建设角度考察元数据方案,认为元数据方案在很大程度上决定了藏文数字图书馆各类对象的数据结构,影响着数字资源的管理方式和构建模型。同时元数据方案应该体现藏文数字图书馆与一般因特网应用的不同之处,元数据方案设计的出发点是将资源的存储、表现、传输相分离,提供分层次的服务。元数据提供了所有这些功能语义内容与相互联系的基础。在《藏文数字图书馆的元数据检索技术研究》[4]一文中详细分析了Dublin Core元数据的特点,提出了藏文数字资源的元数据结构和基于元数据的检索系统。从发表的论文看目前藏文数字图书馆示范系统的建立只是概念性的、框架性的。

  笔者在研究并使用美国藏传佛教资源中心数字图书馆之后,深感TBRC对我国相关单位研究和开发用现代技术保存和利用藏文文献方面有很好的借鉴意义。

  2、藏文文献数字图书馆的成功案例——美国藏传佛教资源中心[5]

  美国藏传佛教资源中心(Tibetan Buddhist Resource Center,简称TBRC)由美国著名藏文文献家金·史密斯(Ellis Gene Smith)在前戴尔(Dell)电脑创业工程师戴维·伦斯福特(David Lunsford)的帮助之下于1999年在波士顿创办,2001年迁至纽约。TBRC是一个非盈利组织,收藏的文献主要是金·史密斯先生的个人收藏。这些藏文文献包括宗教、哲学、医学、艺术、心理、星相、历算、诗学、历史等。宗教方面收藏有藏传佛教宁玛派、噶举派、格鲁派、萨迦派、觉囊派以及苯教文献,包括德格版甘珠尔和丹珠尔、拉达克手写本甘珠尔、第一世至第十三世达赖喇嘛传、第一世至第八世班禅喇嘛传,以及其他藏传佛教各教派传承喇嘛传记等珍贵文献。其中有许多文献在国内几乎失传,属孤本文献。该中心10多年中致力于将收藏的这些藏文文献用最先进的技术进行数字保存并传播发行。TBRC的主要使命是通过藏文文献资源数字化,来建立数字图书馆,不仅使这些珍贵文献得到永久保存而且能够在世界范围内得到广泛的利用,从而促进国际藏学研究特别是藏传佛教方面的学术研究和交流。TBRC拥有一批由来自美国、中国、印度、尼泊尔的学者、图书馆员、工程师和技术人员组成的多元化的员工,已经输入12000多含藏文图书及超过30万个书目、人物、地理的信息资料,并将其与数字图书馆里的数字文献相互挂接。TBRC在将藏文文献数字化的同时开发了藏文数字图书馆的前沿技术,并更新发布了三个版本的数字图书馆,最新的版本提供了藏文版和中文版。如今世界各地的大学、图书馆、研究机构和个人不仅可以向TBRC订购藏文文献光盘,还可以通过它的数字图书馆查询、在线阅读。TBRC网站的访问量由过去的每天815人到增长近3000人,有30所大学和25个寺庙的团体用户。

  20105月,TBRC推出了第二代基于Unicode藏文的数字图书馆2.0版,运用当今世界上最先进的数字图书馆技术,功能强大,浏览速度快。首先,TBRC2.0采用了当今最先进的计算机和网络技术。TBRC2.0采用Google Web ToolkitGWT)技术进行网络架构,采用EclipseeXistXMLoXygen XML editor等技术进行数据库建设,支持多种浏览器和操作系统。eXist是一个开源的XML原生数据库项目,将XML文档直接存储而非转换成关系表,XML开发框架配合XML native db是一个完美的组合。而oXygen XML editor是基于JavaXML编辑器、支持Unicode、最简易而且功能一流的集XML查看和编辑等特点为一体的软件,涵盖当今的XML技术并提供对任何XML文件的支持,oXygenXML editor强大的转换支持不仅能编辑XSLTXSL-Fo文档,也能把他们转换成为HTML/PS/PDF等格式文件。可以说TBRC2.0是完全以XML相关技术为基础的新形态数据库系统,具有很强的可扩展性和兼容性。其次,TBRC数字图书馆的元数据质量很高。一个好的数字图书馆必须具有高质量的元数据,否则就是一个具有漂亮外表的空壳。而TBRC负责整理、编目、校对藏文文献的都是懂藏文的藏学家,有的还懂梵文。例如金·史密斯先生对藏文文献的历史出处及相互关联有着深邃了解。藏传佛教资源中心针对藏文文献特有的结构开发了编目技术,使用诸如标题变体、主题分类、描述说明、后记、作者的陈述、注释、引文、地方文献资料、传记和转世数据、出版信息等,藏传佛教资源中心将文献相互关系的交叉点定义出来,作为多种途径查找和浏览访问图书馆的基础。这些途径主要包括:大藏经(Canon:包括大藏经甘珠尔和丹珠尔及各个教派经典)、题名(Tile:与文献有关的所有题名信息包括全称、简称等)、人物(Person:名载藏文史籍的人物)、地名(Place:藏文文献中重要的地名)、专题(Topic:用来分类和整理藏文文献的专题术语,包括藏传佛教的教派、名称和概念等)、文集(Works:包括所有主要文献传统中的全集和个别著作)和大家族及僧院(Corporations:历史上拥有土地和在政治上有影响力的群体)。这些分类看似简单,但是它是基于Ontology的理念,非常科学,为读者提供多维度的检索和分类浏览。第三,TBRC提供了多种实用工具,比如Unicode藏文与藏文拉丁转写(Extended Wylie)之间互相转换工具及非Unicode藏文与Wylie的转换。第四,金·史密斯先生创立TBRC的一个重要目的就是使所有对西藏感兴趣的读者都可以免费看到藏文文献,因此TBRC图书馆不仅可以在线阅读,而且可以在任何有电的地方安装。每一个本地安装的图书馆将包括所有数字文本的档案以及可搜索的数据库,安装在Macintosh迷你电脑上并外接一个硬盘驱动器。用户可以搜索和下载文本,而无需互联网连接。这使得在无法连接互联网的边远地区特别是有些山区寺庙受惠。

  3、对构建基于Unicode的藏文文献数字图书馆的建议

  (1)国家应该加大对藏文文献数字化及藏文文献数字图书馆研发的投入,力争在数字环境下实现全面完整地保存藏文化、传播藏文化。新中国成立以来,我国政府非常重视藏文古籍的整理、出版,也投入了大量经费,比如藏文大藏经的对勘及对勘本的出版、《中国少数民族古籍总目提要·藏族卷》的编撰和出版等,这些都是传统的保护和利用古籍的方法,而对于利用现代计算机和网络技术构建藏文文献数字图书馆的研究和投入还不够。元数据标引规范Dublin CoreEAD(档案信息资源的描述性元数据标准)标准的制定,特别是Unicode藏文编码的发布都为藏文数字图书馆的构建提供了良好的支撑,我国应加强在这方面的投入,进行技术研发。中国藏学研究中心作为国家级研究机构,承担领导协调全国藏学研究的任务,应该成立专门研究构建藏文文献数字图书馆的课题小组,组织国内外专家进行攻关,尽快建立藏文文献数字图书馆系统。

  (2)藏文文献数字图书馆的构建必须基于Unicode藏文。首先,Unicode(国际标准ISO/IEC10646编码的一种称谓)是一个国际标准,也称大字符集。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。只有在这种统一编码的架构下,才能建立多种语言关联的全文检索系统和OCR自动识别系统。其次,Unicode标准已经被IT界的大企业如AppleHPIBMMicrosoft和其他许多公司设为工业标准,许多操作系统,所有最新的浏览器和许多其他产品都支持它。Unicode标准的出现和支持它工具的不断发展,是近来全球软件技术最重要的发展趋势。

  (3)组织藏文文献研究专家、分类编目专家制定藏文文献通用著录规则和分类法及藏文文献的元数据格式。目前我国没有通用的藏文文献著录规则,各涉藏单位图书馆的藏文文献编目都是自行其是。20世纪80年代国家图书馆黄明信先生编的《北京图书馆藏文古旧图书著录暂行条例》[6]是针对国家图书馆所藏图书而定,虽然不能反映整个藏文文献的情况,但对于藏文文献编目仍具有很好的参考价值。中国民族图书馆先巴依据汉语文古籍著录标准编写了《藏文元数据著录标准化研究》(初稿),对藏文图书著录进行了较为细致的分析研究[7]。藏文传统文献资源形制特殊,不同于图书馆现代出版的文献,是文献和文物的结合,比如贝叶经,其知识组织结构及元数据方案也不同于一般的博物馆的方案。与图书馆通用元数据相比,后者考虑更多的是互操作性和通用性,需要进行许多妥协和折中,会牺牲很多个性和细节。因此编制完善的藏文文献的元数据格式是构建藏文数字图书馆的基础。

  (4)加强培养藏文文献编目人才和数字图书馆技术人才。从上文对美国藏传佛教资源中心的分析中可以看出,一个成功的数字图书馆的构建需要藏学学者、文献编目专家和计算机技术人员的通力合作。例如,金·史密斯、范德康(Leonard van der Kuijp)和土登尼玛等都是国际著名的藏学家,为TBRC提供技术支持的克里斯托弗·费恩(Christopher Fynn)是ISO/IEC10646的藏文字体编码及Unicode藏文编码的主要贡献者,也为微软WindowsLINUX操作系统中的藏文输入提供技术支持。在过去的15年里,他还开发了几个免费和公开使用的藏文数码字体。而罗杰·艾斯普·里玛(Roger Espel Lima)是法国的翻译和技术专家。罗杰帮助TBRC提供了一个可在Java里使用的Unicode藏文与藏文拉丁转写之间的转码软件。帮助TBRC输入萨迦传承数据的拉尔夫·克莱尔(Ralf Kramer)拥有汉堡大学的藏文硕士学位和伦敦大学的硕士学位。在2000年和2005年之间,他为牛津大学的博德雷安图书馆担任西藏和喜马拉雅研究的图书馆员。他编制了包括藏文参考书目和电子资源编目的标准(XML/TEI),正是这些专家组成的团队成功构建了TBRC。它的成功经验值得我们借鉴。

  【参考文献】

  [1]中国国家文化部.国家珍贵古籍名录[0L][2011-07-29].http://www.nlc.gov.cn/service/others/gujibhw/sbpx-zggjml.htm.

  [2]西北民族大学中国民族信息技术研究院[0L].[2011-08-02]. http://dwzy.xbmu.edu.cn/xxs/main/Channel.asp?ChannelID=22.

  [3]单广荣.藏文数字图书馆的体系结构与元数据方案建设[J].科学技术与工程,20066(14)93-95.

  [4]单广荣.藏文数字图书馆的元数据检索技术研究[J].科技情报开发与经济,2006(15)44-45.http://www.tbrc.org/.

  [5]黄明信,谢淑婧.北京图书馆藏文古旧图书著录暂行条例[J].中国藏学,1988(1)49-75.

  [6]徐丽华.关于藏文古籍数字化的思考[J].中国藏学,2011(2)153-158.