解读美国数字档案馆的核心技术

  2009-05-01 12:59:13  
解读美国数字档案馆的核心技术 【内容提要】EAD DTD技术无疑是当今美国数字档案馆的核心技术,本文准确、清晰地剖析了美国的编码档案著录文献类型定义(EAD DTD)技术的形成、记录结构、构成元素、相关属性及其著录方法,这对于建立和发展我国自己的EAD DTD具有非常重要的参考价值。【摘 要 题】海外纵览【 正 文】
欢迎来到论文参考中心,在您阅读前,与您分享:路是脚踏出来的,历史是人写出来的。人的每一步行动都在书写自己的历史。 —— 吉鸿昌
  

解读美国数字档案馆的核心技术

 【内容提要】EAD  DTD技术无疑是当今美国数字档案馆的核心技术,本文准确、清晰地剖析了美国的编码档案著录文献类型定义(EAD  DTD)技术的形成、记录结构、构成元素、相关属性及其著录方法,这对于建立和发展我国自己的EAD  DTD具有非常重要的参考价值。
【摘  要  题】海外纵览
【  正  文】
  序言:数字档案馆的建设已经成为当今全球档案界最热门的话题之一,我国也不例外。本文就是在此背景下开始尝试探索美国数字档案馆的核心技术——EAD  DTD技术。下面笔者将分两部分对EAD产生的历史背景和核心概念(全宗概念)、EAD技术内幕(记录结构、构成元素、相关属性、及其著录方法)进行论述,本文仅作抛砖引玉,如有不妥,还望大家批评指正。
      第一部分 EAD  DTD产生的历史背景和核心概念
    1 EAD  DTD产生的历史背景
  EAD是基于《通用档案著录国际标准》(ISAD(G))之上的一部档案著录交流标准。它是以标准通用标记语言(SGML)和扩展标记语言(XML)文献类型定义(DTD)的形式存在的。SGML是一个硬件和软件独立的标准,这个用来建立文本资料编码方案的标准是由国际标准组织维护的。SGML首次于1986年推出,在政府、工业、学术界获得巨大的成功。由于SGML很复杂,程序员发现很难用来编制软件。因此,1998年2月由世界广域网联盟(W3C)推出了SGML的可兼容子集,即XML。XML和其他一些相应的标准(如,扩展式样语言(XSL)、扩展链接语言(XLink)提供了SGML和相关标准(如,DSSSL  and  HyTime)的大部分功能,因此,软件编程人员感到XML容易使用。由于DTD与SGML和XML兼容,所以,EAD  DTD就充分地利用了现存的SGML软件和XML软件的优点。1998年8月底,也就在美国档案工作者协会(以下简称为SAA)年会召开之际(8月31日—9月6日在佛罗里达州的奥兰多市召开),SAA下属的档案信息交换委员会(CAIE)下设的编码档案著录(简称EAD)工作组和美国国会图书馆下属的网络发展和马克(MARC)标准办公室联合发布了《编码档案著录文献类型定义1.0版》(英文称作“EAD  DTD  Version  1.0”,为了不与其他行业制定的DTD相混淆,美国人将此标准简称为“EAD  DTD”,但是他们常常为了简便称之为“EAD”。)。与此同时,SAA的季刊《美国档案工作者》出版了刊名上分别标上1997年第3、第4期的两期专刊,专门介绍有关EAD的研制背景和案例应用研究。之后SAA将两本期刊合二为一出版,题名为《编码档案著录:背景、理论和案例研究》。1999年初,SAA下设的EAD工作组出版了一本题名为《编码档案著录应用指南1.0版》。这三本著作是研究EAD技术的重要依据。
  EAD  DTD在反映ISAD(G)的同时,强调档案著录的等级性质和著录的继承性。EAD  DTD中的一套变比较多的著录元素集就是用来著录整个汇集或者全宗的。客观地来说,EAD在利用先进技术转换档案著录方面还处于非常早期的阶段,目前大多数EAD的实施应用注重显示,不注重标引,标引相对简单。然而,由于网络检索和全文标引极大地增强了对著录记录以及对应的资料的检索,因此需要研究传统档案著录在新的联机环境下是否有效、哪些地方需要改、哪些地方需要增加、以什么方式并且怎样完全地开发利用档案著录信息。因此,EAD也正在进一步朝着全面揭示档案著录信息的方向发展。与此同时,目前国际上有组织机构正编制一份基于国际档案理事会的《团体机构、个人和家族档案规范记录国际标准《(ISAAR(CPF))的DTD,这将与EAD兼容,也将便利于建立一个传记和历史数据库,这个数据库对于充当档案著录和资源网关的团体机构、个人、和家族的文献进行处理,这个数据库本身是一个重要的资源,并且将有利于分散的和复杂的全宗的著录。
  EAD的国际使用带来了与语言相关的问题,那些母语不是英语的档案人员无法理解和应用这个原来针对英语国家的标准。因此,必须编制其他语种的EAD  DTD版本和使用手册。目前HyTime公司已经研制出了EAD  DTD的特殊语种版本,它能够作为一个规范形式与英语版本进行交流和交换,这将有利于EAD的进一步国际化,我们国内档案界应该抓住机遇,制定相应的中国EAD  DTD标准。自从1996年2月EAD的第一初版发布以来,在许多美国、加拿大、英国(尤其是公共档案局)档案库房,和一些欧洲、拉丁美洲、澳大利亚档案库房都在执行EAD计划。就像任何标准需要发展一样,EAD也正在发展之中并将继续发展。EAD目前正由美国国会图书馆(LC)和SAA联合维护。国会图书馆负责实体上的维护,SAA负责行政上和智能上的维护。在SAA内部,EAD工作组(简称EADWG)直接负责继续的发展。工作组的代表分别来自SAA,LC,研究图书馆组公司(RLG),联机计算机图书馆中心(OCLC)和国际档案理事会(ICA),还有两个国际成员,一个来自加拿大,另一个来自英国。
  世界各国的实践经验告诉我们,只有当一个标准实现了它所服务的团体的原则和目标的话,标准才会成功。而当那些负责标准管理维护的组织机构真正代表整个用户团体的话,标准才能反映团体的原则和目标。可以预见的是,随着EAD在国际上的使用,EAD工作组的成员也将扩大,最终将成为一个国际组织。我们国内档案界应该积极与EAD工作组联系,获取信息、增进交流,以便于加快研制我国自己的EAD  DTD标准的步伐。
    2 对于蕴含在EAD技术中的全宗概念的正确理解
  美国EAD  DTD标准的核心概念之一就是全宗,因此,正确理解全宗概念对于我们把握编码著录技术来说是至关重要的。《通用档案著录国际标准》公布的一份全宗的整理的各个层次的模型示意图(见下图)是一张等级模型图(这张图只是显示了一种典型的情况,并没有包括所有可能的层次组合,全宗层次以下的各个层次的数量是由实际档案决定的。)。这张图有助于我们清晰地理解全宗这一概念。
  附图
  事实上,许多了解美国档案档案工作的人都知道,美国人不喜欢使用全宗(fonds)这个词,而更喜欢使用汇集(collection)这个词。对于世界上大多数其他国家来说,汇集是指基于一个或者几个标准之上的资料的“有意图的聚集”,是与资料的“有机产生”相对而言的。在美国的用法中,有意图地聚集资料是“人造的汇集”(artificial  collection)的意思。在英国,尽管有时候使用单数形式的“档案”(archive)来代表“全宗”(fonds),但是最近还是使用“汇集”这个词。然而,我们知道,档案著录是用来描述既是“有机产生”的全宗又是“人造的汇集”。所以,这两个词必将共存一个相当长的时期。
      第二部分 EAD技术内幕解读
    1 高层次元素
  EAD规定任何编码检索工具都由两部分组成,而这两部分所在的层次也称为最基本层次。即,(1)第1个最基本层次,第1部分提供关于检索工具本身的信息(包括它的题名、编撰者、编撰日期等等)。(2)第2个最基本层次,第二部分提供关于档案资料主体的信息(包括一个汇集,一个记录组,一份全宗或者由许多份系列构成的一份档案资料)。EAD将第1部分分成2个高层次元素,分别称作EAD头标元素(用<eadheader>表示)、首要事情元素(用<frontmatter>表示)。第2部分被放在第3个高层次元素中,此元素称为档案著录元素(用<archdesc>表示)。这两部分或者说这3个高层次元素被放在最外层的元素中,此最外层的元素称为编码档案著录元素(用<ead>表示)。也就是说,<ead>包含丁上述3个高层次元素。EAD规定,为了在名称上有别于上述2个最基本层次及其包含的3个高层次元素,<ead>也被称为最外层元素。如下表所示。
  附图
  目前,EAD共收录了145个元素及其对应的标识符,除了上述的<ead>、<eadheader>、<frontmatter>、<archdesc>4个元素,剩下的141个元素将或多或少地根据元素设置规定和实际需要出现在<eadheader>、<frontmatter>、<archdesc>3个高层次元素中,有些元素会根据档案资料的内容著录需要反复出现多次,或者在整个结构的多个地方出现。例如,在文后将提到的链接元素,由于实际的著录内容需要指向一个或几个电子检索工具,所以,在EAD记录结构的任何需要指出链接的地方将使用链接元素,这样,用户在浏览器屏幕上将会看到一个个超链接,这些超链接指向一个个电子检索工具,这难道不是我们想要得到的最佳效果吗?答案显然是肯定的。当然,所有的144个元素都会被最外层的<ead>元素包围起来,形成一个整体,便于计算机识别和信息处理。
    2 EAD头标元素和首要事情元素
  2.1 EAD头标元素
  EAD使用EAD头标元素来获取有关具体检索工具的创建、修改、出版和发行的信息,它由4个子元素组成,有些子元素可以被进一步细分,即,(1)第1个子元素是EAD标识符元素,它为检索工具提供惟一的识别号或者代码,能够指出出处、来源、和标识符类型。(2)第二个子元素是文件著录元素,包含了许多有关检索工具的书目信息,其中包括作者姓名、题名、副题名、主办者(上述三者都被包含在题名说明元素中),也包括版本、出版者、系列相关附注。(3)第5个子元素是外形著录元素,是用来记录检索工具的语种、记录谁和什么时候对此文献进行编码著录的。(4)第4个元素是修订著录元素,概述了对这份经编码档案著录过的文献所作的任何修订。这4个子元素以及下一级元素的次序是由EAD规定好的,为了便于机器处理信息,这些元素次序的前后次序不能颠倒(在文后的元素介绍中,如果没有特别说明,元素中的子元素的著录先后次序是任意排列的,例如,段落元素中的33个子元素的著录次序是根据实际著录内容来决定的。)。EAD头标元素中著录的内容往往不是手工著录的内容,但是对于编制机读检索工具业说是非常重要的,因为这是机读检索工具的基本信息。另外EAD头标元素中的内容可以用来产生电子版和印刷版检索工具的题名页。
  2.2 首要事情元素
  EAD也包括一个可选择的元素,叫做首要事情元素,它能用来产生一个可以按地方档案机构自己拟订的信息优先顺序进行排列的题名页。因此,在此元素中的题名页子元素与上述文件著录子元素中的题名页子元素的使用方法一样。首要事情元素也可以用来对结构进行编码,例如,序言、题献页、或者其他有关编制、出版情况、检索工具的使用情况的文本。这是EAD能够为用户提供个性化服务的一个突出表现。在越来越强调因特网信息的个性化服务的今天,EAD的这种元素设置无疑是顺应了当今用户检索需求的发展潮流。是值得我们借鉴的一个重要方面。
    3 档案著录元素
  第3个高层次元素是档案著录元素。在此元素中信息是以等级制形式被完好地组织起来。检索工具通常以几个不同的、但在细节上相关的层次描述一个由许多记录或者文件组成的单元。在这里,首先利用档案著录元素从总体上对档案进行描述,之后,对从属部分进行著录(用<dsc>表示)。另外,对于档案著录元素可以设定它的层次属性,以便于明确整个单元的性质,属性值主要有汇集、记录组、全宗、系列等。
  经过上述介绍,我们知道,具体的著录方法是:档案人员通过撰写EAD元素就开始了编码档案著录,之后,编写必须的EAD头标元素及其子元素和具体内容。接着也许会编写首要事情元素及其子元素和具体内容。之后,就要编写档案著录元素,并对此元素设定其属性值。然后,是对于整个单元进行数据描述。其中,描述性识别元素(用<did>表示)对于确保档案单元或组成部分的高质量的基本著录来说是最重要的元素之一,它能便利于信息的检索和输出。
  3.1 描述性识别元素
  描述性识别元素可以包含13个描述信息的子元素,它们是档案著录的重要元素。即,标目、摘要、容器、数字化档案物件、数字化档案物件组、附注、来源、载体描述、载体出处、库房、单元日期、单元识别、单元题名元素。另外,描述性识别元素可以用一些属性值加以限制,以便于使得这个元素具有更加专指的内容识别作用,例如,标签、类型、编码类似物等属性值。对于可供选择的编码类似物这个属性值来说,设定此值后,可以在此元素内著录一些相应的马克字段或子字段以及规范数据。而使用此值,档案人员可以通过计算机程序从EAD检索工具中自动地产生框架层次的马克记录;使用此值,也可以帮助检索和标引系统识别在联机目录中的书目记录和档案检索工具之间的可匹配的数据元素。
  3.2 叙述性信息
  当使用上述的描述性识别子元素著录的档案资料的基本信息后,可以进行单元的组成部分的著录。然而,检索工具编制者很可能会提供有关整个单元的内容、背景或者范围方面的叙述性信息。这些著录通常出现在以下一些子元素中,例如,行政管理信息、自传或历史、范围和内容、组织机构、整理元素。对于这些信息类目,编码者也许会使用标目元素来提供一个基于地方档案馆选择之上的标目。例如,只要内容是被标识为自传历史元素,EAD允许编码者在标目元素中著录任一标目来识别一个自传附注或者机构历史。此例的具体标目可以选定为:自传摘要,自传,简·多的关键日期(Jane  Doe’s  Key  Dates)。从结构上来说,这些元素通常还包含段落元素或者各种类型的清单元素。而清单元素包括年表清单元素,年表清单元素又包含年表清单项自、日期、事件元素,由于实际著录需要这些元素中可以包含一些显示文件链接和图表显示的元素。
  3.3 段落元素
  段落元素特别有用,它包含了33个子元素,可以进一步限定段落的格式、链接和词汇控制等。例如,规范检索标目元素(在第六部分有详细说明。),链接组元素等(在第七部分有详细说明。),表格元素(在第八部分有详细说明)。
  3.4 嵌套著录和标识深度之间的关系
  因为有各种智能和经济的因素(例如,档案编码人员的素质和能力各不相同,档案机构的经费有多有少。)将影响一个机构的标识的深度,EAD允许档案机构和编码人员根据自身能力、机构财力和用户需求来决定元素的嵌套次数,以便于为用户提供尽可能详细的和特殊的信息。例如,前面提到的行政管理信息元素,包含了有关一个机构的档案资料的采购、处理、管理。此元素标识了有关档案的来源、采购、检索和复制限制条件、缩微和数字化替代品的可获得性情况、首选的引用形式、和其他著录细节,这些著录细节是用来帮助用户了解如何接近档案资料和如何充分利用用户已经找到的信息。在行政管理信息元素中可以单独著录的子元素主要有保管人历史、增加物、采购信息、鉴定信息、检索限制条件、用户限制条件、可获得的选择形式、首选的引用、处理信息、段落、附注元素。
  3.5 第3个高层次元素中的其他一些元素及其著录先后次序
  现在来简单回顾一下,对于第3个高层次元素来说,以上已经介绍了它的6个子元素,即,(1)描述性识别元素;(2)行政管理信息元素;(3)整理元素;(4)自传或历史元素;(5)组织机构元素;(6)范围和内容元素。此外,还有其他7个在著录中经常用到的子元素,即,(7)辅助描述性数据元素,将在第五部分详细说明;(8)规范检索标目元素,将在第六部分详细说明;(9)数字化档案物件元素,已经被包含在3.1部分中,限于篇幅不作说明;(10)数字化档案物件组元素,已经被包含在3.1部分中,限于篇幅不作说明;(11)附注元素,内容较繁杂,限于篇幅不作说明;(12)其他描述性数据元素,将在第五部分详细说明;(13)从属组件著录元素,将在第四部分详细说明。而这13个子元素的著录先后顺序为:1,7,2,3,4,8,9,10,11,12,5,6,13。下面就对第3个高层次元素中没有介绍过的一些重要元素及其著录方法分别予以说明。
    4 从属组件著录元素
  当档案编码人员完成了一个记录或者一份文件的第3个高层次元素(即,档案著录元素)的著录后,接着,就要利用从属组件著录元素(用<dsc>表示,主语义上可以译为从属组成部分著录元素)对此记录或者文件的从属部分进行著录了。(在这里,需要特别说明的是,组件(component)是一个计算机专业术语。组件就是组成部分的意思,而本文前面提到的物件(object),也是一个计算机专业术语,是一个物体、一个对象、一个单元的意思。逻辑上来说,物件包含了许多个组件,或者说,物件是由许多个组件构成的。目前,我国计算机专业的许多教材都采用“对象”这一译法,但是在我国许多计算机专业网站上有许多教材采用“物件”这一译法。笔者认为,译为“物件”更加合理,因为物件包含了许多组件,理解起来比较合理、顺畅。)在这个元素中,著录传统检索工具的每个部分,例如,系列、容器清单、日历。这个元素的内容通常是以几种不同的表格形式来体现等级制结构,当然就必须对这个元素赋加一个类型属性值。类型属性值主要有4种。即,(1)类型属性值:分析性概览型;作用:用来识别含有许多系列或者子系列的著录。(2)类型属性值:深入详细型;作用:用来识别一个含有许多容器或文件夹的清单,日历,或者是一个含有许多项目的清单。(3)类型属性值:组合型;作用:用来识别每个系列的著录后面紧随着一个含有许多容器或文件夹的清单的情况。(4)类型属性值:其他类型;作用:用来识别与上述不同的情况。
  下面让我们来看一个具体著录过程。第一步,著录大致的提要清单。在撰写好第1个从属组件著录元素(用<dec>表示)后,就要设置此元素的类型属性值和层次属性值。例如,如果档案编码人员想要提供在一个汇集中的所有系列的提要清单,那么,他或她将属性值设置为分析性概览型,并且撰写组件层次元素(用<c01>至<c12>表示)。还要设置层次属性值为系列,再利用以前在第三个高层元素中提到的各项子元素并且依照相同的元素顺序来著录。值得一提的是,一般来说,著录从属组件著录元素时,将不再重复著录在档案著录元素中的描述性识别元素(用<did>表示)中的子元素。例如,在第3高层次元素中的<did>元素中的库房元素和来源元素等表示

[1] [2] 下一页


中学教案大全

语文教案: 七年级语文教案 八年级语文教案 九年级语文教案 综合性语文教案 高一语文教案 高二语文教案 高三语文教案

数学教案: 七年级数学教案 八年级数学教案 九年级数学教案 高一数学教案 高二数学教案 高三数学教案

英语教案: 七年级英语教案 八年级英语教案 九年级英语教案 高一英语教案 高二英语教案 高三英语教案

政治教案: 七年级政治教案 八年级政治教案 九年级政治教案 高一政治教案 高二政治教案 高三政治教案

物理教案: 八年级物理教案 九年级物理教案 高一物理教案 高二物理教案 高三物理教案

化学教案: 九年级化学教案 高一化学教案 高二化学教案 高三化学教案

历史教案: 七年级历史教案 八年级历史教案 九年级历史教案 高一历史教案 高二历史教案 高三历史教案

地理教案: 七年级地理教案 八年级地理教案 九年级地理教案 高中地理教案

生物教案: 七年级生物教案 八年级生物教案 九年级生物教案 高中生物教案

音乐教案: 初中音乐教案 高中音乐教案

体育教案: 初中体育教案 高中体育教案

美术教案: 初中美术教案 高中美术教案

信息技术教案: 初中信息技术教案 高中信息技术教案

中考备考复习资源: 中考复习指南 中考语文复习资料 中考数学复习资料 中考英语复习资料 中考物理复习资料 中考化学复习资料 中考政治复习资料 中考历史复习资料 中考地理复习资料 中考生物复习资料

高考备考复习资源: 高考语文复习资料 高考数学复习资料 高考英语复习资料 高考物理复习资料 高考化学复习资料 高考政治复习资料 高考历史复习资料 高考地理复习资料 高考生物复习资料 高考文综复习资料 高考理综复习资料 高考大综复习资料

教学论文: 教育综合论文 语文教学论文 数学教学论文 英语教学论文 政治教学论文 物理教学论文 化学教学论文 历史教学论文 地理教学论文 生物教学论文 音乐教学论文 美术教学论文 体育教学论文 信息技术教学论文 德育教学论文 班主任教学论文

推荐名言:
  • 春蚕到死丝方尽,人至期颐亦不休。一息尚存须努力,留作青年好范畴。 —— 吴玉章

  • 但愿每次回忆,对生活都不感到负疚 —— 郭小川

  • 人的一生可能燃烧也可能腐朽,我不能腐朽,我愿意燃烧起来! —— 奥斯特洛夫斯基

  • 你若要喜爱你自己的价值,你就得给世界创造价值。 —— 歌德

  • 社会犹如一条船,每个人都要有掌舵的准备。 —— 易卜生