网络信息资源组织研究进展

  2009-05-01 12:48:50  
网络信息资源组织研究进展  【内容提要】主要从用于组织网络信息资源的搜索引擎、虚拟图书馆、文献分类法、主题法、窗口方式等方面全面总结与回顾20世纪90年代以来网络信息资源组织的理论与实践。【摘 要 题】信息资源建设【关 键 词】网络信息资源组织/网络信息资源整序/研究进展   笔者通过普查大量国内外期刊论
欢迎来到论文参考中心,在您阅读前,与您分享:路是脚踏出来的,历史是人写出来的。人的每一步行动都在书写自己的历史。 —— 吉鸿昌
  

网络信息资源组织研究进展

  【内容提要】主要从用于组织网络信息资源的搜索引擎、虚拟图书馆、文献分类法、主题法、窗口方式等方面全面总结与回顾20世纪90年代以来网络信息资源组织的理论与实践。
【摘  要  题】信息资源建设
【关  键  词】网络信息资源组织/网络信息资源整序/研究进展
   笔者通过普查大量国内外期刊论文及有关出版物、分析相关网站,进而总结与回顾20世纪90年代以来网络信息资源组织的理论与实践,以期有助于优化其网络信息资源组织与揭示方法,促进该领域研究的蓬勃开展。本文着重总结网络信息资源组织的研究进展,有关其揭示方法将在另文总结。
      1 用于组织网络信息的搜索引擎方式
    (1)关于搜索引擎组织方式。
  对于搜索引擎而言,网络信息组织采用主题树和数据库两种方式,也有称使用语词组织知识和使用分类法组织知识。所谓主题树组织方式,就是将信息资源按照某种事先确定的概念体系,分门别类地逐层加以组织,用户通过浏览的方式层层遍历,直到找到所需的信息线索,再通过信息线索联接到相应的网络信息资源。现有的提供目录分类式(或称主题指南、列表浏览)查询功能的搜索引擎就采用这种方法组织信息。而数据库组织方式,就是将所有已获得的网络信息资源以固定的记录格式存储,用户通过关键词及其组配查询,就可找到所需要的信息线索(即相关站点链接),并通过信息线索直接连接到相应的网络信息资源。
    (2)关于搜索引擎的比较研究。
  ①搜索引擎的性能比较研究。早期研究大量集中在概要性介绍方面。殷雪松、徐斌分别介绍了12个大陆地区的中文搜索引擎网易、天网、华好网景、搜狐、四通方利、常青藤、北极星、悠游、搜索客、司南、我是野虎、若比邻等,港台地区茉莉之窗、哇塞、蕃薯藤等和5个国外的中文搜索引擎Yahoo雅虎中文、AltaVista(中文版)、Globepage(中文版)、华页指南、中文查寻。
  王忠、周士波分别介绍了独立搜索引擎Altavista、Hotbot、Infoseek、Excite、Webcrawler、元搜索引擎Cyber411、Dogpile、Highway61、Inference  Find、Mamma、Profusion、Savvy  search、All4  one和网络英文搜索引擎Webcompass、Copernic98,并对6种主要搜索引擎的基本查寻、高级查寻、限定查寻、结果排序、结果输出等检索性能进行比较分析。
  随着研究的不断深入,研究重点转入到了搜索引擎性能的比较上。孙丽等选取了北极星、常青藤、搜狐、中经网信息导航、网现引擎5个中文搜索引擎,从数据库类型、规模、库更新频率、抓取方式、日抓取页面数、抓取深度、<Meta>tag、显示方式、信息排序依据、信息描述质量、界面友好程度、用户欢迎程度等分析它们的优劣。徐建华等从数据库规模、信息采集方式、标引内容、检索功能、结果显示格式、结果排序规则、数据库更新频率等7个方面对Altavista、Excite、Go、Hotbot、Lycos、Yahoo这6个搜索引擎逐一进行分析。
  张燕,惠佳颖就10个检索提问,从检索功能(布尔检索、邻近检索、截词检索等)、查准率、用户负担、输出方式对搜索引擎Google和Ask  Jeeves进行详细比较,测试结果显示Google在查准率以及输出方式上明显优于Ask  Jeeves,在检索功能及用户负担上两者各有特色。
  ②关于搜索引擎的质量评价指标。搜索引擎评价指标多种多样。1973年Lancaster和Fayen提出了6条关于信息检索系统效果评价指标:即覆盖范围、查全率、查准率、响应时间、用户负担及检索结果输出格式。这一评价指标影响甚广,许多学者在其基础上进行细化与扩充,提出搜索引擎质量评价标准。
  储荷婷提出5条标准:A.索引构成(取决于标引数量、标引范围、索引词抽取法和索引更新频率);B.检索功能;C.检索效果(由查全率、查准率和检索时间衡量);D.检索结果显示(显示内容、显示数量以及是否按相关性排序);E.用户所需努力(从用户界面和帮助介绍材料)。
  孙丽等提出的评价体系:A.数据库指标(数据库大小、类型、更新频率和信息抓取方式等);B.检索结果输出格式;C.检索性能完善程度(类目检索、关键词检索、短语检索、截词检索、布尔检索、概念检索、自然语言检索、指定字段检索、包含或排除检索等);D.响应时间;E.查全率;F.查准率;G.用户负担。
  曾民族提出评价指标:A.数据库规模和内容(覆盖范围、索引组成、更新周期);B.索引方法(自动索引、人工索引、用户登录);C.检索功能(布尔查找、复杂布尔操作、相邻或相邻查询、截词查找、字段查找、概念检索、词语加权、词语限定、中断退出、上下文关键词等);D.检索结果(相关性排序、显示内容、输出数量选择、显示格式选择);E.用户界面(帮助文件、数据库和检索功能说明、查询举例);G.查准率及响应时间。
  曹东等从检准率和检全率出发,提出搜索引擎的评价指标:A.收集网络站点数目的广泛性;B.搜索结果的满意度;C.数据库更新的频度和时效性;D.使用的便利性;E.目录设置的合理性和分类的深度及广度;G.内码转换的准确性。
  贺亚锋就7个有代表性的主题进行测试,提出的评估准则有:A.命中率——查询主题的网页反应;B.检准率——首10个网页中切合主题的网页数目的比率;C.重复出现率——首10个网页中重复网页数目的比率(镜象点除外);D.不切题比率——相对于检准率。
  尚克聪、杨立英提出的评价指标体系:A.数据库(从收录范围的明确性、收录相关内容的全面性及更新速度评价);B.检索软件,从智能化程度(由人—机接口、检索过程、检索结果输出、检索结果的反馈等指标衡量)、提供相关链接的程度、响应时间、提供各种检索途径;C.检索效率(综合使用查准率和查全率考察)。
  黄如花提出的评价指标:A.收录范围(地域范围、语言范围、资源类型范围、专业范围);B.分类(分类方式、分类级次、交叉显示、类名是否规范、各类的内容说明);C.检索功能与效果(完善的检索手段、范围限制的功能、满足网上动态信息检索的要求、对检索结果的处理等,查准率、查全率、搜索条件频率、响应速度);D.结果处理;E.页面组织;F.其它功能与服务。
  可见,数据库、检索功能、查准率、用户负担和检索结果输出方式是目前评价搜索引擎较普遍采用的基本指标。
    (3)搜索引擎分类体系研究。
  目前,一些大型搜索引擎普遍建立了指南型分类系统,对其分类体系进行研究逐步受到重视。陈树年在《搜索引擎及网络信息资源的分类组织》一文论述了综合性搜索引擎具备的功能;对网络信息进行组织使用的语言;网络信息的组织模式;中文搜索引擎与传统分类法的比较;建构网上知识分类体系的原则和技术等,可称为这方面研究的一篇力作。
  马张华、张宇萌认为网络分类体系与传统的文献分类体系的不同点在于:①重视以事物为中心设置类目;②类目收录的对象范围宽泛;③采用多重列类、重复反映方式揭示类目;排列方式简便;④直接以语词组织信息;⑤结合屏幕显示分类体系;⑥修订迅速。其不足是:类目设置缺乏规律性;类目归属存在不合理现象;同位类排列不能揭示相关性;横向关系揭示上存在不一致;部分类名不确切;分类规则有待完善等。马张华还对分类搜索引擎的类目体系进行了较为全面的研究,深入到类目结构的编制依据、大类结构、类目体系的特点等,并探讨了存在的问题。搜索引擎分类体系应遵守基本的逻辑规则,解决好类目的排列问题及横向类目的处理问题。研究者还对某一具体搜索引擎的信息组织方式进行了探讨。如,对Yahoo、搜狐等搜索引擎分类体系进行研究。
    (4)搜索引擎功能的完善。
  网络信息分类体系类目设置缺乏科学性、逻辑性,知识领域不全,知识体系不严密,分类标准、引用次序缺乏规律性。关键词式搜索引擎多为非控关键词索引,其检准率低。人们逐渐认识到搜索引擎应该以完善的情报检索语言原理为基础。曹东等提出:要运用分类检索语言的原理与方法;加强因特网信息资源分类表和电子化叙词表的理论研究,对自然语言实施控制机制;建立后控词表等情报检索语言的原理与方法来完善搜索引擎功能。
  目前理想的网络信息资源组织模式应当是分类主题一体化。其组成为:①一个结构简明的知识分类体系,通过对信息的系统分类,实现对信息知识领域的宏观控制;②一个智能化的控制词表,实施对作者语言与用户语言的控制与转换;③建立分类体系与控制词表的系统联系,将标引语言纳入分类体系,实现自然语言检索和类与语词的组配检索。
      2 虚拟图书馆(专题指引库)
  虚拟图书馆是因特网上组织信息资源的一种有效而又经济的形式。具体说来,虚拟图书馆就是根据特定的目标,选定信息资源的学科领域,对有关的网站网页进行搜索和收集,加以鉴定核实,并对核实后的网址进行合理组织,使之能够提供检索、浏览和链接的信息集合。与搜索引擎的主要区别在于,它属于专题性和学科专业性的,系统性和易用性强。虚拟图书馆对网络资源组织是优越于搜索引擎的关键环节。该环节由专业图书馆员把关,在自动系统的协助下,利用某种分类法和主题词表,对收集来的原始资源进行描述和组织,改善了搜索引擎采用自然语言标引的根本缺点。这方面实践和研究集中在:
    (1)重点学科导航库建设。
  研究者主要对导航库建设、更新与维护的技术与方法以及存在问题进行研究。重点学科导航库以学科为单元对因特网的相关学术资源进行搜集、评价、分类、组织的序化整理,并对其进行简要的内容揭示,建立分类目录式资源组织体系、动态链接的学科资源数据库的检索平台发布于网上,为用户提供网络学科信息资源导引的检索线索的导航系统。我国“211工程高等教育文献保障体系”(CALIS)提出构建重点学科导航库系统,建议其内容可分为7项:研究机构;相关电子出版物、电子文献等;相关国际会议预告;其它相关机构信息介绍;本学科与行业的相关标准、规范、协议等;主要新产品与市场;新成果、新创造与发明、专利等。规定各子项目必须有分类浏览功能,以主题树浏览方式组织信息。
    (2)专业网络资源导航库建设。
  所谓指引库是指所建立的数据库中,从物理上讲并不存储各种实际的信息资源,但对其进行访问却可以检索到有关数据库的实际资源,即指引用户到特定的地址获取信息。其原理与方法是把因特网上与某一或某些主题相关的节点进行集中,按方便用户检索的原则,向用户提供这些资源的分布情况,指引用户查找指引库中的信息。指引库采用主题树方式组织资源。研究者们探讨了专业网络导航库建设中专业网络信息资源收集的手段与方法、导航库的构成、更新与维护问题。
    (3)热门站点链接或相关站点推荐。
  这是因持网上被广泛使用的最简单、最直接的信息组织与开发利用模式。
      3 文献分类法在网络信息资源组织中的应用研究
    (1)传统文献分类法改进研究。
  国内外学者就图书馆分类法特性、具体分类法与搜索引擎分类体系比较(类目涵盖范围、揭示深度、类表结构和功能)进行研究。认为传统分类法知识系统性和标识语言的通用性以及族性检索能力和扩检、缩检功能,是其它情报检索语言所不具备的。它在网络中的应用主要表现:①用于联机浏览检索;②用于非文本信息的组织;③用于超文本系统的管理;④作为网络信息组织的通用工具;⑤促进分类主题一体化。
  基于网络信息资源组织用的传统分类法,应从以下几个方面进行改造:①多维揭示;②适当降低分类难度(增加直观性、透明性);③提高分类法类目标题语词的表达性和现时性,选择、积累、增添终端用户检索时自然语词,及时反映网络资源建设和利用中的新主题:④重视分面分类思想和方法;⑤扩展同主题法即主题词表的联系;⑥粗分类原则,采用分面分析方法、建立强大的参照系统、加强标引深度,打破传统的线性资源组织方式,走分类主题一体化道路;⑦分类法应当解决机读化和网络化、兼容性和国际通用性:分类—主题—自然语言一体化;⑧充分利用新技术、新方法(超文本技术、分面分析方法)改造原有的分类法,提高分类法描述网上信息主题的能力。
    (2)文献分类法用于网络信息资源组织研究。
  以文献分类法为工具的网络资源检索服务系统,从学科角度揭示网络信息,成为组织网上学术性知识内容的主要应用模式。国外在这方面的理论与实践均走在我国的前列。早在1994年10月23~25日,在美国伊利诺伊大学的第36届阿勒顿研究会上,与会者围绕电子时代图书馆分类法的新角色与新地位这一主题进行研讨;欧洲科研与教育信息服务发展计划DESIRE(Development  of  a  European  Service  for  Information  on  Research  and  Education)在“因特网资源描述与发现”的专题研究报告(RE1004,1997年8月)中,全面介绍、总结了分类法在因特网资源组织中的应用情况:17个网上服务系统使用DDC组织资源,5个使用UC,5个使用LCC。
  1997年,Nacy  J.Williamson对38个使用分类法组织资源的网站进行调查,记录每一网站所使用分类法名称、联机分类法索引展示形式、主题树的特点、类目使用级次、分类法的变通、结果显示方式以及应用上的特点,并选取9个网站(其中使用DDC、UDC、LCC各3个)以及一些未采用分类法组织资源的网站,对艺术、历史、健康和旅游方面的信息进行检索,用以分析与确定运用分类法的特点、趋势和存在问题。结果显示:绝大多数网站仅使用一至二级类目,二级或三级以上不采用分类方式,而以字母或其它的顺序。最引人注目的实验是:使用DDC的CYBERDEWEY,使用LC的WWW  Virtual  Library和早期使用UDC的BUBL's。研究表明,分类法能够提供组织网络资源框架。
  Gerry  McKiernan对分类法用于组织网络资源进行全面研究,报道了分类法应用于主题网关(subject  Gateways)的情况。使用UDC的有:①  Directory  of  Networked  Resources:UDC  “Shelfmstk”Order(NISS  Information  Gateway);②GERHARD:German  Harvest  Automated  Retrieval  and  Directory;③Informazioni  Classificate  per  Discipline;④Tampereen  Yliopiston  Virtuaikirjasto:Aiheet  UDK—Jar  jestyksessa;⑤  WWW  Subject  Tree  of  WAIS  Database  (Nordic  WAIS/World  Wide  Web  Project)。使用LCC的有:①Cooperative  Onlice  Resource  Catalog(CORC);②  CyberStacks;③ICRC:Internet  Collegiate  Refe

[1] [2] [3] 下一页


中学教案大全

语文教案: 七年级语文教案 八年级语文教案 九年级语文教案 综合性语文教案 高一语文教案 高二语文教案 高三语文教案

数学教案: 七年级数学教案 八年级数学教案 九年级数学教案 高一数学教案 高二数学教案 高三数学教案

英语教案: 七年级英语教案 八年级英语教案 九年级英语教案 高一英语教案 高二英语教案 高三英语教案

政治教案: 七年级政治教案 八年级政治教案 九年级政治教案 高一政治教案 高二政治教案 高三政治教案

物理教案: 八年级物理教案 九年级物理教案 高一物理教案 高二物理教案 高三物理教案

化学教案: 九年级化学教案 高一化学教案 高二化学教案 高三化学教案

历史教案: 七年级历史教案 八年级历史教案 九年级历史教案 高一历史教案 高二历史教案 高三历史教案

地理教案: 七年级地理教案 八年级地理教案 九年级地理教案 高中地理教案

生物教案: 七年级生物教案 八年级生物教案 九年级生物教案 高中生物教案

音乐教案: 初中音乐教案 高中音乐教案

体育教案: 初中体育教案 高中体育教案

美术教案: 初中美术教案 高中美术教案

信息技术教案: 初中信息技术教案 高中信息技术教案

中考备考复习资源: 中考复习指南 中考语文复习资料 中考数学复习资料 中考英语复习资料 中考物理复习资料 中考化学复习资料 中考政治复习资料 中考历史复习资料 中考地理复习资料 中考生物复习资料

高考备考复习资源: 高考语文复习资料 高考数学复习资料 高考英语复习资料 高考物理复习资料 高考化学复习资料 高考政治复习资料 高考历史复习资料 高考地理复习资料 高考生物复习资料 高考文综复习资料 高考理综复习资料 高考大综复习资料

教学论文: 教育综合论文 语文教学论文 数学教学论文 英语教学论文 政治教学论文 物理教学论文 化学教学论文 历史教学论文 地理教学论文 生物教学论文 音乐教学论文 美术教学论文 体育教学论文 信息技术教学论文 德育教学论文 班主任教学论文

推荐名言:
  • 春蚕到死丝方尽,人至期颐亦不休。一息尚存须努力,留作青年好范畴。 —— 吴玉章

  • 但愿每次回忆,对生活都不感到负疚 —— 郭小川

  • 人的一生可能燃烧也可能腐朽,我不能腐朽,我愿意燃烧起来! —— 奥斯特洛夫斯基

  • 你若要喜爱你自己的价值,你就得给世界创造价值。 —— 歌德

  • 社会犹如一条船,每个人都要有掌舵的准备。 —— 易卜生