HTML抽取与OAI-MPH融合的数字资源元数据自动获取系统

需积分: 5 162 浏览量更新于2024-08-08 收藏 620KB PDF 举报

本文档探讨了一种数字资源元数据自动获取系统的设计与实现，该系统结合了HTML抽取和OAI-PMH收获两种方法。HTML抽取技术主要用于从HTML文档的头部提取相关元数据，这是一种基于文本解析的技术，可以识别和抓取网页中的关键元数据信息，如标题、作者、出版日期等。HTML抽取的优势在于其对网页结构的理解和解析能力，对于静态或结构相对清晰的网页，能有效地获取所需数据。另一方面，OAI-PMH（Open Archives Initiative Protocol for Metadata Harvesting）是一种开放的元数据 harvesting（收获）标准，允许远程访问和获取存储在元数据仓储中的信息。通过遵循OAI-PMH协议，系统能够从互联网上的各种数字仓储中自动搜索并获取预定义的元数据，如记录的标识符、提供者、出版日期、格式等。这种方法具有广泛性，因为许多数字图书馆和内容管理系统都支持OAI-PMH接口，使得信息的标准化和互操作性得以提升。该自动获取系统的提出，旨在解决数字图书馆和资源管理中元数据收集的效率问题，减轻人工操作的负担，并确保元数据的一致性和准确性。通过将这两种方法相结合，系统能够在多样化的数字资源中高效地检索和整合元数据，从而更好地支持数字资源的管理和检索服务。此外，文中还提到了国家自然科学基金项目的资助，表明这项工作得到了科研资金的支持，进一步强调了其在学术界的重要性。作者章旭和钱龙华分别来自苏州图书馆和苏州大学计算机科学与技术学院，他们的专业背景和研究方向均与数字图书馆及其应用紧密相关，这为系统的研发提供了专业视角和技术支持。论文的关键词包括“数字图书馆”、“数字资源”和“元数据自动获取”，这些关键词突出了文章的核心研究内容和实际应用价值。这篇文章介绍了如何通过创新的元数据获取技术，提高数字资源管理的自动化水平，为图书馆和信息检索领域带来了实质性的进步。这对于推动数字资源的共享、检索和利用具有重要意义。

第  卷第  期苏州大学学报自然科学版 Ｖｏｌ Ｎｏ

 年  月ＪＯＵＲＮＡＬＯＦＳＵＺＨＯＵＵＮＩＶＥＲＳＩＴＹ ＮＡＴＵＲＡＬＳＣＩＥＮＣＥＥＤＩＴＩＯＮ Ｊａｎ

收稿日期   

基金项目 国家自然科学基金资助项目

作者简介 章旭 女江苏苏州人副研究馆员主要研究方向为数字图书馆及其应用

数字资源的元数据自动获取系统

章旭



钱龙华



苏州图书馆江苏苏州苏州大学计算机科学与技术学院江苏苏州

摘要 提出了结合ＨＴＭＬ抽取和ＯＡＩＭＰＨ收获这两种方法的元数据自动获取系统前者用于从ＨＴＭＬ文档

首部中提取出相应的元数据后者则从远程元数据数字仓储中按照标准的元数据交换协议收获所需的元

数据

关键词 数字图书馆数字资源元数据自动获取

中图分类号 ＴＰ文献标识码 Ａ文章编号   

Ａｎａｕｔｏｍａｔｉｃｍｅｔａｄａｔａａｃｑｕｉｒｉｎｇｓｙｓｔｅｍｆｏｒｄｉｇｉｔａｌｒｅｓｏｕｒｃｅｓ

ＺｈａｎｇＸｕ



ＱｉａｎＬｏｎｇｈｕａ



ＳｕｚｈｏｕＬｉｂｒａｒｙＳｕｚｈｏｕ ＣｈｉｎａＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙＳｕｚｈｏｕＵｎｉｖＳｕｚｈｏｕ Ｃｈｉｎａ

Ａｂｓｔｒａｃｔ Ａｎａｕｔｏｍａｔｉｃｍｅｔａｄａｔａａｃｑｕｉｒｉｎｇｓｙｓｔｅｍｉｓｄｅｓｃｒｉｂｅｄｆｏｒｄｉｇｉｔａｌｒｅｓｏｕｒｃｅｓｂａｓｅｄｏｎｔｗｏ

ｄｉｆｆｅｒｅｎｔａｐｐｒｏａｃｈｅｓＨＴＭＬｅｘｔｒａｃｔｉｏｎａｎｄＯＡＩＭＰＨｈａｒｖｅｓｔｉｎｇＷｈｉｌｅｔｈｅｆｏｒｍｅｒｅｘｔｒａｃｔｓｔｈｅｃｏｒｒｅ

ｓｐｏｎｄｉｎｇｍｅｔａｄａｔａｆｒｏｍｔｈｅＨＴＭＬｄｏｃｕｍｅｎｔｓｔｈｅｌａｔｔｅｒｈａｒｖｅｓｔｓｔｈｅｍｅｔａｄａｔａｆｒｏｍｔｈｅｒｅｍｏｔｅｍｅｔａ

ｄａｔａｂａｓｅｔｈｒｏｕｇｈｓｔａｎｄａｒｄｍｅｔａｄａｔａｃｏｍｍｕｎｉｃａｔｉｏｎｐｒｏｔｏｃｏｌ

Ｋｅｙｗｏｒｄｓ ｄｉｇｉｔａｌＬｉｂｒａｒｙｄｉｇｉｔａｌｒｅｓｏｕｒｃｅｓａｕｔｏｍａｔｉｃｍｅｔａｄａｔａａｃｑｕｉｒｉｎｇ

０引言

数字资源的元数据是对数字资源本身的描述信息如目录索引摘要及主题等文献特征和属性元数据描

述数字资源的特征和属性提供关于资源或数据的一种结构化的信息规定数字资源的组织和管理方式具有定

位发现证明评估和选择等作用因此从本质上看元数据可以认为是关于数据的数据ｄａｔａａｂｏｕｔｄａｔａ

数字图书馆就是在网络环境下利用数字化技术手段使用规范化的方法整理加工信息资源供用户使

用因而数字图书馆要解决的主要问题是信息资源的获取组织表示以及信息资源的查询浏览可视化和信

息资源的传输发布同传统的图书馆一样数字图书馆中的数字化资料也需要标引和著录元数据的出现就

是为了满足这种需要元数据能改进对文档的检索能力特别是搜索的精确度以及对资源的控制和管理问题

元数据所包含的数据元素集可以用来描述信息对象的内容和位置以便用户能在网络中方便地查找和检索

同传统的文献整理和编目相类似数字资源的元数据著录也可由受过专门训练的编目员来完成人工著

录虽然保证了著录的准确性但著录速度慢工作效率低面对迅速增长的数字图书馆中的海量信息资源手

工著录无论如何也不能满足要求因此数字资源的元数据采集已成为数字图书馆以及Ｉｎｔｅｒｎｅｔ应用的瓶颈和

焦点如何利用各种计算机技术来准确地自动获得数字资源的元数据从而更好地为数字资源的检索和管理

服务是当今数字图书馆领域的研究热点

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38522106

粉丝: 2
资源: 901

HTML抽取与OAI-MPH融合的数字资源元数据自动获取系统

2009年全国电子设计竞赛培训PPT2-samecc

2021年物联网产业链全梳理.pdf

2022年中国钣金加工行业：现状、增长与未来趋势详析

【Go文件完整性检查】：用os包进行数据校验的高效方法

请详细阐述如何利用ENVI软件进行环境小卫星CCD-1B数据的叶绿素a浓度反演，并包含从数据获取、预处理到反演模型建立的全过程。

基于Flask，mysql slope one的图书推荐系统全部资料+详细文档.zip

舰艇2 glb模型文件，航空母舰glb模型（亲测可用） 效果图见描述

HengCe-18900-2024-2030中国聚乙烯醇缩丁醛市场现状研究分析与发展前景预测报告-样本.docx

SpringBoot集成Neo4j图数据库+朴素贝叶斯分类器实现基于电影知识图谱的智能问答系统源码+项目说明.zip

GTK 的 Go 绑定.zip

最新资源

舰艇2 glb模型文件，航空母舰glb模型（亲测可用）效果图见描述