AI前沿:论文进展与元数据提取技术

需积分: 0 0 下载量 177 浏览量 更新于2024-06-30 收藏 292KB PDF 举报
"AI前沿论文最新进展 2018.10.30 方建勇1" 这篇摘要涉及了人工智能领域的最新研究进展,主要关注两个关键主题:一是数学表达式的可访问性和PDF文档的标准化,二是学术元数据的高效提取。 1. 数学表达式在PDF文档中的可访问性: 在AI相关的科研论文中,数学公式和表达式的准确呈现至关重要。为了提高PDF文档的可访问性,即方便视觉障碍者或其他辅助技术用户理解内容,文章提出了三种方法。其中两种方法利用嵌入式文件(附件)存储LaTeX或MathML格式的数学源代码,通过不同的PDF结构将其与文档窗口的特定区域关联。一种方法利用结构化信息,适用于完全“标记PDF”,而另一种则利用/AF标记相关联内容。第三种方法是通过/ActualText替换实现,无需标记,用户可以通过简单的选择、复制、粘贴操作获取源代码,便于现有的屏幕阅读软件和辅助技术使用。 2. 学术元数据的提取与管理: 在科学数据库、学术期刊和数字图书馆的运营中,元数据如标题、摘要、关键词和索引术语对于学术资料的组织和检索至关重要。当前存在的问题是,很多数据提取服务并非免费或开源,且性能有限,处理PDF文件的数量也受到限制。针对这一问题,文章介绍了一个基于Java的高性能开源元数据提取框架。该框架提取速度快,比现有系统快9-10倍,且不限制上传的PDF文件数量。通过分析文本布局、字体和大小特征,框架能够准确提取论文标题,再利用固定规则集提取其他元数据字段,如摘要、正文、关键词、结论和引用。提取的元数据存储在Oracle数据库和XML文件中,适用于构建数字图书馆、在线期刊和科学数据库的馆藏。 3. 智慧城市的数据共享: 随着智慧城市项目的推进,全球多地政府对开放数据共享有了更高的需求。政府正在寻求更开放的方式来处理和分享数据,这涉及到数据的标准化、安全性和公众参与度。这为AI技术在公共服务、交通管理、环境监测等方面的应用提供了广阔舞台,同时也提出了新的挑战,如如何确保数据隐私和安全性,以及如何有效利用这些数据改善城市生活。 这篇摘要涵盖了AI研究的两个核心应用领域,一个是提高科学文献的无障碍性和标准化,另一个是提升学术数据管理和检索的效率。同时,它还触及了智慧城市发展中数据共享的重要趋势。这些内容对于理解AI在学术界和公共政策领域的最新动态有着重要意义。