没有合适的资源?快使用搜索试试~ 我知道了~
保罗·塞尚艾克斯-马赛第三大学U.F.R.科学与技术马赛数学与计算机科学博士学校(E.D.184)论文要获得标题科学博士从第四个提及:信息学通过尼古拉斯·费塞尔由Jacques Le Maitre指导,Emmanuel Bruno共同指导标题:分解为可视2011年6月14日发表并公开支持评审团在信息与系统科学实验室(LSIS)准备的论文总统奥马尔·布塞尔玛 保罗·塞尚艾克斯-马赛第三大学报告员菲利普·穆伦格勒诺布尔计算机实验室西尔维·卡拉布雷托里昂国家应用科学研究所检查员米歇尔·斯科尔国家工艺美术中心导演雅克大师南土伦-瓦尔大学伊曼纽尔·布鲁诺 南土伦-瓦尔大学对我妈妈来说,献给我的父亲,他目录ii感谢1摘要31导言42最新技术水平2.1导言.....................................................................................................................92.2信息搜索模型..................................................................................................2.2.1文件.......................................................................................................索引122.2.2绩效.......................................................................................................评估132.2.3布尔.......................................................................................................模型132.2.4模糊.......................................................................................................布尔模型142.2.5矢量................................................................................................模型152.2.6概率................................................................................................模型172.3在半结构化文档中搜索...........................................................................2.3.1XML...................................................................................................... 192.3.2InfoPath和XPS.............................................................................. 202.3.3INEX.....................................................................................................222.3.4在半结构化文件中搜索信息的不同方法..................................2.4在可视块中搜索.......................................................................................2.4.1将页面分割....................................................................................2.4.2区块.......................................................................................................的重要性302.4.3网页块的分类...............................................................................2.5通过附近的文本内容索引图像..............................................................2.6结论...................................................................................................................353BlockWeb37模型3.1动机............................................................................................................383.2BlockWeb.......................................................................................................... 40模型iii3.2.1将页面结构化为块....................................................................... 树403.2.2块的标识符和内容.......................................................................3.2.3区块的重要性...............................................................................目录iv圣母表3.2.4渗透性。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...433.2.5 IP图。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...433.2.6块的索引和查询。... ... ... ... ... ... ... ... ... ... ... ... ... ...443.3传播索引的属性... ... ... ... ... ... ... ... ... ... ... ... ... ...483.4网页的建模。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...523.4.1构建... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...533.4.2重要性评估... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...533.4.3渗透性。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...543.5结论。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...564用于块提取和索引的系统4.1一般................................................................................................... 架构594.2将页面转换为块..........................................................................................树614.2.1视觉...........................................................................渲染的使用614.2.2块树的定义..............................................................................................4.2.3同一页上...................................................................的多个块树694.2.4将页面划分为块.......................................................................树754.2.5通过页面在块.............................................................................................. 树中794.3IP...................................................................................86图的声明性构造4.3.1动机:计算..................................................................................4.3.2XIML:一种索引语言.....................................................................4.4结论945实验965.1硬件和软件.......................................................................................环境975.1.1实用............................................................................... 程序模块975.1.2转换为块..........................................................................................树985.1.3BlockWeb...............................................................................助手995.1.4BlockWeb数据库............................................................................... 1005.2电子.....................................................................................期刊语料库1015.2.1语料................................................................................................ 库1015.2.2数据............................................................................. 库的结构1015.2.3寻找最佳入口点...............................................................................5.2.4搜索用于图像索引的块...................................................................5.3ImagEval..........................................................................109语料库的实验v5.3.1语料................................................................................................ 库1105.3.2实验..................................................................................... 方案1125.3.3结果1195.4结论1286结论130参考书目132图表iv2.1信息检索系统.................................................................................................2.2寻找信息时的噪音和沉默............................................................................2.3相似度sim(dj,q)等于cos(θ)............................................................162.4XML.................................................................................................................20文档标记的三个级别2.5XML文档及其关联........................................................................................树的示例212.6VIPS中的细分过程[Cai 2003]........................................................................273.1HTML......................................................................................................................38页面3.2L’arbre de blocs de la page de la3.3图3.1 44页面的IP图3.4由两个块组成的页面的IP图...............................................................................3.5由三个块组成的页面的IP图...............................................................................3.6相似性sim(b,q)作为α.................................................................................51函数的3.7示例页面及其关联................................................................................................的IP图554.1系统.................................................................................................................架构604.2电子期刊的主页............................................................................................4.3图4.2中页面的直观分割4.4分段页面的块树............................................................................................4.5在浏览器中显示的图片库............................................................................4.6图片库的HTML代码.....................................................................................4.7图片库格式代码............................................................................................4.8从电子期刊页面中提取的文章....................................................................4.9对应于图4.8中摘录的HTML片段................................................................4.10 以XML 70表示的块树摘录...........................................................................4.11 用于在电子期刊中搜索文章的块树图4.12 用于图像搜索的图................................................................................................4.13 图像.................................................................................................................上下文的表示74v4.14 将DOM树减少...............................................................................................4.15 通过分割.........................................................................................................生成的可视块树784.16 图4.2中给出的网页HTML代码4.17 用于电子.........................................................................................................................期刊文章表示方案的XSLT-Leaf82图表vi图表4.18 页面的块树,由可视.................................................................................... 属性注释834.19 用于图像索引的半自动分割算法4.20 用于图像表示方案的XMLT-transformation工作表854.21 XIML:块.......................................................................................................的手动和空间重要性904.22 XIML索引表...................................................................................................4.23 应用XIML索引表生成的IP图出生于图4.22 935.1自动.................................................................................................................分段原型995.2BlockWeb 100助手的界面...........................................................................5.3使用search运算符的查询示例1015.4XIML:电子.................................................................................................期刊索引1025.5电子............................................................................................................... 日记账方案1035.6用于搜索最佳入口点..........................................................................................5.7用于索引图像的四种渗透性方案第107页5.8498张图片的平均相似度、准确度和召回率语料.......................................................................................................................库1095.9ImagEval活动中相关图像的回收率。1115.10 ImagEval................................................................................................................112语料库中的页面示例5.11 通过我们的分割算法获得的块树图半自动1135.12 由我们的半自动分段算法分段的页面示例1145.13 页面的块树示例...........................................................................................1155.14 图像对页面上其他块的渗透性方案L EEARC SDEPERMABEEER SLEB OCIMAGESNDDRTS)116...........5.15 XIML:图像.................................................................................................的渗透性1175.16 XIML:图像.................................................................................................的分区索引1175.17 页面的上下文块和页面块的分区索引示例1185.18 XIML:增强的图像.....................................................................................索引1195.19 增强了示例页面的上下文和页面1195.20 用于半自动分割和分区.............................................................................. 索引的内插召回/精度曲线1215.21 用于半自动分割和增强.............................................................................. 索引的内插召回/精度曲线122vii5.22 使用VIPS 124分割算法获得的块树图5.23 VIPS算法分割的召回率/准确度曲线和分区...........................................................................................................索引125。5.24 VIPS算法分割的召回率/准确度曲线和增强...........................................................................................................的索引126谢谢你首先,我想向我的导师雅克·勒梅特和伊曼纽尔·布鲁诺表示最诚挚的感谢,感谢他们在这些年里对我的大力支持和明智的我还持有我想感谢他们在我的论文中表现出的巨大耐心和善良。我还要感谢Sylvie Calabretto和Philippe Mulhem花时间我还要感谢在这篇论文中与我一起工作的每一个人。他们很多,那些名字首先是米歇尔,他非常支持我,我感谢他访问土伦,通过他,他能够就本论文中提出的模型的核心进行广泛的还有伊丽莎白,她在还有我见过的所有博士生我特别向所有参与MajecSTIC冒险的人致敬然后我想感谢我所有的家庭成员的鼓励和支持。我无法用语言来表达我对他们的一切我借此机会祝愿我的表妹席琳有很大的勇气,希望她也能很快完成这一页,这是完成这一长期工作的象征之一,这是论文。 我特别感谢我的母亲,她仔细地寻找元语言的所有错误,也感谢我的父亲,他带我去参加他的论文答辩,这是我参加的第一次。12谢谢你我不会说出所有看到我日复一日经历这场磨难的朋友的名字,最后,我特别要感谢Jasmin,她和我一样期待着RESUMÉ本论文的重点是 在此背景下,我们提出了一个新的模型:BlockWeb,它依赖于将网页分解为视觉块的层次结构。此模型考虑了每个块的视觉重要性以及块对页面上相邻块内容的这种分解在索引和查询方面有许多优点特别是,它允许以比页面更细的粒度执行查询:可以返回与查询最相似的块,而不是整个页面。一个页面被表示为一个有向无环图,其中每个节点与一个块相关联,并由该块的重要性来标记,每个弧由目标块对源块的渗透性来标记。 为了从一个页面的块树表示中构建这个图,我们提出了一种新的语言:XIML(XML索引管理语言的缩写),它是一种类似于isslt的规则语言。 我们在两个不同的应用程序上测试了我们的模型:在电子报纸文章语料库上搜索最佳入口点,以及在ImagEval2006活动语料库上索引和搜索图像。我们介绍结果。关键词:网页分割,块重要性块之间的渗透性,图像索引AB STR ACT本 论 文 是 关 于 索 引 和 查 询 网 页 。 我 们 提 出 了 一 个 新 的 模 型 , 称 为BlockWeb,它基于将网页分解为一个层次结构的视觉块。此模型考虑了每个块的视觉重要性以及块的内容对页面上相邻块的渗透性将页面拆分为块在索引和查询方面有几个优点它允许以比整个页面更细的粒度查询系统:可以在整个页面之前返回与查询最相似的块。一个页面被建模为一个有向无环图,即IP图,其中每个节点与一个块相关联,并由该块的重要性系数标记,每个弧由目标节点内容到源节点内容的渗透性系数标记。为了从页面的块树表示中构建此图,我们提出了一种新语言:XIML(XML索引管理语言的缩写),一种基于规则的语言,类似于isslt。 该模型在两个不同的数据集中进行了评估:在电子报纸文章数据集中找到最佳切入点,以及在从ImagEval2006年活动网页绘制的数据集中索引和查询图像。我们介绍这些实验的结果KeywO rdS:网页分割,块重要性,块渗透性-ity,网页图像索引,文档索引,文档检索第一章简介文字出现在几千年前,使人类的知识得以保留下来。从那时起,知识的传播不再仅仅是口头的,而是通过书面文件进行的。L’in- vention 网络已经成为文化和知识的全球仓库,允许前所未有的思想和信息共享管理Web上可用的信息会带来许多问题,例如信息的表示、组织、索引、查询或存储。这些问题的困难在于几个因素,其中包括:信息量巨大,信息是半结构化的(不像数据库中的信息那样,是预先定义的精确模式的一部分),信息是多媒体的,非信息技术用户可以访问信息。有两种语言主要用于描述Web文档(或页面):HTML和XML。HTML语言专用于网页的呈现和这些页面之间的导航。XML语言是专用的,这些文档的逻辑表示。C’est un métalangage qui permet de définir,由于其灵活4第一章。引言5为了使用户他们建立在现有的信息搜索模型上:主要是布尔模型和向量模型。L’énorme quantité de documents disponibles et le nombre important deceux répondant potentiellement à une requête a de plus一开始,索引或搜索的单位是整个页面。但很快就有必要相反,逻辑结构的考虑与这是一个给定的标准" 这一领域的大部分工作是在INEX 1倡议下进行的对视觉结构的考虑是基于这样页面设计者赋予此信息的承载力以及此信息可以维护的链接。因此,在索引和搜索引擎中考虑页面的视觉组织对于提高质量是非常有用的在本文中,我们提出了一种新的网页信息搜索模型在此模型中,页面被分解为可视块每个块都有一个重要性,这取决于其视觉属性(大小、颜色、字符大小和一袋索引术语的内容一个块可以被页面上另一个块的内容渗透这些块构成 对查询的响应是按相似性降序排序的块的列表。本论文的其余部分组织如下:1Voir[Fuhr2002],htt p://i n e x。我是。INFORMATI K. 一个i-d u is b urg. d e/etHTT P://www. I N E X. O A G O. AC. nz/第一章。引言• 第二章概述了首先,我们介绍三种搜索然后,我们讨论了使用Web文档的文本内容和结构(无论是逻辑的还是视觉的)在Web文档中搜索信息的主要进展如上所述,使用Web文档的逻辑结构进行信息搜索的第一项工作是在INEX倡议的框架内进行的在简要回顾了XML和用于查询XML文档的两种基本语言(InfoPath和XPS)之后,我们将讨论此计划的贡献。使用网页的视觉结构来搜索信息我们介绍了完成这些任务的主要方法。网页混合了文本信息和多媒体信息,特别是图像。最后,我们• 第三章专门讨论BlockWeb模型,这是本文的核心首先,我们做一个非正式的介绍。我们详细然后是不同的概念:将页面分解... ... 一个区块对其相邻区块内容的渗透性,以及一个区块的索引,该索引考虑了我们从BlockWeb模型中提取了两个重要的属性:(i)最佳入口点属性,它表达了基于BlockWeb模型的搜索引擎为给定查询返回最具体块的能力;(ii)重要性继承属性,它表达了一个块相对于它的兄弟块越重要,它的内容对它的父块的贡献越大• 第4章介绍了我们开发的原型,用于将网页分解为可视块,并对这些块进行索引,以及6第一章。引言7我们设计了一个XIML模板来帮助应用程序的管理员进行索引。我们演示了这个原型如何为两个不同的应用程序进行页面分割和索引:电子期刊文章索引和图像索引。在第5章中,我们将对这些应用进行一系列• 第5章专门讨论BlockWeb模型的验证。首先,我们将介绍我们为此目的设计的索引和搜索引擎。然后,我们展示并分析了在两个不同语料库上进行的两组第一个是用来测试BlockWeb搜索引擎在分解为可视块的网页中找到最佳入口点的能力两者都用于测试BlockWeb索引引擎使用包含图像的块对其相邻块的内容的渗透性来索引网页图像的能力• 第6章总结并提出了一些观点。这篇论文是在INCOD团队内完成的除了这篇论文之外,BlockWeb模型的开发和实施是一项团队工作,与Michel Scholl教授合作进行,并已成为以下出版物第二章最新技术水平总结2.1引言。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...92.2信息搜索模型2.2.1文件索引122.2.2绩效...............................................................................................................评估132.2.3布尔模型132.2.4模糊......................................................................................................布尔模型142.2.5矢量......................................................................................................模型152.2.6概率...............................................................................................................模型172.3在半结构化文档中搜索2.3.1XML192.3.2InfoPath和XPS202.3.3INEX222.3.4在半结构化文档中搜索信息的不同方法................................
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功