基于文本与非文本信息语义融合的Web文档成像方法

95 浏览量更新于2023-12-05 收藏 874KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

© 2014由Elsevier B.V.发布。由美国应用科学研究所负责选择和/或同行评审可在www.sciencedirect.com在线获取ScienceDirectAASRI Procedia 9（2014）31 - 362014年AASRI电路与信号处理会议（CSP 2014）一种基于文本与非文本信息语义融合的Web文档成像方法Martina Zachariasova*，Patrik Kamencay，Robert Hudec，MiroslavBenco，Slavomir Matuska斯洛伐克日利纳大学电信与多媒体系摘要本文研究了一种基于文本和非文本信息语义包含的Web文档成像方法。其主要思想是创建一个鲁棒的方法，相关的显示结果到搜索引擎的基础上搜索的关键字或图像。因此，我们提出了一种称为图像和文本（SIIT）段的语义包含的方法。SIIT方法的输出是简短的Web文档。它包含图像和文本片段，这些片段是语义链接的。将短Web文档的创建分为可能的三个步骤。首先，从主要内容的Web文档中提取所有的图像和文本片段。其次，对提取的图像进行分析，以获得图像中对象的语义描述.最后，使用语言分析将图像和文本片段连接起来。© 2014作者。出版社：Elsevier B. V.这是CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/3.0/）。美国应用科学研究所科学委员会负责同行评议关键词：数字图像;图像分类;支持向量机;描述子1. 介绍在过去的一年中，有几种使用文本分析的Web对象语义包含机制。Sh. Behnami [1]描述了Filimage系统的设计，该系统用于图像的自动提取* 通讯作者。联系电话：+421 41 513 2239。电子邮件地址：martina. fel.uniza.sk。2212-6716 © 2014作者出版社：Elsevier B.诉这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/3.0/）。美国应用科学研究所科学委员会负责的同行评审doi：10.1016/j.aasri.2014.09.00732Martina Zachariasova等人/ AASRI Procedia 9（2014）31以及他们的文字评论。Mulendra Parag Joshi和Sam Liu在[2]中描述了一种使用文档对象模型分析和自然语言处理从Web文档中提取文本和图像的技术。在第一阶段，从Web文档中提取文章主体。然后，使用基于自然语言处理（NLP）的语义相似度来找到与文章对应的相关图像。J. Pasternack和D. Roth [3]提出了最大子序列分割方法，即标记级局部分类器的全局优化方法，并将其应用于新闻网站领域。L. P. Florence [4]描述了一个名为TNT的图像和文本挖掘工具。这个工具是基于上下文探索和工作在不同的观点。该工具提供了由图像和相关注释片段引导的文本重组。2. 该方法最近，大学在处理网页以创建短Web文档的领域中的研究集中在图像周围的文本段的分析上。图像处理的研究目前处于高水平，如果不利用这一事实来创建简短的Web文档，那就错了。我们提出的方法是基于现有的系统，这是在前面的部分中描述。在这个系统中，我们把重点放在最大限度地减少或消除潜在的缺陷（见表1）。①的人。所提出的方法允许自动处理网页的各种组件。使用文本片段的图像语义包含的系统架构如图1所示。自动提取沿着两个轴进行，一个轴朝向文本，另一个轴朝向图像。1原始网页2DOM树莫托娃用4-9毫米口径手枪，用12-16毫米口径手枪。法尔巴3krídiel je žltkastá，primaryom zadné krídlasú sivo-žlté. Predné krídla，telo i nohysú svetlo-okrové auconžlté，lesklé a súbez škvín.4语言分析第7段，第6基于图像5图像处理描述SIIT输出图1.我们提出的方法自动提取的重要步骤： 正在加载网页 读取网页源代码并创建文档对象模型树 网页主内容中文本段的识别与提取 从文本片段 基于特征提取的图像处理及其分类 语篇片段是根据语义描述进行语义分析得到的 两个模块之间的连接允许自动匹配和关联操作Martina Zachariasova等人/ AASRI Procedia 9（2014）3133表1.获得连贯语义块参数描述图像获取图像分析描述图像获取文本分析不想要从网页创作摘要本体方法Filimage系统-+-+-方法基于在浏览的上下文上(TNT工具）-+-++方法基于SIIT本体+++++3. 实验结果在本节中，提出了用于创建短Web文档的方法。实验在加州理工学院101图像数据库和100个离线Web文档上进行。该方法使用编程语言JAVA和MATLAB实现。创建短Web文档的过程： Web对象 的图像 Web对象3.1. 自动提取主要Web对象使用文档对象模型[5]识别所需Web文档内容的主块现在可以通过多种方式实现。作为校长，我们可以提到： 已知名称标识符元素：（例如div id=“main_block”>） 柜台标志 反句在实践中，我们标识符元素和简单的字符计数器不工作。有问题的Web文档数量包含多个超过500个字符的块。动态网站是一个长文本字符串，用于创建下拉菜单或类似的交互块，从链中的一个点呈现为使用JavaScript作为移动文本或列表的一部分。在这种情况下，优选使用自然语言描述来区分相关文本和辅助字符串。而不是一个单一的计数器的字符或一个字，有同样的缺点，我们选择了计数器完整的句子。在自然语言中，我们假设句子结构的特征-每个句子后面都是前一个句子的终止标点符号（句号，问号，感叹号）和空格。观察中，我们发现绝大多数正常细胞不会使用终止性问号或感叹句，以至于影响了对主文的识别。因此，我们使用分隔新句子字符串“dot + loophole”作为规则。“阅读完一个文本文件后，测试每个内容元素的句数规则。相关内容将是这样一个文本块，其中包含至少5个句子。隐藏具有相关内容的适当文本的元素也会被测试是否存在图像。我们假设与文本相关的图像可以在这些块中找到。如果确认了它们的存在，它们的提取算法确保与文本一起。以流程图的形式识别正文如图所示。二、34Martina Zachariasova等人/ AASRI Procedia 9（2014）31图2. Web文章提取管道为了进行比较，使用了字符计数器。这部分算法用JAVA编程语言实现。首先，使用counter从输入文档中删除所有空格。随后，对应用程序中的所有文本字符进行计数。所提出的算法在选定的文档样本上进行了测试。文本提取的总效率为88.99%。图像的提取取决于文档的主块的识别，因此遵循文本提取的成功状态。3.2. 的图像在本节中，对提取的图像进行了处理。这一步的主要目标是获得静态图像的自动语义描述。该描述对于Web文档的对象匹配非常重要。图像自动语义描述的总体过程如图1所示。自动语义描述的基本步骤可以分为以下几个步骤： 加载提取的图像 加载SVM模型 将图像划分为多个段 基于SIFT方法的 找到提取的描述符和SVM模型之间最接近的一致性 图像分析的输出是对象的语义描述403530252015105012345图3.图像分析总示意图首先，我们加载提取的图像和SVM模型。在下一阶段，我们使用K-means [6]定义了分割图像的片段数量。从网页中提取的图像仅包含三个片段（即，水、树、天空.）。对于每个输入图像，我们使用K-Means设置三个分段。接下来，我们使用Martina Zachariasova等人/ AASRI Procedia 9（2014）3135将二值段中的孔洞填充到图像中的滤波器。孔洞是一组背景像素，无法通过从图像边缘填充背景来达到。在第三阶段，使用SIFT描述符从片段中提取特征。这些阈值为5或8像素的描述符已被修改。该阈值是根据以前的出版物选择的[7]。在测试图像中，没有获得大于八个像素的矢量长度。因此，将不使用大于8的阈值。在接下来的阶段中，我们使用SVM模型对特征提取进行分类。模型包含9个类。利用支持向量机模型对每一个提取特征进行评价，并对描述进行分配。在我们实验部分的最后阶段，分配了图像的描述（如图所示）。3）。3.3. Web对象的语义包含最后，提出了一种Web对象语义包含算法。语义包含是基于对提取图像的描述。搜索并提取网页的文本片段。将包含相同词语描述的句子抽取成简短的Web文档。然后，将图像与具有与描述相同索引的句子相关联。语义包含的一般框图如图所示。四、图4.文本和非文本对象Web对象语义包含算法的设计基于三个步骤。首先，加载图像和文本片段的描述。其次，对语篇片段进行了语言学分析。最后给出了实验结果。语义包含的主要部分是对语篇片段的语言学分析。全文共分三个部分（词法分析、词法分析、句法分析）。利用词法分析方法去除所有长度小于三个音素的词。斯洛伐克语的复杂性是设置此值的主要原因。这主要是因为斯洛伐克语使用不同的介词。此外，在词法分析中，计算具有相同词的句子的频率。这些词与描述完全相同。最后，计算被提取为相关文本的句子中的单词总数。文本段的词法分析是建立词和短语分析的构词基础的基础。计算平均字数和句子长度。在最后一步中，减少了句法分析中的重复句。在100个Web文档上进行了实验。阈值为8像素时，获得了最佳结果（79.59%）。+++36Martina Zachariasova等人/ AASRI Procedia 9（2014）314. 结论随着Web文档数量的不断增加，需要有效的系统管理来实现基于语义包含的图像和文本的自动标注。8像素的最佳效果。创建简短Web文档的准确率为79.59%。所提出的方法是基于SIIT（见图1）。输入是原始网页，输出是修改后的网页。可以看出，只创建了一个抽象。即图像，它是以块文字为主.从Web文档中提取信息的其他图像是不需要的（包含指向其他网站的链接）。网页主体的文本被提取，横幅或导航菜单被删除。仅使用了摘要的相关文本。由于原始图文摘要包含的文本片段小于60个字，因此进行了形态学分析。为了更好地可视化文本段使用不同的颜色标记（见图1）。①的人。在今后的工作中，将实施语义图。该地图应有助于更准确地描述非文本信息，并提高图像中动物描述的准确性。基于图像对象的识别效率，可以假设，所提出的分类对于道路附近的动物存在的证据以及对于走廊的建立是足够的。确认本文所介绍的工作得到了斯洛伐克科学项目资助机构，项目编号1/0705/13“图像元素分类的语义图像描述”和尤里卡项目编号E！6752引用[1] 贝赫纳米山Filimage系统：网页图像和文本自动提取。世界科学与工程学院和社会（WSEAS）。伊兹密尔土耳其. 2004年。[2] 帕拉格湾J.，萨姆湖使用DOM分析和自然语言处理的Web文档文本和图像提取。第九届ACM文档工程研讨会论文集DocEng 09（2009）。[3] 帕斯特纳克·J罗斯·D最大子序列分割法从网页中提取文章文本。第九届ACM文档工程研讨会论文集DocEng 09（2009）。971-980[4] 佛罗伦斯湖P.基于多角度上下文探索的图像和文本挖掘。2011年第24届国际FLAIRS会议。5月18日至20日，佛罗里达州棕榈滩[5] 乔希A.K.，托马斯·N Shetty S.; Thomas，N. VEDD-使用DOM树提取数据的可视化包装器。通信、信息计算技术。2012年国际会议，不，第1 -6页，2012年10月19-20日。doi：10.1109/ICCICT.2012.6398114[6] 洪哲哲，Sun M.，蚁群算法在图像分割中的K-means算法，发表于：Proceeding ACM SE '10Proceedings of the 48 th Annual Southeast Regional Conference。Article No. 48，ACM New York，NY，USA ©2010. ISBN：978-1-4503-0064-3。[7] Zachariasova M.，Kamencay P.，邬达克河，Benco M.，马图斯卡湾一种基于文本和视觉信息的网络短文档生成新方法。电信和信号处理（TSP）。2013年。

下载后可阅读完整内容，剩余1页未读，立即下载