"戴昌林的东南大学硕士学位论文——《动态网页的信息抽取方法》探讨了如何从动态网页中提取信息并转化为结构化形式。论文主要关注动态网页的两种类型:记录级和页面级,提出了相应的信息抽取策略。对于记录级动态网页,论文提出基于相似记录项归纳(Similar Records Induction, SRI)的方法,利用编辑距离和树排列算法构建记录项的包装器树,并手动标注信息。在页面级动态网页方面,采用了基于相似页面归纳(Similar Pages Induction, SPI)的方法,通过网页集清洗和树排列算法生成页面的包装器树,自动为相邻信息标注标签。此外,为了解决记录级网页的标签自动获取问题,论文还引入了基于隐马尔科夫模型(Hidden Markov Model, HMM)的记录项字段识别和抽取方法,将记录项视为字段值的序列,用HMM进行标签分类标注。这些方法在实际应用,如与深圳华为技术有限公司合作的“电信研发平台”项目中,表现出较高的召回率和准确率,证明了其实用性。关键词涉及信息抽取、包装器、动态网页、网页清洗、DOM树和隐马尔科夫模型。"
这篇论文详细研究了动态网页信息抽取的挑战和解决方案,主要集中在动态网页的两个层次。首先,对于记录级动态网页,作者提出了一种基于相似记录项归纳的策略,通过比较和归纳页面中的相似记录项来创建包装器树,这个过程涉及到编辑距离算法来度量文本相似性和树排列算法来构造结构。尽管这种方法需要手动标注信息,但它能有效地处理记录级数据的结构化。
其次,为了处理页面级动态网页,论文提出了一种基于相似页面归纳的方法,它包括对样本网页的预处理清洗和通过树排列算法生成代表页面结构的包装器树。此方法的优势在于能够自动为相邻信息分配标签,减少了手动干预的需求。
最后,为了解决记录级动态网页的标签自动获取,论文引入了隐马尔科夫模型。将记录项视为一个序列,通过HMM进行序列标注,实现字段的自动识别和抽取。这种方法极大地提高了处理记录级数据时的效率和准确性。
在实际应用中,这些方法在“电信研发平台”项目上进行了验证,实验结果表明,这些信息抽取方法在提高信息提取的准确性和覆盖率方面表现优秀,证明了它们在实际场景下的可行性。论文的研究成果不仅丰富了信息抽取领域的理论,也为实际的Web数据处理提供了强有力的技术支持。