URL聚类快速网页可访问性评估采样方法

0 下载量 145 浏览量 更新于2024-08-27 收藏 560KB PDF 举报
"A sampling method based on URL clustering for fast web accessibility evaluation" 这篇研究论文探讨了一种基于URL聚类的快速网页可访问性评估采样方法,旨在解决在大规模网站可访问性评估时面临的成本问题。传统的采样方法可能导致评估偏见,特别是当网站中的检查点违规分布不均匀时,所选样本可能无法充分代表整个网站。为了解决这个问题,论文提出了一种名为URLSamp的新颖页面采样方法。 URLSamp方法的核心是首先对网站的网页进行URL聚类,然后再从每个聚类中抽取样本。与现有的分层抽样方法不同,这些方法通常需要分析网站中的所有页面以便进行聚类,这会带来巨大的输入/输出(I/O)和计算成本。论文的创新之处在于,它仅利用URL信息就能进行聚类,从而降低了处理成本。 在评估网页的可访问性时,考虑的方面可能包括但不限于:内容的可理解性、导航的易用性、兼容性(不同设备和浏览器的兼容性)、辅助技术的兼容性以及错误处理等。通过URL聚类,可以识别出具有相似结构或功能的网页组,这些组可能共享类似的可访问性问题。从这些组中选择代表性样本,可以更有效地捕获整个网站的可访问性状况,而无需评估所有页面。 论文中可能涉及的技术和步骤可能包括: 1. **URL特征提取**:从URL中提取有意义的特征,如路径、参数、域名等,以帮助区分不同的网页类型。 2. **聚类算法**:应用聚类算法(如K-means、层次聚类或DBSCAN)将URL归入不同的类别,依据是它们的相似性或关联性。 3. **样本选择**:在每个聚类中选择一定数量的代表样本,确保样本的多样性以覆盖各种可能的可访问性问题。 4. **评估和验证**:对选定的样本执行全面的可访问性评估,使用国际标准(如WCAG 2.0)来检测和记录问题。 5. **结果泛化**:根据采样结果推断整个网站的可访问性水平,并提供改进建议。 这种方法对于大型网站的可访问性评估尤其有用,因为它能够降低成本并提高评估的效率。同时,它也为后续的自动化可访问性测试工具和策略提供了理论基础,有助于构建更加高效且准确的评估框架。