网络可读性模型：影响因素和提高方法

192 浏览量更新于2024-01-14 收藏 631KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

沙特国王大学学报仔细阅读可读性，重点是Web内容的可理解性Pawan Kumar Ojha，Abid Ismail，Kuppusamy Kundumani Srinivasan计算机科学系，工程与技术学院，本地治里大学，本地治里605014，印度阿提奇莱因福奥文章历史记录：2017年10月25日收到2018年1月29日修订2018年3月7日接受2018年3月21日在线提供保留字：易读性（E2R）可读性可理解性可读性模型可读性指数A B S T R A C T网络已经成为一种流行的和重要的媒体，从一个地方到另一个地方传输信息。为了使所有人都能获得信息，我们需要检查它们的可访问性和可读性得分。易读性是衡量信息在人们试图访问时是否成功地传达给大量人群的一个指标。这份调查报告分析了用于检查网站和网页可读性的流行可读性指标。现有的可读性度量方法在检验网站可读性时，大多只考虑了网页的文本特征，而没有考虑影响网站可读性的诸多因素。根据调查结果，我们提供了一些有用的建议，如果在开发可读性公式时考虑这些建议，结果将更加有效。©2018作者制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。内容1.介绍11.1.可读性研究21.2.研究目标22.传统可读性分析3.网页内容可读性预测44.为残疾人预测内容的可读性75.结论和讨论7参考文献91. 介绍如今，用户可以通过称为万维网（WWW）的网络的巨大节点来访问服务和信息。来自不同文化和语言背景的人们通过这种全球环境聚会，分享信息和服务，没有任何地理障碍。如果一个用户能够*通讯作者。电子邮件地址： pawanojhacs2@yahoo.in （ P.K.Ojha ）， kskuppusamy.pondiuni.edu.in（K. Kundumani Srinivasan）。沙特国王大学负责同行审查制作和主办：Elsevier没有任何障碍的信息，则接口和内容被视为可理解的。语言是交流的媒介。最好的语言应该尽可能地直截了当，简单明了。具有上述特征的语言的使用使界面的设计易于理解和浏览。这些属性使这样的网站具有包容性，并为资源带来大量用户。语篇材料中影响读者理解水平的所有因素的集合构成了阅读能力的组成部分。可读性是读者的教育和社会背景以及他/她的专业知识和学习动机的函数WCAG 2.0原则和易于阅读（E2R）指南提供了在创建网站内容时需要考虑的指南和建议。网络内容的技术方面包括可理解性、可读性、记忆性，这些都需要考虑到目标https://doi.org/10.1016/j.jksuci.2018.03.0071319-1578/©2018作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com2P.K. Ojha等人/Journal of King Saud University为残疾人士提供更多方便使用的网页内容。如果一个网页内容遵循WCAG 2.0指南，那么它可以被认为是可访问的。然后，使用简单的语言使信息对读者来说是可用的、可读的和可理解的。因此，基于简单语言、WCAG 2.0和易于阅读的指导方针的Web内容针对的是具有高度可理解性的一大群人。到目前为止，有各种评估方法用于评估文本和Web内容的可读性。使用这些评估方法的评估过程中一直是一个活跃的研究领域，因为低可读性直接影响网站的可理解性。1.1小节介绍了一些基于可读性工具的简要文献工作。本文的主要重点是分析各种可读性计算技术。与此同时，我们考虑了网络资源可读性的重要性，特别是当残疾人访问时。在这项研究中，我们制定了四个目标，用于分析，比较和识别可读性指标的属性，如第1.2所述。1.1. 可读性研究可读性分析是一个活跃的研究领域，其贡献来自各个维度（Miltsakaki，2007; Broda等人，2014; Begeny和Greene，2014;Biddinika等人， 2016年）。网页上提供的信息应该能够接触到更广泛的用户，易于阅读和理解是使网页普遍可访问的重要这些方面需要与技术可访问性方面一起考虑（Matausch等人，2014年）。“易读”网站的主要目标可读性是衡量文本复杂性的一个长期讨论的问题。尽管关于测量可读性的结论性和完全代表性的方案（其可以提供计算标准来评估文本的复杂性）仍然没有提出（Yasseri等人，2012年）。一种可读性评估方法，假设可读性是基于读者可以容易地理解文本结构来确定的，研究人员（Yamasaki和Tokiwa，2014）提出了一种使用机器学习方法评估可读性等级的方法。将潜在特质模型应用于在阅读实验中收集的变量的子集，以通过使用轻度智力残疾的人的自动可读性评估工具来预测阅读难度（Jansche等人，2010年）。对于有认知障碍的人来说，文本需要简化，因为文本对于认知障碍的人来说可能是复杂和难以阅读的研究人员（Lasecki等人，2015）提出了通过使用人群来测量文本的简单性。2500个crowd注释的使用表明，crowd可以有效地用于对文本的简单程度进行评级（Lasecki等人，2015年）。另一项研究的目标是开发一种基于网络的自动化系统，该系统可用于通过考虑理解书面和口头信息所面临的挑战来为智力残疾者简化文本（Huenerfauth等人，2009年）。研究人员进行了一项研究（Chung等人，2013年，聋人。聋人由于其手语的视觉取向，在理解基于文本的Web文档时面临很多困难。开发了一种系统（Chung等人，2013年），将复杂的句子转换为简单的句子，并以图形表示它们之间的关系（聋人），以增强Web文档的可读性。研究工作是由研究人员进行的，如（Ismailet al.，2019; Ismail和Kuppusamy，2016; Ojha等人，2018年）通过使用不同的可访问性和可读性评估工具对网站的可访问性，可读性和网站排名（Ismail等人，2017年）。他们还发现它们之间的相关性，以便将网站的可访问性，可读性和排名相互联系起来。另一项工作是通过使用不同的评估工具对印度大学主页的可读性和可访问性进行评估，作为测试现有英语可读性度量是否适用于其他语言的实验结果发现该方法不适用（Sinha和Basu，2014年）。在这项研究中，他们（Sinha和Basu，2014）使用了不同的机器学习方法，如回归，支持向量机（SVM）和支持向量回归（SVR）。由于可读性领域的巨大技术进步， Rebekah George Benjamin 提出了（ Benjamin ，2012）一篇综述，重点是对当前和未来研究的建议，因为几乎所有的教育领域都在开发预测文本难度的方法。提出了一种名为GUI Evaluator的基于度量的工具，用于基于结构测量评估用户界面的复杂性（Alemerien和Magel，2014）。评估了语言在获取信息中的作用，并表明语言可能是一种双重障碍。网站主机和链接-使用爬虫获得的数据和通过日志文件分析获得的网站用户的详细信息，结果与信息觅食理论和修订的层次模型相匹配（Kralisch和Mandl，2006）。一组协议建议并帮助专业人员在使用完全受损的视力人群评估界面时识别特征和问题，其目的是识别可用性问题（Ferreira等人，2012年）。界面的设计者应该能够通过设计过程中用户的参与来分析用户的需求（Ferreira等人， 2012年）。1.2. 研究目标语言在信息的传递中起着最重要的作用，因此，要使文本具有更好的可读性，就必须给予足够的重视本文的目标如下：1. 分析了现有的语言可读性评价方法。2. 介绍了可读性分析的工作流程，并对现有的可读性分析方法进行了比较分析3. 介绍现有的网页内容可读性方法4. 在计算网页内容的可读性分数时，加入网页的特定特征，以建议遗漏的连结2.传统可读性在我们的调查中，我们研究和分析的可读性模型和工具列表如表1所示。不同研究人员开发的模型旨在评估不同书面材料的可读性。我们分析了大多数公式都是根据美国的分级制度来估计分级水平的可读性。小学和中学的分级水平因地理位置和环境而异，这些公式在全球范围内的有效性问题尚未得到回答。Djoko公式，Fernandez Huerta指数，Kandal和Moles指数和Al-Heeti等级水平是研究人员开发的各种模型，分别用于预测印度尼西亚语文本，西班牙语文本，法语文本和阿拉伯语文本的可读性。为外语文本（英语除外）开发的公式证明与现有的阅读能力相关P.K. Ojha等人/Journal of King Saud University3WD2我表1传统的可读性方法。S.可读性公式推断的工具/模型基础否1Flesch Read-ing Ease ReadabilityFormula（1948）（英语：Flesch Read-ing Ease Readability Formula）2Dale-Chall可读性公式（Edgar Dale andJeanneChall，1948）3Flesch-Kincaid Grade LevelReadabilityFormula（Kincaid等人，1975）（Rudolf Flesch和John P. 03 The Dog（1976）402 The Fall of the Woman（1952）206.8 3-（1.015<$ASL，）-（84.6<$ASW，）是学校课本的准确测量方法之一。高分数，文本容易阅读，难度随着分数的降低而增加。评分范围为0 - 100。0.157 9<$（PDW，）+（0.0496<$ASL）受FRE的启发，考虑了困难的单词和句子长度来得出Dale-chall分数。在美国，低于4.9分的课文被认为是四年级学生容易理解的，而高于10分的课文被认为是大学毕业生容易理解的。(0.39<$ASL）+（11.8<$ ASW）-15.59 FRE的修改版本，分数表示年级在美国，理解文本内容所需的教育水平。0.4⁄（ASL+PHW）这个公式的来源是基于日报、杂志的研究，雾指数7-8的文本被认为是理想的，而12分以上的文本对大多数人来说太难了。5预测（Begeny 和Greene ，2014 ）（John SCylor ， Thomas G Sticht 和 JPatrickFord（1973））GL = 20-（n/10）读取年龄= 25-（n/10）岁#n =单音节单词的数量被认为是美国多项选择题相关文本材料的完美公式严禁用于评估小学年龄段的阅读材料。6Fry（Fry，1990）（Edward Fry（1968））基于图表绘制的每句100个单词与每100个单词的音节平均值。用于提供监管目的可读性的共识。分数可能在一个年级水平之内。7PSK（Powers-Sumner-Kear）ReadabilityFormula（Begeny和Greene，2014）（R D Powers，W A Sumner和B EKounge（1958））gl = 0.0778（ASL）+0.0455（ns）-2.2029ra = 0.0778（ASL）+0.0455（ns）+2.7971#ns =音节数，gl =年级，ra =阅读年龄。计算美国年级文本样本的最佳公式，最适合小学年龄段的儿童，建议不要用于10岁以上儿童的文本8自动可读性指数（Smith和Senter，1967）4.71<$ACW +0.5 <$AWS-21.43输出理解文本所需的近似等级，例如美国等级1对应于6至8岁的可理解性，等级12对应于17岁。它是基于字符和单词的计数9CLI（Meri Coleman和T.L.Liau）0.0588L-0.296S-15.8根据字符而不是音节来理解文本，这接近美国年级水平。一个年级水平10.6 10-11年级学生容易理解10BRI（约翰·R.硼）0.8865-（AWL< $0.036）+（AFW< $0.161911）-（ASL<$0.21401）-（ASL< $0.000577）-（ASL<$0.000005）为了计算熟悉的单词，BRI在文本样本中使用Dale-Chall单词列表（Dale和Chall，1948）它与新的Dale-Chall可读性公式非常接近，唯一的区别是，它依赖于字符数而不是音节数，并考虑平均熟悉单词而不是百分比困难单词。11LIX（Formula，2017）（Carl-HugoBjornsson 1968）Pr≤100ωW它是用于预测法语文本可读性的公式。20到25分的lix被认为是非常容易的，60分被认为是非常困难的。12Raygor估计图（Alton L. Raygor（1977年）13Djoko公式（Biddinika等人，2016）（D.Djoko Pranowo）基于平均句子数（Y轴）与平均字符数（X轴上超过6个）的关系图。JKT-4 =所有指标的得分总和。13个指标基于段落、单词和句子X-Y轴的交点代表坡率，如果交点在平行线内，则坡率有效，否则无效。等级在3到14之间。Djoko公式基于文本的13个指标（段落，单词和句子）来分类印度尼西亚语文本的可读性。标准范围是通过查看简单文本和硬文本之间的差异来完成的。14Pisarek指数（Broda 等人， 2014）P1 <$$>1ω ASL ω1ω PCW <$1它类似于基于平均长度的FOG 指数，3 3句子和复杂词的百分比。15Mistrik公式（加沃拉，2012）（约瑟夫Mistrik 1982）16费尔南德斯·韦尔塔指数（FernándezHuerta，1959）（1959）P2<$1ωpASL2PCW250-AsωAv206： 84- 10： 60ω p- 1： 02ω fp =音节f = 100个单词P1和P2是这个公式的两个不同版本，一个是线性的，另一个是非线性的。计算文本可读性需要三个参数。As =单词的平均长度（以音节数表示）Av =句子平均长度的语义难度I =单词仍然广泛使用的公式来计算西班牙语文本的可读性。这是一个FRE的适应。Huerta公式在其原始形式下不可扩展。17Kandal Moles Index（François andFairon，2012）（1958）18Al-Heeti Grade Level（Al Tamimi等人，2014年度）207-Lp =每句话的平均单词数Lm =每个单词AWLω 4： 414- 13： 468 Al-Heeti可读性公式得出一个分数，表明理解阿拉伯语文本的等级r19试验评价员（Napolitano，2015）（DianeNapolitano等人）基于句子结构，词汇难度，思想之间的联系和叙述程度的工具。一种能够分析任何书面文本的工具，提供文本可读性和复杂性的详细信息。（接下页）4P.K. Ojha等人/Journal of King Saud University表1（续）S.可读性公式推断的工具/模型基础否20SMOG（Begeny和Greene，2014）（GHarry McLaughlin，1969）3pPolysyllableCountSMOG预测值比Dale-Chall公式高两个等级它被认为是适合中学年龄。多音节数为1-6的文本21Spache（Begeny and Greene，2014）（G.03 The Dog（1953）Space0： 141ω ASL可读性公式 0： 086ω PDW可读性公式 0： 839 Space与Dale-Chall可读性公式相似，但适合高级文本（4级以上）22LexileFramework（Smith等人， 1989）基于语义单位（词频）和句法结构（句子长度）它是有限的连续散文，但与复杂性相关，而阅读理解，词汇得分正确预测一个人的理解能力。23TASA OpenStandard forReadability（ATOS）根据平均字数、平均句子字数、平均词汇等级和书长ATOS在其开发中使用了大量的学生阅读表现数据库，可用于非虚构文本内容的版本以及阅读恢复水平的转换比例。24Read-X（Miltsakaki，2007）基于句子数量，单词数量和字母，文本中长单词的数量。Read-X执行基于实时的Web文本可读性分析，执行Web搜索和按类别级别过滤，并按主题对结果进行分类。ASL）平均句子长度，ASW）每个单词的平均音节数，PDW）困难单词百分比，PHW）难词百分比，ACW）平均复杂单词，L）每100个单词的平均字母数，S）每100个单词的平均句子数，AFW）熟悉单词的平均数量，AWL）单词的平均长度，W）单词计数，Pr）句号计数，大写字母优先和冒号，D）超过6个字符的单词计数。人的能力（ Biddinika 等人， 2016; Fernández Huerta ，1959;François和Fairon，2012; Al Tamimi等人， 2014年），而英语语言工具的得分与预期不符。早期开发的大多数可读性公式考虑了单词、句子、音节和复杂单词的长度和数量等因素，这具有局限性，它们也可能导致无意义文本的良好可读性得分。直到20世纪80年代以后，才出现了Lexie框架、ATOS、Read-X、Coh-Rank和新的Dale-Chall可读性公式等工具，这些工具从认知结构要素、语义单位和句法结构复杂性等方面来评估可读性。Lexie框架是文本水平化的流行方法，在20世纪80年代开发的文本在设计上很复杂。Lexie阅读框架（Stenner，1996）是检查正确回答理解问题能力的独特资源。在这个框架中，除了读者评分外，还生成了文本的词汇评分如果读者对文本有准确的匹配分数，则读者有能力正确回答理解问题。它根据实际评估而不是一般的年龄或年级水平来评估阅读能力。阅读理解能力的高低取决于所用语义单位的熟悉程度和句法结构的复杂程度。它包括作为语义变量的词频的测量和作为句法特征复杂性的代理的句子长度。复兴学习公司和 Touchstone Applied Science Associates（TASA）Inc.利用阅读评价数据库和大量图书建立了两个公式图书易读性的ATOS公式和文本易读性的ATOS公式。单词和句子的长度以及单词的年级水平是两个公式所基于的传统变量，影响书籍难度的一个因素是书籍的长度，需要考虑书籍的公式。图书匹配过程公式的开发考虑了早期开发的公式的弱点（Benjamin，2012年）。确定了以下改进领域。1. 可读性公式的语义方面的基础是通过扩大词汇库来更新的。2. 不同类型的文本需要扩大，这一过程将是适当的。3. 需要考虑作出可能的调整，以解决案文中特殊词语的重复为了指导学生选择合适的水平书籍，ATOS可读性公式是一个经过研究验证的工具，ATOS被认为是文本复杂性的最重要的预测因子，并被证实是有效和可靠的文本复杂性度量。Read-X是一个网络搜索应用程序，用于在互联网上评估和定位潜在的阅读材料。该应用程序搜索用户在网络上提供的文本或关键字，它从网页中提取文本，不含HTML代码，并使用流行的可读性公式分析其可读性。它根据主题内容对结果进行分类，并以可编辑的形式呈现主题分类结果和提取的文本（Benjamin，2012）。计算的凝聚力和连贯性指标的书面和口头文本的计算使用一个名为Coh-Meetings系统。衔接是用来衡量书面语篇对目标读者的难度的，这里的衔接是指语篇的特点，它在帮助读者在心理上把语篇中的思想联系起来方面起作用。Coh-Meidler使用计算语言学的组件，诸如词性分类器、句法分析器、词典和潜在语义分析（Graesser等人， 2004年）。表2列出了我们称之为属性的因素，我们在研究中遇到的可读性公式用于预测可读性得分或等级。根据公式中使用的不同术语，我们将结果发现，21个公式中有17个考虑了句子长度，14个考虑了单词数，7个考虑了音节数，以获得可读性分数或等级水平。我们发现，与句子长度、单词和音节相比，不熟悉的单词、字符数、熟悉的单词、词频、容易的单词等属性并不是决定可读性的重要因素。3.网页内容可读性预测Web内容来自各种来源，有各种方法来检查其可理解性，这是一种常见的技术，可以支持跨多种语言的作者工具由Nietzio et al.（2014）提出。通过询问读者的反馈，可以获得测试理解能力的现实结果，但这种方法对Web内容来说是不切实际的一P.K. Ojha等人/Journal of King Saud University5表2可读性公式的属性。属性[1][二]《中国日报》[3]第一章[4]美国[五]《中国日报》[6]美国[七]《中国日报》[八]《中国日报》[9]第一章[10个国家][第十一届][12个][13个国家][14个][第十五条][16个][17个][18个国家][19个][20个][21]句子U U U U U U × U U U U ×U U U U U U × × U U U U U U U U音节话U×U×U×U ×U×U U UUU× U×U× U U U× U U U U不熟悉的单词×U× × × × × × ×U× × × × × × ×多音节字数× × ×× × × × × × × ×× × × × × × × ×复合词×××U×××××××××××UU××××字符数×××××U××××UU×U×××××××期数××××××××××××U××××××××熟悉的话× × × × × × × × × ×U× × × × × × ×句子数，三个100字段落× × × × × × × × × ×× × × × × ×× × × × × ×单音节词× × × × × × × ×U× × × × × × × ×每100个单词× × × × × × × × × × × × ×U× × × × × ×词频××××××××××××××××××××U简单的话×××××××××××××××U×××××段落 ××× × × × ×U× × ×× × × U× × × × × ×注：工具[1]） FRE，[2]） Dale-Chall可读性，[3]） FKGL [4]） Gunning Fog Index，[5]） SMOG，[6]） ARI，[7]） FRY，[8]） Forcast，[9]） PSK，[10]） SPACHE，[11]） CLI，[12]） BRI，[13]）LI×，[14]） Raygor Estimate Graph，[15]） Djoko Formula，[16]） New Fog Count，[17]） Pisarek可读性的定量评估方法是可读性指数，它根据单词、句子和音节的长度和数量来量化文本的难度。主要的问题是已经开发了许多可读性公式，并为各种上下文创建了索引，但没有一个适合应用于Web内容。可读性指数有很多局限性，即它们是为标准文本开发的，而在编写E2R（易于阅读）文本时，句子变得更长，单词更多，并被可读性指数归类为困难。可读性指数仅限于在开发Web内容时使用，并且仅用于测试目的。为了处理限制，需要考虑句子的结构，并通过应用风格和语法检查器来实现。可读性预测有很多方法可以预测标准文本的可读性，但由于其非传统的性质，其具有高度多样性，因此预测Web内容的可读性变得具有挑战性非传统性质是由博客、评论、搜索引擎结果、在线广告和本也可能包含图像、音频、视频等丰富的布局元素组成。用元数据对现有网页进行标注，估计其可读性，是解决问题的一种方法，可以找到一种更好的方法来搜索内容（如果存在）。各种新的和令人惊讶的应用程序已经发展，因为标签元数据与网页包含可读性估计以及基本网络搜索的实用程序的好处（柯林斯-汤普森，2014年）。Web搜索引擎作为人们获取信息的主要途径之一，在其设计过程中，开发人员并没有过多关注可读性。Gyllstrom和Moens（2010）提出的年龄排名算法，旨在为Web文档提供二进制标记，根据儿童和成人来分配网页，使用walk算法进行推断 Walk 算法是受 Google 提出的网页重要性评估算法PageRank算法的启发而提出的。为了给页面贴上标签，WebRank方法使用了诸如页面颜色、字体大小和其他附加来源等特征，当与网络图、词汇和非词汇特征相结合时，超文本表示的优点以及机器学习算法为估计可读性提供了良好的基础（Collins-Thompson，2014）。a使用统计语言建模开发的可读性方法：最近的研究侧重于提高网络文件的可读性，结果是，噪音归因于标题的可用性、标点符号和侧边栏菜单中的错误。当使用传统公式分析Web文档时，它们的表现非常差，并且当引入新的可能性时，统计语言的进步出现了（Collins-Thompson和Callan，2005）。支持向量机（SVM）和统计语言模型（SLM）是计算机科学和统计模型发展的产物，它们的出现SLM技术是基于单词或单词出现在语言模型中的概率，对于特定阶段的某个年级水平，而SVM帮助我们识别语法特征和三年级文本中常见的模式，这两者都开发了一个年级水平的文本模型，并确定文本生成的可能性，它属于哪个模型。2004-05 为了开发用于网络和传统文本的高质量公式，研究人员发现，语法特征集对于网络文本具有混合结果，并且将SLM添加到语法特征适度地提高性能（Callan，2007），并且当使用上下文无关的语法分析器扩展语法特征时，单独的特征在预测网络文本方面表现良好（Heilman等人，2008年）。通过使用机器方法来确定用户的阅读水平类别以及分析Web文本的难度，SVM方法在典型的搜索引擎查询中工作良好（Liu et al.， 2004年）。由于在线阅读正在成为各种学习者的通用工具，因此Online-Boost算法可以用于改善阅读理解，其中Online-Boost是可以打包处理可读性更新和阅读理解评估的算法（La等人， 2015年），进行的实验表明，使用该算法提出的方法有助于提高学习者的理解。6P.K. Ojha等人/Journal of King Saud UniversityXP¼PI¼12K¼1/1I1b认知理论和阅读能力方法进步的相关性：在1970-80年，当解释人类存储和信息检索的理论出现时，研究文本处理的研究人员（Benjamin，2012）发现，在文本中，在经典/传统模型中考虑的因素在可读性方面的贡献因素不如连贯性和相关性那么大，文本元素之间的关系确实有助于可读性。因此，研究者们开始对文本进行难度分析，其中认知科学的进步所产生的理论也被认为是一个重要因素，并由此发展出多种方法和变量。比如说：命题和推理模型（Kintsch和Van Dijk，1978），原型理论（Rosch等人，2004）、潜在语义分析（Landauer等人，1998）、语义网络（Foltz等人，1998）是使用诸如读者的认知方面、衔接和组织等被称为高级参数的参数的方法。本文使用一个名为Coh-Meidler的系统计算了书面语篇和口语语篇的计算衔接和连贯度量. Coh-Meidler是用来衡量书面语篇对目标受众的难度的一种方法，这里的衔接手段是指语篇的特征，它对语篇中的思想起着重要作用通过帮助读者在脑海中连接文本中的思想。Coh-Meetings使用计算语言学的组件，如词性分类器，句法分析器，词汇和潜在语义分析等等。Delite软件预测文本的难度，词汇特征，表面措施，即考虑了文档的统计数据，与一般词汇有关的措施即用于测量文本难度的常见词汇特征将数字、停用词和常用词在文档中的比例作为词汇特征。医学词汇相关的措施，特别是适应在科学领域被用作词汇和形态特征。发现（Palotti等人， 2016年），结合检索功能与可读性功能，提高搜索引擎的结果。GUI Evaluator（Alemerien和Magel，2014），一种基于信息复杂性的结构测量（如对齐、分组、大小、密度和平衡）来测量图形用户界面复杂性的工具该方法可以量化网页的图形特征，并在预测可读性的同时考虑图形的影响以下是GUI评估器的属性：i. 对齐：有两个级别的测量，即称为局部对齐的组级别和称为全局对齐的屏幕级别，用于测量对象的垂直和水平对齐总比对复杂度（TAC）由等式（1）给出其中，权重1是分组对象的数量与屏幕上对象的总数的比率，权重2表示未分组对象的数量与屏幕上对象的总数的比率。TAC<$ACω重量1<$SAω重量 2在哪里;PNVpHp参数，如形态，词汇，句法，语义和话语。为了分析德语文本，一个专门的句法-SA¼I12N;Mð1Þ使用语义分析器（vor der Brück等人，2008年）。为了规范化参数值，它采用了机器学习算法，提高了性能。Delite预测软件与用户预测的相关性更高，AC/ACPKVpHp传统公式，它充当认知驱动的方法和统计语言建模方法之间的桥梁（Benjamin，2012）。文本网页内容的代表性方面，即网站的词汇质量，可以用来衡量文本网页的可访问性（Rello，2012）。文本中单词的质量程度，如拼写错误，错别字等，广义上称为词汇质量，与网站的可读性程度有关（Cooper et al.， 2010年）。许多研究者对网页可读性的预测进行了积极的研究，旨在改进早期用于估计网页可读性的可读性公式。文章（Si和Callan，2001年）提出了一个统计模型来预测网页的可读性，所提出的模型组合，ii. 平衡：对象的数量和大小用于平衡指标，总平衡复杂度（TBC）的计算方法如等式所示。（2）对于屏幕的每个四分之一，其中BQni和BQnj变量表示第i个和第j个四分之一中的对象的数量。BQn变量的总值在[0，1]范围内（其中0表示不平衡，1表示在对象数量方面完全平衡）。类似地，BQsi和BQsj分别表示第i个和第j个四分之一中的对象的大小之和，BQsi和BQsj的比值在[0，1]之间变化的范围和BQs的总体值是[0，1]。TBC1- 10： 5ωBQn 10： 5ωBQs在哪里;P6BQni¼用统计模型描述文本的可读性特征的模型考虑内容信息以及语言特征，的文本，并得出结论，语言模型是一个重要的因素相比，句子长度，以确定BQnk¼1BQnj66BQsi1BQsj6ð2Þ网页的可读性提出了一种方法（Yamasaki和Tokiwa，2014），使用文本特征和HTML结构来评估Web文档的可读性。文本特征是从组成Web文档的文本串中提取的，特征涉及统计和句法人物信息HTML功能包括信息iii. 密度：密度复杂度（DC）计算时考虑W1W1（组的面积与屏幕的面积的比率）和W2（未分组的面积与屏幕面积的它通过计算第j组的局部密度（LDj）和全局密度（GD）来测量对象的屏幕占用. Pn LDj！嵌入在Web浏览器中的信息，如标题、段落、字体、字符大小和行间距。向量用于表示使用机器学习分类的文档-直流电在哪里;第1页nωW1ωW2分类后的Web文档被用作学习数据。研究人员（Palotti等人，2016年）建议对健康网页进行相关性排名，并衡量理解能力，BER可读性措施被利用，并使用可读性来改善搜索引擎结果为了衡量句法和GD¼联系我们ungrouped objects对象的大小kk1未分组的面积;Pgrouped objects对象i在组jJ组面积ð3ÞGAi¼P.K. Ojha等人/Journal of King Saud University7¼Niv. 大小：对象大小的复杂性使用以下大小度量标准在两个级别上进行度量P NSJ¼为了识别由于语法和认知特征造成的阅读困难，发现了对残疾人阅读能力的负面影响（Abedi等人， 2012年）。表面文本/视觉特征，如长单词、字体、单词长度和SCkj¼1NPWiSCk权重kð4Þ间距是影响水稻产量的重要因素SCk<$1ω-100WiN是第k种类型的对象数，Sj是不同大小的对象数即，如果不计算对象大小，则Sj的值为1，如果计算对象大小，则Sj的值为0。v. 测量：使用测量工具测量具有清晰边界的物体的数量，包括线条、颜色、背景、大小或空间。公司简介残疾人和非残疾人之间的自然力量（Collins-Thompson，2014）。Relloet al.（2012）对患有阅读障碍的读者进行了类似的研究。自动化可读性评估工具被开发出来，并对智力残疾的读者进行评估，并探索了认知动机特征的使用，例如，每句话提到的实体数量（Feng等人，2009），残疾学习者的可读性可以通过使用技巧来简化和概括文本来提高。一套协助开发人员识别视障人士GGC¼Mω重量ð5ÞFerreira等人（2012）提出了类似的方案，开发用于分析和提高具有特殊功能的人的可读性，UG1-Pi1NGW其中GW表示被分组的对象，并且Eq. (12)计算所有组中不同对象类型的数量（G）与对象总数（M）的比率，分组对象与屏幕上对象总数的比率由权重表示vi. 整体屏幕布局复杂度（LC）如下所示LC<$ABCDE=5ω 100在哪里;A¼TACωw1;在设计过程中满足他们的需求。由于视障人士接触图形被认为是一个困难领域，进行了一项研究，该研究集中于理解视障学生在访问网站上的图形时所面临的挑战（Butler等人，2016年）。本文的研究结果将有助于开发人员在开发Web内容时。5. 结论与讨论本文主要介绍了可读性指标和基于工具的研究BTBCωw2;CDCωw3;DSCωw4;EGTωw 5ð6Þ综述了在网络内容的可理解性领域中使用和发表的主要研究成果。这些可读性公式和工具是为了衡量传统文本的复杂性而开发的。但是，在衡量网页可读性时，需要分析的因素很多，比如相对于网页的可读性，其中，w1、w2、w3、w4、w5表示复数的各个权重它们的值分别为0.84、0.76、0.80、0.72和0.88。开发了一个应用程序来收集数据，最初，参与者被解释如何评价设计因素，然后要求他们提供背景信息，最后要求他们评价用户界面设计，并在上面讨论了五个设计因素来衡量复杂性。本文的第3节讨论了在预测网页内容可读性方面的我们评估了19篇不同的文章，如表3所示，以了解哪种可读性工具/模型主要用于预测各种可读材料的可读性。 Flesch Reading Ease和Flesch-KincaidGrade level模型主要用于预测文本或书面材料的可读性（近42%，与其他公式相比非常高）。在所研究的文章中（19篇中有8篇几乎占42%），文章旨在研究Web和Web相关内容的可读性，我们发现用于预测传统文本可读性的工具用于预测Web上文本的可读性。由于这些工具的易用性，这些公式适用于预测可读性，但我们不能依赖于网站和网页的可读性取决于这些传统公式在计算可读性分数时没有考虑的许多因素而4. 残疾人阅读内容的可读性预测在我们的调查中，没有发现大量的问题讨论文本的可理解性为不同的残疾人。很多研究已经做了，以提高可读性为正常人。当对阅读项目的经典可读性特征进行检查时，同一页面的元数据之间的关系，分析不同领域和网页的阅读水平分布差异。这些模型不考虑知识或用户然而，读者不得不面对许多新的内容，如博客，维基，和其他网络内容，网络互动，特别是教育设置发挥着重要作用。因此，已经发展起来的可读性方法和公式仍然没有关注这些内容对可读性的影响。近年来发展起来的基于认知负荷和语言统计的方法，或多或少地依赖于传统的公式，只考虑传统的可读性内容。2014年，K. Collins-Thompson对文本可读性进行了计算评估，这表明未来的可读性研究需要以用户为中心，数据驱动和基于知识（Collins-Thompson，2014）。新的可读性公式的出现旨在克服过去的弱点。此外，通过使用自然语言处理，统计方法和其他计算

下载后可阅读完整内容，剩余1页未读，立即下载