翻译以下内容,根据单词难度分为的三类,我们研究对应的单词属性。我们统计了三种属性在不同类别中的平均值,如图()可以明显看出,在简单模式下,对应的单词使用频率较高,重复单词数少,且重复字母之间的距离较小;在较困难模式下,对应单词的使用频率低,单词重复数比较多但是重复字母之间距离较大;在困难模式下,对应单词的使用频率低,单词重复数最多且重复字母之间距离较大。 我们对EERIE进行数据化属性拆分,dis、re、fre分别为2,3,6.649,输catboost分类模型,得到该词属于第三类。 四.(准确性说明)根据catboost算法得到的分类器对于测试集的准确率达到0.77,此外在第二问我们对EERIE单词进行7个比率预测,得到7个比率的分布与kmeans聚类得到的三类的中心点数据进行相关性检验,得到EERIE的分布比率和第三类的相关性系数最大,进一步验证了我们根据catboost算法对EERIE单词的分类是准确的。
时间: 2023-03-12 20:40:02 浏览: 75
difficulty:使用单词频率数据评估英语单词难度
根据我们研究的单词属性,对三种不同难度的单词的使用频率、重复单词数以及重复字母之间的距离进行了比较。而在使用Catboost算法对单词EERIE进行属性拆分和分类时,准确率达到了0.77,并且使用Kmeans聚类算法检验得到的EERIE单词的比率分布与第三类的中心点数据有最高的相关性,从而进一步证明了我们根据Catboost算法对EERIE单词的分类是准确的。
阅读全文