根据stringr::words数据,统计每个单词的长度,按照其长度的中位数分为“短单词” 和“长单词”两类,然后统计出每个单词的元音个数,以及元音比例(=元音个数/单词 长度),将上述生成的数据保存为 word_type。该数据
时间: 2024-03-08 08:48:16 浏览: 82
统计各种单词数
可以通过以下R代码生成:
```
library(stringr)
# 读取数据
data("words", package = "stringr")
# 计算单词长度和元音个数
word_type <- data.frame(word = words)
word_type$length <- nchar(word_type$word)
word_type$vowels <- str_count(word_type$word, "[aeiou]")
# 按照中位数分为“短单词”和“长单词”
med_len <- median(word_type$length)
word_type$type <- ifelse(word_type$length <= med_len, "短单词", "长单词")
# 计算元音比例
word_type$vowel_ratio <- word_type$vowels / word_type$length
# 输出结果
head(word_type)
```
这段代码会将stringr包中自带的words数据读入,并计算每个单词的长度和元音个数。接着,根据单词长度的中位数将单词分为“短单词”和“长单词”两类。最后,计算每个单词的元音比例,并将所有数据保存在word_type数据框中。
阅读全文