JAVA英文文本词频统计代码怎么写
时间: 2024-04-16 11:08:47 浏览: 11
以下是一个简单的Java英文文本词频统计代码示例:
```
import java.util.*;
public class WordFrequencyCounter {
public static void main(String[] args) {
// 定义要处理的文本字符串
String text = "Java is a popular programming language, created in 1995. It is owned by Oracle, and more than 3 billion devices run Java worldwide.";
// 定义要排除的单词列表
List<String> excludeWords = Arrays.asList("is", "in", "it", "and", "more", "than", "run");
// 将文本字符串转换为单词数组
String[] words = text.toLowerCase().split("[^a-zA-Z]+");
// 创建一个Map来存储每个单词的出现次数
Map<String, Integer> frequencies = new HashMap<>();
// 统计每个单词的出现次数
for (String word : words) {
if (!excludeWords.contains(word)) {
Integer count = frequencies.get(word);
frequencies.put(word, (count == null) ? 1 : count + 1);
}
}
// 打印每个单词的出现次数
for (Map.Entry<String, Integer> entry : frequencies.entrySet()) {
System.out.println(entry.getKey() + ": " + entry.getValue());
}
}
}
```
这段代码将文本字符串转换为单词数组,排除了要忽略的单词,然后统计每个单词的出现次数,并将结果打印出来。注意,这里使用了Java中的Map类来存储每个单词的出现次数。如果需要处理更大的文本文件,可能需要使用更高效的数据结构或算法来提高性能。