java 大文本去重_JAVA 如何实现大文本去除重复行
时间: 2024-01-16 08:05:22 浏览: 108
删除文本重复行
在Java中实现大文本去重可以采用以下步骤:
1. 读取文本文件,使用BufferedReader按行读取文本文件内容,将每行内容存储在HashSet集合中。
2. 利用HashSet的特性,去重并保存文本内容。
3. 将去重后的文本内容写入新文件中。
以下是示例代码:
```java
import java.io.*;
import java.util.*;
public class RemoveDuplicateLines {
public static void main(String[] args) {
try {
String inputFile = "input.txt";
String outputFile = "output.txt";
BufferedReader reader = new BufferedReader(new FileReader(inputFile));
Set<String> lines = new HashSet<String>();
String line;
while ((line = reader.readLine()) != null) {
lines.add(line);
}
reader.close();
BufferedWriter writer = new BufferedWriter(new FileWriter(outputFile));
for (String unique : lines) {
writer.write(unique);
writer.newLine();
}
writer.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
```
在上述代码中,我们使用BufferedReader按行读取文本文件内容,将每行内容存储在HashSet集合中。利用HashSet的特性,可以去重并保存文本内容。最后将去重后的文本内容写入新文件中。
阅读全文