java算法余弦定律_JAVA实现余弦相似度算法
时间: 2023-08-05 21:38:37 浏览: 120
余弦定理是一种常用的文本相似度算法,可以用于计算两个文本之间的相似度,其原理是根据文本中词语的频率向量计算它们之间的夹角余弦值。以下是JAVA实现余弦相似度算法的代码:
```java
import java.util.HashMap;
import java.util.Map;
public class CosineSimilarity {
public static double cosineSimilarity(String text1, String text2) {
// 将文本转换为向量
Map<String, Integer> vector1 = toVector(text1);
Map<String, Integer> vector2 = toVector(text2);
// 计算相似度
double dotProduct = 0.0;
double magnitude1 = 0.0;
double magnitude2 = 0.0;
for (String term : vector1.keySet()) {
if (vector2.containsKey(term)) {
dotProduct += vector1.get(term) * vector2.get(term);
}
magnitude1 += Math.pow(vector1.get(term), 2);
}
for (String term : vector2.keySet()) {
magnitude2 += Math.pow(vector2.get(term), 2);
}
double magnitude = Math.sqrt(magnitude1) * Math.sqrt(magnitude2);
if (magnitude == 0) {
return 0.0;
}
return dotProduct / magnitude;
}
private static Map<String, Integer> toVector(String text) {
Map<String, Integer> vector = new HashMap<>();
String[] terms = text.split("\\s+");
for (String term : terms) {
if (vector.containsKey(term)) {
vector.put(term, vector.get(term) + 1);
} else {
vector.put(term, 1);
}
}
return vector;
}
public static void main(String[] args) {
String text1 = "This is a test";
String text2 = "This is a demo";
double similarity = cosineSimilarity(text1, text2);
System.out.println("相似度:" + similarity);
}
}
```
在上述代码中,toVector()方法将文本转换为向量,其中使用HashMap来存储每个词汇的词频。cosineSimilarity()方法计算两个文本向量的余弦相似度,其中使用了点积和向量的模长的概念。在main()方法中,我们传入两个文本并计算它们之间的相似度。
阅读全文