php 匹配2个标签或多个标签的余弦相似度 写个完整列子
时间: 2024-09-26 14:03:56 浏览: 36
在 PHP 中,如果你想要计算HTML标签的“余弦相似度”(通常用于文本内容相似度而非标签),你需要先提取标签的内容,然后再应用余弦相似度算法。这里假设你有一个包含HTML标签的字符串数组,我们可以使用DOMDocument来解析标签内容,然后计算两段文本的余弦相似度。以下是完整的例子:
```php
<?php
function cosine_similarity($doc1, $doc2) {
// 将文档内容转换为词袋模型
$vector1 = get_text_vector($doc1);
$vector2 = get_text_vector($doc2);
// 计算向量的长度
$length1 = sqrt(array_sum(array_map(function($v) {return pow($v, 2);}, $vector1)));
$length2 = sqrt(array_sum(array_map(function($v) {return pow($v, 2);}, $vector2)));
// 如果长度为0(空文档),直接返回0
if ($length1 == 0 || $length2 == 0) {
return 0;
}
// 计算点积
$dotProduct = array_sum(array_map(function($a, $b) {return $a * $b;}, $vector1, $vector2));
// 计算余弦相似度
return $dotProduct / ($length1 * $length2);
}
function get_text_vector($html) {
$dom = new DOMDocument();
@$dom->loadHTML($html); // 解析HTML
$tags_to_extract = ['p', 'span']; // 需要提取的标签列表
$text_nodes = [];
// 获取指定标签的内容
foreach ($tags_to_extract as $tag) {
$xpath = '//'.$tag.'/*[not(self::script | self::style)]';
foreach ($dom->getElementsByTagName($tag) as $node) {
$text_nodes[] = trim($node->nodeValue);
}
}
// 转换为词频数组
$vector = array_count_values(array_map('strtolower', $text_nodes));
return $vector;
}
// 示例
$html1 = '<div><p>这是一个测试</p><span>另一个测试段落</span></div>';
$html2 = '<div><p>这是另一个测试</p><span>同样的测试内容</span></div>';
$similarity = cosine_similarity($html1, $html2);
echo "两段HTML的余弦相似度:$similarity\n";
?>
```
这个示例会计算两个HTML片段中指定标签(如`<p>`和`<span>`)内容的余弦相似度。注意这只是一个简化版本,实际应用中你可能需要处理更复杂的场景,比如清洗HTML、分词、停用词过滤等。
阅读全文