使用【python】写【文本相似度分析】的代码八位数码管可调节显示时间
时间: 2024-12-12 13:26:56 浏览: 1
Python实现简单的文本相似度分析操作详解
5星 · 资源好评率100%
在 Python 中,文本相似度分析通常使用自然语言处理(NLP)库,比如 NLTK、spaCy 或者 Gensim 的 Word2Vec 或 Doc2Vec。这里我们以简单的方式展示如何使用 `nltk` 库计算两个字符串之间的相似度,比如比较两个日期是否相近:
```python
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer
from sklearn.feature_extraction.text import TfidfVectorizer
# 定义文本相似度函数
def text_similarity(text1, text2):
# 预处理文本
stop_words = set(stopwords.words('english'))
stemmer = PorterStemmer()
def preprocess(text):
words = word_tokenize(text.lower())
words = [stemmer.stem(word) for word in words if word not in stop_words]
return ' '.join(words)
preprocessed_text1 = preprocess(text1)
preprocessed_text2 = preprocess(text2)
# 创建 TF-IDF 向量
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform([preprocessed_text1, preprocessed_text2])
# 计算余弦相似度
similarity = cosine_similarity(vectors)[0][1]
return similarity
# 比较两个日期(假设是字符串)
date_format = "%Y-%m-%d" # 格式化日期
time1 = "2023-05-01"
time2 = "2023-06-01"
similarity = text_similarity(time1, time2)
print(f"两个日期的相似度是: {similarity}")
阅读全文