s1_cut = [i for i in jieba.cut(ss1, cut_all=True) if (i not in stopwords) and i != '']在这串代码中,如何对标点符号、括号、空格进行过滤分词
时间: 2023-11-28 17:47:27 浏览: 31
在这个代码中,只有停用词被过滤了。如果你想过滤标点符号、括号和空格,你可以修改代码如下:
```
import jieba
# 停用词列表
stopwords = ['的', '了', '呢', ...]
# 待分词的字符串
ss1 = '这是一个测试字符串,(Hello, World!)'
# 进行分词并过滤停用词、标点符号、括号和空格
s1_cut = [i for i in jieba.cut(ss1) if (i not in stopwords) and i != ' ' and i.strip() != '' and i.isalnum()]
```
在上面的代码中,我们使用了 `isalnum()` 函数来判断分词是否只包含字母或数字,以过滤掉标点符号和括号。同时,我们也过滤了空格和空字符串。
相关问题
import pandas as pd import math import jieba # 定义函数计算余弦相似度 def compute_xsd(ss1,ss2): stopwords = [] s1_cut = [i for i in jieba.cut(ss1, cut_all=True) if (i not in stopwords) and i != ' '] s2_cut = [i for i in jieba.cut(ss2, cut_all=True) if (i not in stopwords) and i != ' '] word_set = set(s1_cut).union(set(s2_cut)) word_dict = dict() i = 0 for word in word_set: word_dict[word] = i i += 1 s1_cut_code = [0] * len(word_dict) for word in s1_cut: s1_cut_code[word_dict[word]] += 1 s2_cut_code = [0] * len(word_dict) for word in s2_cut: s2_cut_code[word_dict[word]] += 1 sum = 0 sq1 = 0 sq2 = 0 for i in range(len(s1_cut_code)): sum += s1_cut_code[i] * s2_cut_code[i] sq1 += pow(s1_cut_code[i], 2) sq2 += pow(s2_cut_code[i], 2) try: result = round(float(sum) / (math.sqrt(sq1) * math.sqrt(sq2)), 3) except ZeroDivisionError: result = 0.0 return result # 定义两篇文章 text1 = '我喜欢打篮球' text2 = '篮球是我的爱好' # 定义空的DataFrame df_sim = pd.DataFrame(columns=['text1', 'text2', 'similarity']) # 计算两篇文章的相似度并存储到DataFrame中 for i in range(len(text1)): for j in range(len(text2)): sim = compute_xsd(text1[i], text2[j]) df_sim.loc[len(df_sim)] = [text1[i], text2[j], sim] # 输出DataFrame print(df_sim)以上代码,怎么计算出三个两篇文章三个相似度
这段代码是计算两篇文章的相似度,并将结果存储在一个DataFrame中。由于这里只有两篇文章,因此在循环中只需要进行一次计算,即计算text1和text2两个字符串的相似度。代码中的df_sim.loc[len(df_sim)] = [text1[i], text2[j], sim]是将计算结果存储在DataFrame中,其中text1[i]和text2[j]分别表示两篇文章,sim表示它们的相似度。由于只有一次计算,因此DataFrame中只有一行数据,其相似度就是存储在该行的'similarity'列中的值。你可以通过以下代码查看相似度的值:
```
print(df_sim['similarity'][0])
```
其中0表示第一行数据的索引,即唯一的一行数据。
import jieba import math import re from collections import Counter # 读入两个txt文件存入s1,s2字符串中 s1 = open('1.txt', 'r').read() s2 = open('2.txt', 'r').read() # 利用jieba分词与停用词表,将词分好并保存到向量中 stopwords = [] fstop = open('stopwords.txt', 'r', encoding='utf-8') for eachWord in fstop: eachWord = re.sub("\n", "", eachWord) stopwords.append(eachWord) fstop.close() s1_cut = [i for i in jieba.cut(s1, cut_all=True) if (i not in stopwords) and i != ''] s2_cut = [i for i in jieba.cut(s2, cut_all=True) if (i not in stopwords) and i != ''] # 使用TF-IDF算法调整词频向量中每个词的权重 def get_tf_idf(word, cut_list, cut_code_list, doc_num): tf = cut_list.count(word) df = sum(1 for cut_code in cut_code_list if word in cut_code) idf = math.log(doc_num / df) return tf * idf word_set = list(set(s1_cut).union(set(s2_cut))) doc_num = 2 # 计算TF-IDF值并保存到向量中 s1_cut_tfidf = [get_tf_idf(word, s1_cut, [s1_cut, s2_cut], doc_num) for word in word_set] s2_cut_tfidf = [get_tf_idf(word, s2_cut, [s1_cut, s2_cut], doc_num) for word in word_set] # 获取TF-IDF值最高的前k个词 k = 10 s1_cut_topk = [word_set[i] for i in sorted(range(len(s1_cut_tfidf)), key=lambda x: s1_cut_tfidf[x], reverse=True)[:k]] s2_cut_topk = [word_set[i] for i in sorted(range(len(s2_cut_tfidf)), key=lambda x: s2_cut_tfidf[x], reverse=True)[:k]] # 使用前k个高频词的词频向量计算余弦相似度 s1_cut_code = [s1_cut.count(word) for word in s1_cut_topk] s2_cut_code = [s2_cut.count(word) for word in s2_cut_topk] sum = 0 sq1 = 0 sq2 = 0 for i in range(len(s1_cut_code)): sum += s1_cut_code[i] * s2_cut_code[i] sq1 += pow(s1_cut_code[i], 2) sq2 += pow(s2_cut_code[i], 2) try: result = round(float(sum) / (math.sqrt(sq1) * math.sqrt(sq2)), 3) except ZeroDivisionError: result = 0.0 print("\n余弦相似度为:%f" % result)
这段代码是Python的一些import语句。其中,jieba是一个中文分词库,用于对中文文本进行分词处理;math是Python的数学函数库,提供了许多常用的数学函数;re是Python的正则表达式库,用于对字符串进行匹配和处理;Counter是Python的计数器库,用于对一组数据进行计数处理。这些库的引入,可以帮助Python程序员更方便地对中文文本和数学数据进行处理和分析。