# 处理后果分词字段,得到所有主体词和行为词的组合 combinations = [] for words in data1['后果分词']: # 处理后果分词,得到所有主体词和行为词的组合 a_words = [] b_words = [] if isinstance(words, str): words = words.replace(str(np.nan), '') else: words = '' for word in words.split(): if jieba.posseg.lcut(word)[0].flag == 'n': a_words.append(word) else: b_words.append(word) for a in a_words: for b in b_words: combinations.append([a, b]) combinations = list(set(combinations))
时间: 2024-02-14 22:12:37 浏览: 118
中文信息处理中的分词问题
这段代码的功能是将data1数据集中的“后果分词”字段进行处理,得到所有主体词和行为词的组合。
首先,对于“后果分词”字段中的每个字符串,将其转换为一个包含单词的列表。对于每个单词,使用jieba库进行词性标注,判断其是否为名词。如果是名词,则将其加入到a_words列表中;如果不是名词,则将其加入到b_words列表中。然后,对于a_words列表中的每个名词,以及b_words列表中的每个非名词,将它们组合成一个二元组,并将这些二元组添加到combinations列表中。最后使用set()函数将combinations列表去重。
注意,如果“后果分词”字段中的值不是字符串,而是缺失值(NaN),则需要将其转换为空字符串。
阅读全文