import jieba from sklearn.feature_extraction.text import TfidfVectorizer import numpy as np import pandas as pd # 读取停用词文件 def read_stopwords(file_path): with open(file_path, 'r', encoding='gbk') as f: stopwords = [line.strip() for line in f] return set(stopwords) # 中文分词 def chinese_word_cut(text, stopwords): words = jieba.cut(text) result = [] for word in words: if word not in stopwords: result.append(word) return " ".join(result) # 读取CSV文件 weibo_data = pd.read_csv('E:\Python自然语言处理\data\weibo_Convid19.csv', sep='\t') df = weibo_data['text_raw'] # 获取停用词集合 stopwords = read_stopwords('E:\Python自然语言处理\data\stopword.txt') # 对每条微博进行分词和去停用词 corpus_list = df.apply(lambda x: chinese_word_cut(x, stopwords)) # 提取关键词 corpus = ' '.join(corpus_list) tfidf = TfidfVectorizer() tf_key = tfidf.fit_transform([corpus]) word = tfidf.get_feature_names() weight = tf_key.toarray()[0] w_sort = np.argsort(-weight) print('Top 20 keywords:') for i in range(20): print(word[w_sort[i]])结果含有表情包,怎么去除

时间: 2024-03-11 17:46:57 浏览: 52
可以使用正则表达式来去除文本中的表情包,例如: ``` import re def remove_emoji(text): emoji_pattern = re.compile("[" u"\U0001F600-\U0001F64F" # emoticons u"\U0001F300-\U0001F5FF" # symbols & pictographs u"\U0001F680-\U0001F6FF" # transport & map symbols u"\U0001F1E0-\U0001F1FF" # flags (iOS) "]+", flags=re.UNICODE) return emoji_pattern.sub(r'', text) # 在 chinese_word_cut 函数中调用 remove_emoji 函数 def chinese_word_cut(text, stopwords): text = remove_emoji(text) words = jieba.cut(text) result = [] for word in words: if word not in stopwords: result.append(word) return " ".join(result) ``` 这样就可以在分词前去除文本中的表情包。

相关推荐

import pandas as pd import matplotlib import numpy as np import matplotlib.pyplot as plt import jieba as jb import re from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.feature_selection import chi2 import numpy as np from sklearn.model_selection import train_test_split from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from sklearn.naive_bayes import MultinomialNB def sigmoid(x): return 1 / (1 + np.exp(-x)) import numpy as np #定义删除除字母,数字,汉字以外的所有符号的函数 def remove_punctuation(line): line = str(line) if line.strip()=='': return '' rule = re.compile(u"[^a-zA-Z0-9\u4E00-\u9FA5]") line = rule.sub('',line) return line def stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()] return stopwords df = pd.read_csv('./online_shopping_10_cats/online_shopping_10_cats.csv') df=df[['cat','review']] df = df[pd.notnull(df['review'])] d = {'cat':df['cat'].value_counts().index, 'count': df['cat'].value_counts()} df_cat = pd.DataFrame(data=d).reset_index(drop=True) df['cat_id'] = df['cat'].factorize()[0] cat_id_df = df[['cat', 'cat_id']].drop_duplicates().sort_values('cat_id').reset_index(drop=True) cat_to_id = dict(cat_id_df.values) id_to_cat = dict(cat_id_df[['cat_id', 'cat']].values) #加载停用词 stopwords = stopwordslist("./online_shopping_10_cats/chineseStopWords.txt") #删除除字母,数字,汉字以外的所有符号 df['clean_review'] = df['review'].apply(remove_punctuation) #分词,并过滤停用词 df['cut_review'] = df['clean_review'].apply(lambda x: " ".join([w for w in list(jb.cut(x)) if w not in stopwords])) tfidf = TfidfVectorizer(norm='l2', ngram_range=(1, 2)) features = tfidf.fit_transform(df.cut_review) labels = df.cat_id X_train, X_test, y_train, y_test = train_test_split(df['cut_review'], df['cat_id'], random_state = 0) count_vect = CountVectorizer() X_train_counts = count_vect.fit_transform(X_train) tfidf_transformer = TfidfTransformer() X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts) 已经写好以上代码,请补全train和test函数

最新推荐

recommend-type

eclipse本地的jar包配置Junit环境

用于在eclipse中导入本地的jar包配置Junit环境,版本应该是JUnit4, 配置详情可参照我的博文:http://t.csdnimg.cn/GaqTZ
recommend-type

龙飞嵌入式POS餐饮应用方案介绍.doc

嵌入式
recommend-type

Struts 2.0 Java归档库文件包

Struts2.0是Java Web开发中非常重要的一个框架,它是Apache软件基金会的Jakarta项目下的一个产品。这个框架主要用于构建MVC(Model-View-Controller)架构的应用程序,为开发者提供了一种组织应用程序结构、处理HTTP请求以及展示数据的方式。在本压缩包中,包含的是一些Struts2.0的核心jar包、源代码和实例,这些内容对于学习和理解Struts2.0的工作原理和实际应用是非常有帮助的。 我们来详细解析一下Struts2.0的关键知识点: 1. **MVC模式**:Struts2.0基于MVC设计模式,它将应用程序的逻辑分为三个部分——模型(Model)、视图(View)和控制器(Controller)。模型负责业务逻辑,视图负责数据显示,控制器负责接收用户请求并调用相应的模型方法,更新视图。 2. **Action类**:在Struts2中,Action类是处理业务逻辑的核心组件。开发者需要创建Action类,并实现execute()方法,该方法会响应用户的请求,执行相应的业务操作。 3. **配置文件**:Struts2使用XML配
recommend-type

分拣设备_包括零件图_机械3D图可修改打包下载.zip

分拣设备_包括零件图_机械3D图可修改打包下载.zip
recommend-type

springcloud:Config配置中心demo源码案例演示

springcloud:Config配置中心demo源码案例演示
recommend-type

微机使用与维护:常见故障及解决方案

微机使用与维护是一本实用指南,针对在日常使用过程中可能遇到的各种电脑故障提供解决方案。本书主要关注的是计算机硬件和软件问题,涵盖了主板、显卡、声卡、硬盘、内存、光驱、鼠标、键盘、MODEM、打印机、显示器、刻录机、扫描仪等关键组件的故障诊断和处理。以下是部分章节的详细内容: 1. 主板故障是核心问题,开机无显示可能是BIOS损坏(如由CIH病毒引起),此时需检查硬盘数据并清空CMOS设置。此外,扩展槽或扩展卡的问题以及CPU频率设置不当也可能导致此问题。 2. 显卡和声卡故障涉及图像和音频输出,检查驱动程序更新、兼容性或硬件接触是否良好是关键。 3. 内存故障可能导致系统不稳定,可通过内存测试工具检测内存条是否有问题,并考虑更换或刷新BIOS中的内存参数。 4. 硬盘故障涉及数据丢失,包括检测硬盘坏道和备份数据。硬盘问题可能源于物理损伤、电路问题或操作系统问题。 5. 光驱、鼠标和键盘故障直接影响用户的输入输出,确保它们的连接稳定,驱动安装正确,定期清洁和维护。 6. MODEM故障会影响网络连接,检查线路连接、驱动更新或硬件替换可能解决问题。 7. 打印机故障涉及文档输出,检查打印队列、墨盒状态、驱动程序或硬件接口是否正常。 8. 显示器故障可能表现为画面异常、色彩失真或无显示,排查视频卡、信号线和显示器设置。 9. 刻录机和扫描仪故障,检查设备驱动、硬件兼容性和软件设置,必要时进行硬件测试。 10. 显示器抖动可能是刷新率设置不匹配或硬件问题,调整显示设置或检查硬件连接。 11. BIOS设置难题,需要理解基本的BIOS功能,正确配置以避免系统不稳定。 12. 电脑重启故障可能与硬件冲突、电源问题或驱动不兼容有关,逐一排查。 13. 解决CPU占用率过高问题涉及硬件性能优化和软件清理,如关闭不必要的后台进程和病毒扫描。 14. 硬盘坏道的发现与修复,使用专业工具检测,如有必要,可能需要更换硬盘。 15. 遇到恶意网页代码,了解如何手动清除病毒和使用安全软件防范。 16. 集成声卡故障多与驱动更新或兼容性问题有关,确保所有硬件驱动是最新的。 17. USB设备识别问题可能是驱动缺失或USB口问题,尝试重新安装驱动或更换USB端口。 18. 黑屏故障涉及到电源、显示器接口或显示驱动,检查这些环节。 19. Windows蓝屏代码分析,有助于快速定位硬件冲突或软件冲突的根本原因。 20. Windows错误代码大全,为用户提供常见错误的解决策略。 21. BIOS自检与开机故障问题的处理,理解自检流程,对症下药。 这本小册子旨在帮助用户理解电脑故障的基本原理,掌握实用的故障排除技巧,使他们在遇到问题时能更自信地进行诊断和维护,提高计算机使用的便利性和稳定性。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

表锁问题全解析,深度解读MySQL表锁问题及解决方案:解锁数据库并发难题

![表锁问题全解析,深度解读MySQL表锁问题及解决方案:解锁数据库并发难题](https://img-blog.csdnimg.cn/8b9f2412257a46adb75e5d43bbcc05bf.png) # 1. MySQL表锁概述 MySQL表锁是一种并发控制机制,用于管理对数据库表的并发访问。它通过在表级别获取锁来确保数据的一致性和完整性。表锁可以防止多个事务同时修改同一行数据,从而避免数据损坏和不一致。 表锁的类型和原理将在下一章中详细介绍。本章将重点介绍表锁的概述和基本概念,为后续章节的深入探讨奠定基础。 # 2. 表锁类型及原理 ### 2.1 共享锁和排他锁 表锁
recommend-type

PackagesNotFoundError: The following packages are not available from current channels: - tensorflow_gpu==2.6.0

`PackagesNotFoundError`通常发生在Python包管理器(如pip)试图安装指定版本的某个库(如tensorflow_gpu==2.6.0),但发现该特定版本在当前可用的软件仓库(channels)中找不到。这可能是由于以下几个原因: 1. 版本过旧或已被弃用:库的最新稳定版可能已经更新到更高版本,不再支持旧版本。你需要检查TensorFlow的官方网站或其他资源确认当前推荐的版本。 2. 包仓库的问题:有时第三方仓库可能未及时同步新版本,导致无法直接安装。你可以尝试切换到主仓库,比如PyPI(https://pypi.org/)。 3. 环境限制:如果你是在特定环境
recommend-type

ADS1.2集成开发环境详解:快速安装与实战教程

"ADS1.2使用手册详细介绍了ARM公司提供的集成开发环境,它作为一款强大的Windows界面开发工具,支持C和C++编程,特别适合于ARM处理器的开发工作。手册首先指导用户如何安装ADS1.2,从打开安装文件夹、接受许可协议,到选择安装路径、选择完整安装选项,再到一步步确认安装过程,确保有足够的硬盘空间。安装过程中还涉及了如何正确安装许可证,通过复制特定的CRACK文件夹中的LICENSE.DAT文件来激活软件。 在使用部分,手册强调了通过"开始"菜单或者直接在CodeWarrior for ARM Developer Suite v1.2中创建新工程的方法,提供了两种操作路径:一是通过工具栏的"New"按钮,二是通过"File"菜单的"New"选项。用户可以在此环境中编写、编译和调试代码,利用软件模拟仿真功能熟悉ARM指令系统,同时ADS1.2还与FFT-ICE协同工作,提供了实时调试跟踪功能,帮助工程师深入理解片内运行情况。 ADS1.2作为一个高效且易用的开发工具,对于开发ARM平台的项目来说,无论是初学者还是经验丰富的工程师,都能从中获得便利和高效的开发体验。其详尽的安装和使用指南确保了开发者能够顺利上手并充分利用其各项功能。"