2020美赛C题赛后总结之——文本预处理Pyhotn编程代码 - CSDN文库

65 浏览量更新于2023-05-04 评论 1 收藏 436KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

2020美赛美赛C题赛后总结之题赛后总结之——文本预处理文本预处理Pyhotn编程代码编程代码

1.背景介绍背景介绍

美赛C题涉及到文本处理之间的工作，笔者学艺不精，广为搜罗了很多代码加以完善改进，封装成一个个的函数，这些函数都很有针对性，主要应用于文本预处理包括，排序、分

词、获取语料库、去标点、统计词频、特征提取、词性还原、去停用词等。

2.任务分析任务分析

为了更好地了解代码，我们首先来认识一下数据集的格式。

文中涉及三个数据集microwave.tsv,hair_dryer.tsv, pacifier.tsv

表头都是一样的，以pacifier(奶嘴)为例。

我们要用到的有如下几列。

3.Pyhton代码代码

库引用库引用

#代码所涉及到的库(部分，其余为引用的将在后面引用)

import numpy as np

import pandas as pd

import re

from os import path

import matplotlib.pyplot as plt

import jieba

数据读取数据读取

读取数据，由于文件格式不是常见的csv，而且也不必读取全部的列，

因此笔者编写了一个新的函数，用于读取特定文件特定列的数据

def getData(filename,cols):

train=pd.read_csv(filename, sep=' ',header=0,usecols=cols)

return train

小写化并排序小写化并排序

如上图所示我们只需要对train的4-7列小写化并排序

def sortLow(train):

for i in range(3):

train.iloc[:,i+4]=train.iloc[:,i+4].str.lower()

train=train.sort_values(by=["vine",'verified_purchase'],ascending=False)

train=train.reindex(list(range(len(train))))#排序后索引会乱掉我们重置索引

return train

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

评论0

weixin_38672962

粉丝: 4
资源: 934

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈