2020美赛美赛C题赛后总结之题赛后总结之——文本预处理文本预处理Pyhotn编程代码编程代码
1.背景介绍背景介绍
美赛C题涉及到文本处理之间的工作,笔者学艺不精,广为搜罗了很多代码加以完善改进,封装成一个个的函数,这些函数都很有针对性,主要应用于文本预处理包括,排序、分
词、获取语料库、去标点、统计词频、特征提取、词性还原、去停用词等。
2.任务分析任务分析
为了更好地了解代码,我们首先来认识一下数据集的格式。
文中涉及三个数据集microwave.tsv,hair_dryer.tsv, pacifier.tsv
表头都是一样的,以pacifier(奶嘴)为例。
我们要用到的有如下几列。
3.Pyhton代码代码
库引用库引用
#代码所涉及到的库(部分,其余为引用的将在后面引用)
import numpy as np
import pandas as pd
import re
from os import path
import matplotlib.pyplot as plt
import jieba
数据读取数据读取
读取数据,由于文件格式不是常见的csv,而且也不必读取全部的列,
因此笔者编写了一个新的函数,用于读取特定文件特定列的数据
def getData(filename,cols):
train=pd.read_csv(filename, sep=' ',header=0,usecols=cols)
return train
小写化并排序小写化并排序
如上图所示我们只需要对train的4-7列小写化并排序
def sortLow(train):
for i in range(3):
train.iloc[:,i+4]=train.iloc[:,i+4].str.lower()
train=train.sort_values(by=["vine",'verified_purchase'],ascending=False)
train=train.reindex(list(range(len(train))))#排序后索引会乱掉我们重置索引
return train
评论0