Python实现文本识别特征提取

需积分: 41 168 浏览量更新于2024-09-08 1 收藏 5KB TXT 举报

"该资源是一个Python脚本，用于进行文本识别中的特征提取，特别是针对电子邮件数据集（如Enron数据集）中的英文文本。它读取每个文本文件，计算其中的‘From:’行，统计非字母数字字符、单词数量、句子长度等特征，并将结果写入Excel工作表。" 在文本识别和处理中，特征提取是关键步骤，它有助于机器学习模型理解文本的结构和内容。在这个Python代码中，特征提取主要关注以下几个方面： 1. **文件读取与预处理**：代码首先打开并读取一系列的文本文件（假设为Enron数据集中的邮件），对每一封邮件进行处理。它跳过了不包含'From:'的行，因为这些行可能是邮件头的一部分，不包含正文内容。 2. **统计'From:'行**：`splitLine`函数用于分割每封邮件的发件人信息，将'From:'后的部分保留并去除换行符。 3. **特征计算**： - **句子计数（lines_count）**：遍历文件中的每一行，增加计数器。 - **字符计数（chars_count）**：计算每行的字符数，累加到总字符数。 - **非字母数字字符计数**：通过正则表达式`re.findall(r'[^a-zA-Z0-9]+', line)`找出所有非字母数字字符，这有助于了解文本中特殊字符的使用情况。 - **短句子检测**：如果一行长度小于等于2，认为可能是短句或标点符号，增加duan_count。 - **单词计数**：去除非字母数字字符后，进一步分割单词并统计每个单词的出现次数，存储在`words_dict`中。 - **单词字数统计（en_count）**：计算每个单词的长度，了解单词平均长度。 4. **结果输出**：将计算得到的特征（如空的发件人信息、句子数、单词数、总行数等）写入Excel工作表的不同单元格中，便于后续分析和建模。 5. **效率优化**：使用`file.seek(0)`重置文件指针，避免重复读取文件，提高效率。这个脚本对于文本挖掘和分析，尤其是邮件数据的预处理非常有用。它可以作为构建文本分类、情感分析或垃圾邮件检测模型的基础，通过提取的特征来训练模型以理解文本内容。此外，由于代码仅处理英文文本，如果要处理多语言文本，可能需要扩展以支持其他字符集和分词规则。

# _*_ coding:utf-8 _*_
import re
import xlwt
import xlrd
import string

w=xlwt.Workbook()
sheet = w.add_sheet("wordCount")#Excel单元格名字
for j in range (0,1703):
words_dict = {}
lines_list = []
mydict = {}
lines_count = 0
words_count = 0
chars_count = 0
en_count = 0
duan_count = 1
myNum="%s" % j
myStr="enron/"+myNum+".txt"
with open (myStr) as file:
contents = file.read()
file.seek(0)
for line in file.readlines():
if 'From:' not in line:
continue
splitLine = line.split('From:')
mydict[splitLine[0]] = splitLine[1].replace('\n','')
file.seek(0)
for line in file:
lines_count = lines_count+1

下载后可阅读完整内容，剩余4页未读，立即下载

vr299

粉丝: 0
资源: 1

Python实现文本识别特征提取

VC环境下的人脸识别特征提取代码分享

"2021-10_UCAS-AI模式识别特征提取与选择

信息增益法在文本特征提取及分类中的应用

用于场景文本识别特征提取的网络有哪些，各有什么特点

SR.zip_噪声特征向量_文本特征提取_语音特征向量_说话人识别_说话人识别 SR

基于 Spark 框架的文本主题特征提取与分类

文本特征提取常见方法

维吾尔文Bigram文本特征提取

提取出weka格式的文本特征提取java源码

MATLAB实现LPCC语音识别特征提取方法

最新资源