Python数据挖掘实战：解决作者归属问题

版权申诉

171 浏览量更新于2024-06-26 收藏 1.48MB PDF 举报

"Python数据挖掘项目开发实战，专注于作者归属问题的解决，通过结合编程案例进行解析和实例详解。本书将应用数据挖掘方法，如交叉检验、特征抽取和分类算法，来解决从一组作者中识别文档作者的问题。内容涵盖了特征工程、词袋模型、字符N元语法模型、支持向量机以及数据集清洗等关键步骤。作者分析不仅限于文学作品，还广泛应用于社交媒体账号身份验证、文献鉴定等领域。" 在Python数据挖掘项目中，作者归属问题是一个重要的实践领域，其目标是通过分析文本内容来识别作者的身份。这一任务涉及到对文本的深入理解和特定的统计分析，包括年龄、性别等个人特征的推测。作者归属问题是一种分类任务，通常采用数据挖掘技术来解决，例如使用交叉验证确保模型的稳健性，提取文本特征以反映作者的独特风格，以及应用各种分类算法进行预测。特征工程在作者归属问题中起着核心作用，选择合适的特征至关重要。本章将探讨如何根据具体问题选取特征，如功能词（停用词）和N元语法（n-grams）。功能词是语言中常见但不携带太多信息的词汇，而N元语法则考虑了词序信息，能捕捉到连续单词序列的模式，这对于识别作者风格非常有用。词袋模型（Bag-of-Words Model）是文本表示的经典方法，用于将文本转换为数值向量，便于机器学习算法处理。在解决新问题时，我们需要重新审视这一模型，看它如何适应作者归属任务的特殊需求。特征类型包括基于字符的N元语法模型，这种模型关注文本的字符级别特征，对于处理拼写错误和非标准书写更有优势。支持向量机（SVM）是一种强大的分类工具，常用于文本分类任务，它的能力在于找到最优超平面以最大化类别间隔。在实际应用中，数据集的预处理，尤其是清洗环节，是确保模型性能的关键步骤。清洗可能涉及去除噪声，如标点符号、数字，甚至是无关的HTML标签，以确保模型只关注与作者风格相关的文本内容。作者分析的应用不仅限于文学作品的作者鉴定，还广泛应用于现代场景，如社交媒体账号的归属确认，以及历史文献的作者考证。例如，通过分析社交媒体上的发帖风格，可以判断一个账户是否由同一个人控制，这对于打击网络欺诈和保护用户隐私具有重要意义。 "Python数据挖掘项目开发实战"中的作者归属问题章节将带领读者全面了解并实践数据挖掘技术在文本分析领域的应用，通过具体的编程案例，提升对文本特征的理解和分类模型的运用能力。

148 第9 章作者归属问题

用得多一点。这样的不同点，再加上成千上万个其他的微小差别，就形成了用于作者分析的模型。

9.2.1 统计功能词

我们可以使用第6章所用到的CountVectorizer统计功能词。我们把包含所有要查找的单词

的词汇表（vocabulary）传递进去，如果没有传词汇表（第6章就没有），它会从数据集中学习。

所有单词都在训练集中（取决于其他参数）。

首先，创建功能词词汇表，用列表存储。至于确切来说哪些是功能词，哪些不是，有待商榷。

我从已发表的研究成果中找到下面这些功能词，它们还是比较可靠的。

function_words = ["a", "able", "aboard", "about", "above", "absent",

"according" , "accordingly", "across", "after", "against",

"ahead", "albeit", "all", "along", "alongside", "although",

"am", "amid", "amidst", "among", "amongst", "amount", "an",

"and", "another", "anti", "any", "anybody", "anyone",

"anything", "are", "around", "as", "aside", "astraddle",

"astride", "at", "away", "bar", "barring", "be", "because",

"been", "before", "behind", "being", "below", "beneath",

"beside", "besides", "better", "between", "beyond", "bit",

"both", "but", "by", "can", "certain", "circa", "close",

"concerning", "consequently", "considering", "could",

"couple", "dare", "deal", "despite", "down", "due", "during",

"each", "eight", "eighth", "either", "enough", "every",

"everybody", "everyone", "everything", "except", "excepting",

"excluding", "failing", "few", "fewer", "fifth", "first",

"five", "following", "for", "four", "fourth", "from", "front",

"given", "good", "great", "had", "half", "have", "he",

"heaps", "hence", "her", "hers", "herself", "him", "himself",

"his", "however", "i", "if", "in", "including", "inside",

"instead", "into", "is", "it", "its", "itself", "keeping",

"lack", "less", "like", "little", "loads", "lots", "majority",

"many", "masses", "may", "me", "might", "mine", "minority",

"minus", "more", "most", "much", "must", "my", "myself",

"near", "need", "neither", "nevertheless", "next", "nine",

"ninth", "no", "nobody", "none", "nor", "nothing",

"notwithstanding", "number", "numbers", "of", "off", "on",

"once", "one", "onto", "opposite", "or", "other", "ought",

"our", "ours", "ourselves", "out", "outside", "over", "part",

"past", "pending", "per", "pertaining", "place", "plenty",

"plethora", "plus", "quantities", "quantity", "quarter",

"regarding", "remainder", "respecting", "rest", "round",

"save", "saving", "second", "seven", "seventh", "several",

"shall", "she", "should", "similar", "since", "six", "sixth",

"so", "some", "somebody", "someone", "something", "spite",

"such", "ten", "tenth", "than", "thanks", "that", "the",

"their", "theirs", "them", "themselves", "then", "thence",

"therefore", "these", "they", "third", "this", "those",

"though", "three", "through", "throughout", "thru", "thus",

"till", "time", "to", "tons", "top", "toward", "towards",

9.2 功能词 149

"two", "under", "underneath", "unless", "unlike", "until",

"unto", "up", "upon", "us", "used", "various", "versus",

"via", "view", "wanting", "was", "we", "were", "what",

"whatever", "when", "whenever", "where", "whereas",

"wherever", "whether", "which", "whichever", "while",

"whilst", "who", "whoever", "whole", "whom", "whomever",

"whose", "will", "with", "within", "without", "would", "yet",

"you", "your", "yours", "yourself", "yourselves"]

既然有了功能词列表，我们就来创建功能词统计工具。后面，会把它加到流水线中。

from sklearn.feature_extraction.text import CountVectorizer

extractor = CountVectorizer(vocabulary=function_words)

9.2.2 用功能词进行分类

接下来，导入所需的几个类，唯一的新内容支持向量机在下节会讲（现在把它看作是标准的

分类算法即可）。导入用支持向量机算法进行分类的

SVC类，以及其他一些我们用过的标准工作

流工具。

from sklearn.svm import SVC

from sklearn.cross_validation import cross_val_score

from sklearn.pipeline import Pipeline

from sklearn import grid_search

支持向量机接收一系列参数。现阶段照我设置的参数来就行，下节再深入探讨参数值选择。

我们用字典结构来组织参数。参数

kernel使用linear和rbf。C的值取1或10（参数说明请见下

节）。接着用网络搜索法寻找最优参数值。

parameters = {'kernel':('linear', 'rbf'), 'C':[1, 10]}

svr = SVC()

grid = grid_search.GridSearchCV(svr, parameters)

高斯内核（例如

rbf）只适用于数据集相对较小的情况，比如特征数少于

10 000。

接着，创建流水线，把特征抽取和参数搜索两个步骤加入到流水线中，特征（仅功能词）抽

取使用

CountVectorizer类，参数搜索使用SVM。代码如下：

pipeline1 = Pipeline([('feature_extraction', extractor),

('clf', grid)

])

然后，使用cross_val_score对该流水线的结果进行交叉检验，正确率为0.811，大约80%

的预测结果正确。对于只有7个作者来说，这个结果很好！

剩余38页未读，继续阅读

好知识传播者

粉丝: 1687

Python数据挖掘实战：解决作者归属问题

python金融数据分析与挖掘实战_[套装书]Python数据分析与挖掘实战（第2版）+Python金融大数据挖掘与分析全流程详解+Python金融数据分析（3册）...

python项目开发实战 陈强pdf

python项目开发实战pdf 陈强

pythonflask项目实战_flask 项目开发实战

python数据分析与挖掘实战资源

python数据分析案例简单实战项目

python 不执行__init__

python实战案例pdf下载

推荐一个Python数据挖掘课程设计

python的**self.__dict__)

最新资源

python项目开发实战陈强pdf

python 不执行init

python的**self.dict)