张配天的数据科学作业：LSI与文本处理

需积分: 0 87 浏览量更新于2024-08-05 收藏 271KB PDF 举报

"这是一份关于数据科学导论的作业，作者张配天在Jupyter Notebook上使用Python进行文本处理。文件中涉及了LSI（Latent Semantic Indexing）技术，以及如何使用`set`函数、`simple_preprocess`、`defaultdict`等工具对文本数据进行预处理。此外，还讨论了去除特殊符号的重要性，并展示了读取文档和构建文档列表的过程。" 在数据科学领域，预处理文本数据是至关重要的步骤，因为它能有效地清理和标准化数据，以便后续的分析和建模。在这个案例中，作者张配天使用了以下几种方法： 1. **`set`函数**：在Python中，`set`是一种无序且不包含重复元素的数据结构。在处理文本时，可以用来快速创建一个不重复的词汇集，这对于统计词汇频率或去除重复文档非常有用。 2. **`simple_preprocess`**：这是来自`gensim`库的一个函数，它能够将输入的字符串转换为小写并分割成单词列表。同时，通过设置`deacc=True`，可以去除标点符号，这对于文本清洗很有帮助。在英文文本中，`simple_preprocess`还可以统一词性，例如将复数形式和过去式转换为其基本形式。 3. **`defaultdict`**：这是Python `collections`模块中的一个类，它扩展了内置的`dict`类型，允许在尝试访问不存在的键时返回一个默认值，而不是抛出`KeyError`。在处理大量文本数据时，这可以帮助简化代码，尤其是在构建词汇表或词频统计时。 4. **去除特殊符号**：在处理文本时，去除特殊符号是常见的操作，因为它们可能干扰文本分析。例如，标点符号通常不包含语义信息，而且可能会在分词过程中导致错误。在作者的代码中，有一个名为`remove_symbol`的函数，它使用`simple_preprocess`去除特殊字符。 5. **读取文档**：作者使用`open`函数读取文本文件，并通过`for`循环逐行处理，构建了一个文档列表。这是处理多文档数据集的常见做法。 6. **停用词列表**：停用词是指在文本中频繁出现但通常不携带太多含义的词，如“a”，“is”，“的”等。作者创建了一个停用词列表，用于过滤掉这些词，以减少噪音并提高分析的有效性。 7. **LSI（潜在语义索引）**：虽然在提供的代码片段中没有直接实现LSI，但在描述中提到使用LSI，这是一种主题模型，用于发现文本中隐藏的主题结构。LSI通过降维技术（如奇异值分解SVD）将高维词频矩阵转换为低维空间，从而捕捉词汇之间的潜在关系。这个作业展示了数据科学实践中的一些基础步骤，包括文本预处理、词汇表构建以及可能的文本分析技术应用。通过这些步骤，作者准备对数据进行深入分析，如主题建模、情感分析或其他文本挖掘任务。

2020/5/10 2018202180_张配天 - Jupyter Notebook

localhost:8889/notebooks/Documents/数据科学导论/homeworks/2018202180_张配天.ipynb 1/4

文本附加试验1

张配天 2018202180

使用LSI

set函数构造不重复的iterable集合,split()默认以空格为分隔符

使用simple_preprocess处理数据,其会自动将字符串统一为小写,并且转化为列表,设置deacc=Ture来去除特

殊符号

英文还可以用simple_preprocess来统一不同词性的相同单词

defaultdict给字典设置缺省值

不

去

除

符

号

的

坏

影

响

代

码

啥

的

都

在

下

一

页

下载后可阅读完整内容，剩余3页未读，立即下载

亚赛大人

粉丝: 33
资源: 332

张配天的数据科学作业：LSI与文本处理

作业6-2018202180-张配天1

2018202180_张配天_编译作业21

作业1-2018202180-张配天1

作业8-2018202180-张配天1

作业5-2018202180-张配天1

作业2-2018202180-张配天1

作业9-2018202180-张配天1

作业3-2018202180-张配天1

作业4-2018202180-张配天1

作业7-2018202180-张配天1

最新资源