Cookbook》,这本书要深入一些,会涉及到 NLTK 的代码结构,同时会介绍如何定制自己的
语料和模型等,相当不错。
官方主页:http://www.nltk.org/
Github 代码页:https://github.com/nltk/nltk
2. Pattern
Pattern is a web mining module for the Python programming language.
It has tools for data mining (Google, Twitter and Wikipedia API, a web crawler, a HTML
DOM parser), natural language processing (part-of-speech taggers, n-gram search,
sentiment analysis, WordNet), machine learning (vector space model, clustering, SVM),
network analysis and canvas visualization.
Pattern 由比利时安特卫普大学 CLiPS 实验室出品,客观的说,Pattern 不仅仅是一套文本处
理工具,它更是一套 web 数据挖掘工具,囊括了数据抓取模块(包括 Google, Twitter, 维基
百科的 API,以及爬虫和 HTML 分析器),文本处理模块(词性标注,情感分析等),机器学
习模块(VSM, 聚类,SVM)以及可视化模块等,可以说,Pattern 的这一整套逻辑也是这篇文
章的组织逻辑,不过这里我们暂且把 Pattern 放到文本处理部分。我个人主要使用的是它的英
文处理模块 Pattern.en, 有很多很不错的文本处理功能,包括基础的 tokenize, 词性标注,句
子切分,语法检查,拼写纠错,情感分析,句法分析等,相当不错。
官方主页:http://www.clips.ua.ac.be/pattern
3. TextBlob: Simplified Text Processing