Python SVM分类：参数详解与调用接口

需积分: 33 13 浏览量更新于2024-07-26 1 收藏 591KB PDF 举报

在Python中的支持向量机（SVM）分类中，参数优化是一项关键任务，因为它直接影响模型的性能。Tmsvm是一个基于SVM的文本挖掘系统，由作者张知临开发，版本1.1.0，最后一次更新于2012年3月8日。该系统提供了丰富的接口和功能，包括模型训练、预测、特征选择、参数调整等。第1章介绍了系统的概述，强调了它的主要特征如高效处理文本数据，以及系统能解决的问题，如文本分类和信息过滤。用户指南涵盖了程序文件的说明和调用方法，包括通过编程接口（如train.py和auto_train.py）进行模型训练，以及命令行工具的使用。模型文件的管理也是重要内容，包括SVM模型的构建和保存。第2章详细讲解了程序调用接口，包括输入和输出格式，如何训练SVM模型（包括libsvm和liblinear），以及模型预测。此外，还介绍了特征选择、SVM参数搜索、LSA（Latent Semantic Analysis，隐语义分析）模型的训练和预测，以及一些实用工具如结果分析和参数选择工具。参数选择是关键环节，涉及到C、gamma等SVM的核心参数，以及可能的网格搜索方法。通过优化这些参数，可以提升模型的泛化能力和准确性。SVM参数训练部分涉及模型训练流程，包括预处理（如分词）、特征构造，以及如何处理重复样本对模型的影响。第3章深入探讨了技术细节，如LSA用于提取文本的潜在语义表示，特征选择策略，以及不同多分类策略（如libsvm和liblinear）。模型的输出结果解释，以及训练和测试的完整流程，都是理解系统工作原理的重要组成部分。重复样本处理这一部分显示了对复杂问题的考虑。第4章源码剖析展示了如何将文本转化为SVM可处理的输入格式，以及Libsvm和Liblinear之间的区别。这部分对于开发者理解和定制系统有着重要意义。 Tmsvm是一个强大的文本分类工具，提供了丰富的参数配置选项和实用功能，适合处理大规模文本数据，并通过细致的文档和示例，帮助用户优化模型性能，适应各种实际应用场景。理解并掌握这些参数和流程，是使用Python SVM进行有效文本分类的关键。

程序调用接口

2.1

使用前必看

1. 将源代码下载下来就可以直接使用几乎所有的操作。

2. 如果想进一步使用 LSA 模型，需要安装 scipy 与 numpy。

2.2

输入格式及程序输出：

一般的输入格式为：

label value1 [value2]

其中 label 是定义的类标签，如果是 binary classification，建议 positive 样

本为 1，negative 样本为-1。如果为 multi-classification。label 可以是任意

的整数。

其中 value 为文本内容，可以分好词也可以没有分词。

label 和 value 以及 value1 和 value2 之间需要用特殊字符进行分割，

如”\t”。

程序输出：

模型结果会放在指定保存路径下的“model”文件夹中，里面有 3 个文

件，默认情况下为 dic.key 、 tms.model 和 tms.config 。其中 dic.key 为

特征选择后的词典；tms.model 为训练好的 SVM 分类模型, tms.config 为

模型的配置文件，里面记录了模型训练时使用的参数。临时文件会放在

“temp”文件夹中。里面有两个文件：tms.param 和 tms.train。其中

tms.param 为 SVM 模型参数选择时所实验的参数。tms.train 是供 libsvm

和 liblinear 训练器所使用的输入格式。

2.3

在程序中直接使用

tms.py 是模型的主程序，通过调用 tms 可以进行模型训练、模型预测、结果

分析。还可以进行分词、特征选择、SVM 参数选择、SVM 模型训练等等。

注意如果要再 IDLE 中直接使用，需要把该系统路径放入到 Python 搜索路径

中去。

2.3.1

训练

SVM

模型

1. 程序介绍

训练的自动化程序，分词

先进行特征选择，重新定义词典，根据新的词典，自动选择

SVM

最优的参数。

然后使用最优的参数进行

SVM

分类，最后生成训练后的模型。

2. 调用方法

import tms

tms.tms_train(filename,options)

3. 结果文件

模型文件（词典

.key+

模型

.model+

模型配置

.config

）和

临时文件（

svm

分类数据

文件

.train

和参数选择文件

.param

）

4. 参数选择

必须参数：

1) filename

训练文本所在的文件名

可选参数：

1) indexes

需要训练的指标项

，默认为

[1]

2) main_save_path

模型保存的路径

默认为

"../"

3) stopword_filename

停用词的名称以及路径

;

默认不适用停用词

4) svm_type :svm

类型：

libsvm

或

liblinear

。默认为

"libsvm"

5) svm_param

用户自己设定的

svm

的参数

这个要区分

libsvm

与

liblinear

参

数的限制。默认

" "

6) config_name:

模型配置文件的名称，默认为

"tms.config"

7) dic_name

用户自定义词典名称

;

默认

“dic.key”

8) model_name

用户自定义模型名称

;

默认

"svm.model"

9) train_name

用户自定义训练样本名称

；默认

“svm.train”

10) param_name

用户自定义参数文件名称

；默认

"svm.param"

11) ratio

特征选择保留词的比例

；默认

0.4

12) delete

对于所有特征值为

的样本是否删除

,True or False

，默认：

True

13) str_splitTag

分词所用的分割符号

，默认

"^"

14) tc_splitTag

训练样本中各个字段分割所用的符号

，默认

"\t"

15) seg

分词的选择：

为不进行分词；

为使用

mmseg

分词；

为使用

aliws

分词，

默认为

16) param_select ;

是否进行

SVM

模型参数的搜索。

True

即为使用

SVM

模型

grid.

搜索，

False

即为不使用参数搜索。默认为

True

17) local_fun

：即对特征向量计算特征权重时需要设定的计算方式

:x(i,j) =

local(i,j)*global(i).

可选的有

tf,binary,logtf

。默认为

"tf"

18) global_fun :

全局权重的计算方式：有

"one","idf","rf","chi" ,

默认为

"one"

2.3.2

模型预测

1. 程序介绍

模型预测程序

输入需要预测的文件，以及模型的配置文件，既可利用已经训练好的模型

对文件进行预测。

2. 调用方法

import tms

tms. tms_predict(filename,config_file,options)

剩余42页未读，继续阅读

u010257825

粉丝: 0
资源: 1

Python SVM分类：参数详解与调用接口

基于Python实现了SVM的代码

PSO_SVM.zip

保定学院大二机器学习期末作业 SVM 核技巧调参参数全部配置好了

SVM.zip_Python 分类 SVM_accordinglrk_python SVM 分类_svm python_svm

python实现svm多维参数训练

python的svm分类器

Python实现SVM分类器算法

CNN-SVM_SVMCNN_SVM特征提取_SVM_python_SVM分类

svm.rar_python 的SVM_svm python_svm python实现_svm算法

CNN-SVM_SVMCNN_SVM特征提取_SVM_python_SVM分类.zip

最新资源