没有合适的资源?快使用搜索试试~ 我知道了~
首页C#开源项目盘古分词的使用手册
盘古分词API解释和安装说明 文件说明 2 PanGuSegment 2 PanGu4Lucene 2 PanGu.dll 调用方法 2 初始化 2 分词 2 配置文件 PanGu.xml 7 高亮组件PanGu.HighLight.dll 调用方法 8 字典管理 8 Demo.exe 11 PanGu4Lucene 调用方法 12 创建索引 12 插入数据 12 对要搜索的词分词 13 搜索 13 PanGu4Lucene 示例 15 PanGu4Lucene 示例安装说明 15
资源详情
资源评论
资源推荐

盘古分词使用手册
文件说明..............................................................................................................................2
PanGuSegment.................................................................................................................2
PanGu4Lucene.................................................................................................................2
PanGu.dll 调用方法............................................................................................................2
初始化..............................................................................................................................2
分词..................................................................................................................................2
配置文件 PanGu.xml......................................................................................................7
高亮组件 PanGu.HighLight.dll 调用方法..........................................................................8
字典管理..............................................................................................................................8
Demo.exe...........................................................................................................................11
PanGu4Lucene 调用方法..................................................................................................12
创建索引........................................................................................................................12
插入数据........................................................................................................................12
对要搜索的词分词........................................................................................................13
搜索................................................................................................................................13
PanGu4Lucene 示例......................................................................................................15
PanGu4Lucene 示例安装说明......................................................................................15

文件说明
PanGuSegment
这个是盘古分词的组件包,包括
PanGu.dll 盘古分词的核心组件
DictManage.exe 字典管理工具
Demo.exe 分词演示程序
PanGu.HighLight.dll 高亮组件
PanGu4Lucene
这个是盘古分词针对 Lucene.net 提供的接口
PanGu.Lucene.Analyzer.dll 盘古分词针对 Lucene.net 的接口组件
PanGu.Lucene.ImportTool.exe 示例程序数据导入程序
PanGu.dll 调用方法
初始化
在进程启动时,我们需要对盘古分词进行初始化,初始化的调用代码如下:
PanGu.Segment.Init();
或
PanGu.Segment.Init(filename);
filename 为 pangu.xml 的完整路径名,如 “c:\pangu.xml”
分词
Segment segment = new Segment();
ICollection<WordInfo> words = segment.DoSegment(text);
或
ICollection<WordInfo> words = segment.DoSegment(text, options);
或
ICollection<WordInfo> words = segment.DoSegment(text, options, parameters);
其中
text 为需要分词的文本
options 为自定义分词选项,默认为 pangu.xml 中指定的分词选项
parameters 为分词参数,默认为 pangu.xml 中指定的分词参数
分词选项定义:

public class MatchOptions
{
/// <summary>
/// 中文人名识别
/// </summary>
public bool ChineseNameIdentify = false;
/// <summary>
/// 词频优先
/// </summary>
public bool FrequencyFirst = false;
/// <summary>
/// 多元分词
/// </summary>
public bool MultiDimensionality = true;
/// <summary>
/// 英文多元分词,这个开关,会将英文中的字母和数字分开。
/// </summary>
public bool EnglishMultiDimensionality = false;
/// <summary>
/// 过滤停用词
/// </summary>
public bool FilterStopWords = true;
/// <summary>
/// 忽略空格、回车、Tab
/// </summary>
public bool IgnoreSpace = true;
/// <summary>
/// 强制一元分词
/// </summary>
public bool ForceSingleWord = false;
/// <summary>
/// 繁体中文开关
/// </summary>
public bool TraditionalChineseEnabled = false;
/// <summary>
/// 同时输出简体和繁体
/// </summary>
public bool OutputSimplifiedTraditional = false;
/// <summary>
/// 未登录词识别
/// </summary>
public bool UnknownWordIdentify = true;
/// <summary>
/// 过滤英文,这个选项只有在过滤停用词选项生效时才有效
/// </summary>
public bool FilterEnglish = false;
/// <summary>
/// 过滤数字,这个选项只有在过滤停用词选项生效时才有效
/// </summary>
public bool FilterNumeric = false;
剩余14页未读,继续阅读














安全验证
文档复制为VIP权益,开通VIP直接复制

评论24