第17卷第2期
2012年4月
哈尔滨理工大学学报
JOURNAL
0F
HARBIN
UNIVERSITY
0F
SCIENCE
AND
TECHNOLOGY
V01.17
No.2
Apr.2012
基于合并因子的多种格式文件索引技术
孙广路1’2,
易成岐2,
郎
非3
(I.清华大学信息技术研究院,北京100084;
2.哈尔滨理工大学计算机科学与技术学院信息安全与智能技术研究中心,黑龙江哈尔滨150080;
3.哈尔滨理工大学外国语学院,黑龙江哈尔滨150080)
摘要:为了改进传统的文本检索技术存在检索文件格式种类单一,索引大数据量文件速度
慢,甚至造成内存溢出等问题,基于Lucene系统及相关技术,研究了基于合并因子的多种格式文件
索引技术。并在此基础上构建了中文文本信息检索系统.实验分析表明,本系统有效地实现了多种
格式文件检索功能,通过合并因子的设定有效提高了索引速度,系统可靠性高.
关键词:文本检索;合并因子;多种格式文件索引
中图分类号:TM391.3
文献标志码:A
文章编号:1007—2683(2012)02一000l一04
MuItipIe
FOrmats
F¨e
Indexing
TechnOIOgy
Based
On
Merging
FactOr
S(,,v
Guo昭.m1一,
W吼e昭.gi2,
“ⅣG凡矿
(1
R¥earch
ln乱iIute
of
Infomlation
and
Techn0109y,Tsin#1ua
uⅢve璐i‘y,Beii“g
100084,china;
2
Research
Center
of
Inf0硼ation
Secudty
and
IntcIli舻nt
Techn0109y,School“Computer
Science
and
Technology
Harbin
U
nive商ty
uf
Science
and
TechnoIogy,Harbin
150080,CHn8;
3
school
of
ForeigIl
La“gLlages,Harbin
universioy
0f
science
811d
Technology,Hafbin
15(J080,China)
Abstract:Traditional
file
indexing
technology
has
many
problems,such
as
sinde
f0瑚ats
of
file,low
speed
of
indexing
a
mass
of
da协and
documents,and
even
out
of
memory.
To
tackle
the
above
problems,t}lis
paper
propo—
ses
the
multiple
fo珊ats
nle
indexing
techn0109y
based
on
merging
factor.
Furthemore,the
Chinese
text
iI怕肿atIon
retrieval
system
is
built
based
on
the
impmVement
of
t}le
Lucene
system.
Experimental
results
show
that
the
system
e“毛ctively
Iealizes
Ihe
fhnction
of
the删ltiple
fo册ats
file
indexing
wi
Ch
high
reliability.The
speed
of
indexing
is
improved
by【he
set
of
merging
f.ac£ors.
Key
words:Lext
retrieval;nlerging
faL-tor;multjple
fo丌nats
file
indexing.
0
引
言
随着互联网技术的快速发展,网络的大信息量、
多用户、复杂需求带来了很多急需研究和解决的问
题,从浩瀚的信息海洋中快速、有效地获取所需要的
信息就是其中一个重要的问题.信息检索技术的出
现在很大程度上解决了这个问题,是比较有效的网
络信息获取方法….目前国内外对于信息检索技术
的研究发展非常迅速,也逐渐形成了多分枝、多用途
的发展方向.互联网检索技术已经从提供无序低价
值信息向提供高质高价值信息方向的转变口1.传统
的信息检索系统如果不加以改进会引发各种各样的
问题,例如检索文件类型单一、索引大数据量文件速
收稿日期:201】一】1—09
基金项目:国家自然科学基金(60903083);黑龙江省自然科学基金(F200936);教育部人文社科项目(1lYJc7400)
作者简介:孙广路(1979),男,博士,教授,E·m砌:guanglu.“n@gmail.c一;
易成岐(1985一),男,博士研究生.
万方数据