ISSN
1000-0054
清华大学学报(自然科学版)
2013
年第
53
卷第
2
期
21/25
259
264
CN
11-2223/N
J
Tsinghua
Univ
(Sci &
Tech),
2013,
Vol.
53,
No.
2
基于着色处理的维吾尔文手写文本行分割
艾斯卡尔·艾木都拉\
易晓芳,
卡米力·木依丁
(新植大学信息科学与工程学院,乌鲁木齐
830046)
摘
要:针对维吾尔文手写体文本中行分割问题,该文根据
维吾尔文字包含区分字母的诸多点笔画和附加部分的特点,
对文字主体笔画部分采用分段式前景涂抹算法,并将涂抹后
图像的前景部分进行细化运算,通过细化线条与原图像的叠
加、着色处理获取主体文本区域定位;然后通过重心辐射扫
描的方法,解决了剩余细小笔画的文本行归附问题。实验结
果表明
z
该文方法与常见的水平投影、分段式投影与基于涂
抹方法相比具有更好的行分割效果。
关键词:维吾尔文
z
手写体文本;行分割
F
细化;着色处理
中图分类号:
TP
391.
1
文献标志码:
A
文章编号:
1000
0054(2013)02-0259
06
Coloring
based
handwritten
Uyghur text
line detection
and
separation
algorithm
ASKAR Hamdulla,
YI
Xiaofang,
KAMIL
Moydin
(Institute
of
Information
Science
and
Engineering,
Xinjiang
University,
Urumqi
830046,
China)
Abstract:
The
characteristics
of
Uyghur
text
which
contains
a
large
number
of
points
and
additional
parts
was
taken
into
consideration
to
deal
with
the
issues
of
text
lines
segmentation
in
Uyghur
handwritten
documents.
Localization
of
main
text
lines
was
realized
using
the
algorithm
of
piecewise
foreground
smearing
followed
by
the
foreground
thinning
operations,
the
overlapping
of
thinning
lines
with
original
images,
and
coloring
process.
The
center
of
gravity
radiation
scanning
method
was
developed
to solve
the
belonging
prob
\巳
ms
for
remaining
small
strokes
Experimental
results
show
that
compared
with
the
horizontal
projection
based,
piecewise
projection
based,
smearing
based
segmentation
methods,
the
proposed
method
has
better
text
line
segmentation
results
Key
words:
Uyghur;
handwritten documents; text line segmentation;
thinning;
coloring
process
文本行分害。是指将一个文档中的图像分割成不
同的实体,离线手写体字符识别系统的整体性能强
烈依赖于文本行分割的结果。文本行分割的好坏将
直接影响到后续分词的准确性、文字识别以及笔记
鉴别工作。因此,需要有一个最佳的文本行分割方
法。虽然在打印文档,文本行分割是一个相当简单
的过程,然而在于写文件的情况下,却存在着→些挑
战。例如倾斜角度不同的文本行,包括在同一文本
行有不同的倾斜角度、相邻文本行存在字重叠及行
接触,甚至在维吾尔文中诸多的细小连体笔画归属
问题也直接关系到后续工作的进行。虽然有许多研
究人员努力解决于写文字在线检测的问题,但是他
们没有考虑上述诸多问题。例如,依靠投影的文本
行检测方法[!]对存在宇重叠或倾斜的文字变得不适
用;局部或者是分段式投影算法在文[叫中有应用,
然而这类方法存在过多的分割行,每个条纹的宽度
是预设的,并且在细小连体笔画分割上会发生错误;
歪曲倾斜的手写体文本行分割在基于涂抹算法的文
献[
4-5
]中进行了研究,然而对含有大量离散笔画点
且行间距较小的手写体文本,则体现出检测性能
下降。
维吾尔文属于阿尔泰语系突厥语族西匈语支,
字母是维吾尔语文字结构的最基本构件,维吾尔文
字母由竖、齿、横、撇、拱、环、结等主体部分和点、滴、
钩等附加部分构成。于写时,先写主笔画部分,后写
附加部分。
32
个维文字母中有
20
个字符包含附加
部分,附加部分包括不同数目和位置的点以及
4
种
基本形状,、,
v
'
,,,伽。大量的点和附加部
分,使得文本行的分割更加困难。
针对以上特点,本文提出了一种基于着色的于
收稿日期:
2012-08
15
基金项目·教育部新世纪优秀人才支持计划资助项目
(NCET
10
0969);
国家自然科学基金资助项目(
61065001:·;
新疆维吾尔自治区科技厅少数民族特殊培养计划项目
(201023116)
作者简介.艾斯卡尔·艾木都拉(
1972
),男(维吾尔),新疆,教授。
Email:
askar@xju.edu.
cn
ISSN
1000-0054
清华大学学报(自然科学版)
2013
年第
53
卷第
2
期
21/25
259
264
CN
11-2223/N
J
Tsinghua
Univ
(Sci &
Tech),
2013,
Vol.
53,
No.
2
基于着色处理的维吾尔文手写文本行分割
艾斯卡尔·艾木都拉\
易晓芳,
卡米力·木依丁
(新植大学信息科学与工程学院,乌鲁木齐
830046)
摘
要:针对维吾尔文手写体文本中行分割问题,该文根据
维吾尔文字包含区分字母的诸多点笔画和附加部分的特点,
对文字主体笔画部分采用分段式前景涂抹算法,并将涂抹后
图像的前景部分进行细化运算,通过细化线条与原图像的叠
加、着色处理获取主体文本区域定位;然后通过重心辐射扫
描的方法,解决了剩余细小笔画的文本行归附问题。实验结
果表明
z
该文方法与常见的水平投影、分段式投影与基于涂
抹方法相比具有更好的行分割效果。
关键词:维吾尔文
z
手写体文本;行分割
F
细化;着色处理
中图分类号:
TP
391.
1
文献标志码:
A
文章编号:
1000
0054(2013)02-0259
06
Coloring
based
handwritten
Uyghur text
line detection
and
separation
algorithm
ASKAR Hamdulla,
YI
Xiaofang,
KAMIL
Moydin
(Institute
of
Information
Science
and
Engineering,
Xinjiang
University,
Urumqi
830046,
China)
Abstract:
The
characteristics
of
Uyghur
text
which
contains
a
large
number
of
points
and
additional
parts
was
taken
into
consideration
to
deal
with
the
issues
of
text
lines
segmentation
in
Uyghur
handwritten
documents.
Localization
of
main
text
lines
was
realized
using
the
algorithm
of
piecewise
foreground
smearing
followed
by
the
foreground
thinning
operations,
the
overlapping
of
thinning
lines
with
original
images,
and
coloring
process.
The
center
of
gravity
radiation
scanning
method
was
developed
to solve
the
belonging
prob
\巳
ms
for
remaining
small
strokes
Experimental
results
show
that
compared
with
the
horizontal
projection
based,
piecewise
projection
based,
smearing
based
segmentation
methods,
the
proposed
method
has
better
text
line
segmentation
results
Key
words:
Uyghur;
handwritten documents; text line segmentation;
thinning;
coloring
process
文本行分害。是指将一个文档中的图像分割成不
同的实体,离线手写体字符识别系统的整体性能强
烈依赖于文本行分割的结果。文本行分割的好坏将
直接影响到后续分词的准确性、文字识别以及笔记
鉴别工作。因此,需要有一个最佳的文本行分割方
法。虽然在打印文档,文本行分割是一个相当简单
的过程,然而在于写文件的情况下,却存在着→些挑
战。例如倾斜角度不同的文本行,包括在同一文本
行有不同的倾斜角度、相邻文本行存在字重叠及行
接触,甚至在维吾尔文中诸多的细小连体笔画归属
问题也直接关系到后续工作的进行。虽然有许多研
究人员努力解决于写文字在线检测的问题,但是他
们没有考虑上述诸多问题。例如,依靠投影的文本
行检测方法[!]对存在宇重叠或倾斜的文字变得不适
用;局部或者是分段式投影算法在文[叫中有应用,
然而这类方法存在过多的分割行,每个条纹的宽度
是预设的,并且在细小连体笔画分割上会发生错误;
歪曲倾斜的手写体文本行分割在基于涂抹算法的文
献[
4-5
]中进行了研究,然而对含有大量离散笔画点
且行间距较小的手写体文本,则体现出检测性能
下降。
维吾尔文属于阿尔泰语系突厥语族西匈语支,
字母是维吾尔语文字结构的最基本构件,维吾尔文
字母由竖、齿、横、撇、拱、环、结等主体部分和点、滴、
钩等附加部分构成。于写时,先写主笔画部分,后写
附加部分。
32
个维文字母中有
20
个字符包含附加
部分,附加部分包括不同数目和位置的点以及
4
种
基本形状,、,
v
'
,,,伽。大量的点和附加部
分,使得文本行的分割更加困难。
针对以上特点,本文提出了一种基于着色的于
收稿日期:
2012-08
15
基金项目·教育部新世纪优秀人才支持计划资助项目
(NCET
10
0969);
国家自然科学基金资助项目(
61065001:·;
新疆维吾尔自治区科技厅少数民族特殊培养计划项目
(201023116)
作者简介.艾斯卡尔·艾木都拉(
1972
),男(维吾尔),新疆,教授。
Email:
askar@xju.edu.
cn