f
(
r
1
|
s
0
)
=
f
(
r
1
,
V
|
s
0
)
=
∑
S
1
∈
V
∏
T
t
=
1
f
(
x
t
s
t
)
p
(
s
t
s
t
-
1
), (
15
)
式
(
15
)
为定值
,
因此
P
(
s
t
=
c r
1
,
s
0
)
∝
∑
S
1
:
s
t
=
c
∏
T
t
=
1
f
(
x
t
s
t
)
p
(
s
t
s
t
-
1
), (
16
)
f
(
x c
)
=
∑
M
m
=
1
w
m
,
c
(
2π
)
d
Σ
m
,
c
×
ex
p
(
-
1
2
(
x
-
μ
m
,
c
)
T
Σ
-
1
m
,
c
(
x
-
μ
m
,
c
)), (
17
)
f
(
x
|
c
)
表示隐
Markov
模型的混淆矩阵概率
,
其中
w
m
,
c
表示权值
,
μ
m
,
c
代表 在 所 有 词 汇
V
中
c
所 对 应
的所有 区域特 征
x
的均值
,
Σ
m
,
c
代表向 量
x
元素 间
协方差矩阵
.
TSVMGHMM
(
transductive su
pp
ort vector
machinebased HMM
)
模型
[
10
]
的提 出
,
是为 了 改善
HMM
模型中存在 的 问题
,
即若 训 练 集 中 已 标 注 的
图像 区 域 过 少
,
会 导 致 对
HMM
中 混 合 概 率 密 度
f
(
f
eature
|
word
)
估 计 不 准确
.TSVMGHMM
即 基
于支持向量机
(
su
pp
ortvectormachine
,
SVM
)
的半
监督学习方法
,
首先利 用 训练 集 中已 标 注的 图 像区
域训练一个 二 分 类 的
SVM
分 类 器
,
接 着 根 据该 分
类器对训练集中未 标 注区 域 进行 分 类
,
将其 中 最可
能的相关区域和非相关区域分别加入到对应的训练
集中
;
然后根 据新扩 展的训 练集重 新训练
SVM
,
并
重复对未标注区域 的 分类 过 程
,
直到 重 复次 数 达到
预设的最大迭代次数
.
最后
,
由于新扩展的训练集之
中
,
具有 更 多 的 已 标 注 图 像 区 域
,
因 此 对
HMM
中
混合概率密度的建模也会更加准确
.
SHMM
(
s
p
atial HMM
)
模 型
[
11
]
以 及
SMK
(
s
p
atialMarkovkernels
)
模 型
[
12
]
为
HMM
模 型 在
垂 直 方 向 上 的 扩 展
,
也 即 对 于 图 像 的 分 块 来 说
,
SHMM
模型分 别考虑 了水平 和垂直 方向前 一相邻
图像分块对当前图像分块的影响
:
P
(
q
l
,
m
|
Q
l
,
m
l
)
=
P
(
q
l
,
m
|
q
l
1
,
m
q
l
,
m
1
)
=
P
(
q
l
,
m
|
q
l
,
m
1
)
水 平 方 向
P
(
q
l
,
m
|
q
l
1
,
m
)
垂 直 方 向
, (
18
)
l
,
m
表示图像分块 的 位 置 下 标
,
q
代 表 图 像 分 块 的
状态
,
可理解为减号
,
代表在横向或纵向的位置下
标做向前移动的操作
.
HMMGSVM
模型
[
13
]
首先分 别对颜 色和纹 理特
征用
Markov
模型 进 行 建 模
,
据 此 可 分 别 得到 基于
颜色和纹理特征的 对 图像 分 块区 域 的标 注 概率
,
在
此过程之后
,
每个图 像分 块 都可 以 得到 一 个二 元 的
预测组
{
P
color
,
P
texture
},
其中
P
color
和
P
texture
分别代 表
某图像块基于 颜 色 和 基 于 纹 理 特 征 的 预 测 结 果
.
然
后
,
将此二元预测组
{
P
color
,
P
texture
}
作为中 级的 图像
输入 特 征
,
标 注 单 词 作 为 分 类 结 果
,
训 练 出 多 个
oneGa
g
ainstGall
的
SVM
分类器
.
最后
,
根据训练出的
SVM
分类器对图像进行标注
.
基于
HMM
的模型用一种很自然的方式建模了
每个单词和图像特征之间的关系
f
(
f
eature
|
word
),
也即
“
图像 标签
(
IGW
)”
之间的 关联关 系
,
从可解 释
性上提供了有效的推导过程
;
而且相较于相关模型
,
基于
HMM
的模型更关注 抽象信 息
,
如对整 个语料
库来说
,
仅保留了如均 值 和方 差 等图 像 的高 层 次特
征
,
因此模型计算效率较高
.
然而基于
HMM
的模型
也继承了
Markov
模 型 的 固 有 缺 陷
,
即 在 给 定的 标
注词条件下
,
图像的特征是条件独立的
,
没有利用图
像内容上的 相 关 性
,
并 且 对 于
“
标 签 标 签
(
WGW
)”
与
“
图像 图像
(
IGI
)”
特征之 间所 存在 的 复杂 语 义关
系
,
仅通过混合矩阵进行建模也不够精确
.
2.3
主题模型
LSA
(
latentsemanticanal
y
sis
)
模 型 是 主 题 建
模的基础
,
其 最 早 的 用 途 是 对 文 档 进行 检索
[
14
]
,
它
的核心思想是 把 对应 的
“
文 档
G
项
”
矩 阵 分 解 成 相 互
独立的
“
文档 主题
”
矩阵 和
“
主题 项
”
矩阵
,
从而 在
隐藏的主题空 间 建 立 文 档 和 词 汇 之 间 的 语 义 关 系
.
在文档检索领域
,“
项
”
即对应检索词汇
.
在图像标注
领域
,
LSA
模型 将 图 像作 为一 个独 立的 文档
,
标 注
词汇或者视觉特征等被定义为
“
项
”
.
假定
“
文档 项
”
矩阵表示为
A
∈RR
N
×
M
,
N
为文档的数量
,
M
为项的
数量
,
则 矩 阵
A
可 通 过 奇 异 值 分 解
(
sin
g
ularvalue
decom
p
osition
,
SVD
)
为
A
≈
USV
T
, (
19
)
其中
U
∈RR
N
×
K
,
S
∈RR
K
×
K
,
V
∈RR
M
×
K
,
K
表示降维后
的主题空间维 度
,
U
的每 一 行代 表 训练 集 图像 在 主
题空间中的特征表示
,
该主题空间
(
也称为隐语义空
间
)
可表示
“
项
”
之间的语义关联关系
.
当利用训练集
图像求 解
U
与
V
之 后
,
对 未 标 注 图 像
q
∈RR
1×
M
来
说
,
可先将其映射至主题空间
q
^
=
q
V
, (
20
)
然后将
q
^
与
U
的每一行进行相似度 计算
,
利用最 相
似的前
n
项 训 练 图像 标注 作为 待标 注图 像的 标注
词汇
.
对
LSA
模型的改进一般集中在对
“
文档 项
”
矩
阵中
“
项
”
的表 征 方面
.
如文 献
[
15
]
首 先 将 图 像 划 分
3532
马艳春等
:
自动图像标注技术综述