深度学习驱动的体态与手势感知关键技术突破

版权申诉

68 浏览量更新于2024-07-04 收藏 15.79MB PDF 举报

随着信息技术的飞速发展，人们对体态和手势的精确感知计算提出了更高的要求。本文针对深度机器学习在体态与手势感知计算中的核心挑战展开研究，这些问题主要包括：一是如何将人类对感知问题的先验知识有效地融入深度学习模型，特别是对于无标记单目相机的体态感知，传统的表示方法往往缺乏足够的先验信息；二是现有的基于肌电信号的手势识别技术在精度和实时性上存在折衷，即难以同时实现高准确度和低延迟；三是设备使用过程中，用户需要频繁的标定过程，这降低了用户体验；四是大量有标注的数据对于训练深度学习模型至关重要，但获取这类数据往往是困难的。文章的核心创新点在于： 1. 对于体态感知，作者提出了一种新颖的先验知识表示形式——高度图，它能从单目摄像头的视频中准确恢复三维人体姿态。通过双流深度卷积网络结合彩色图像和高度图，可以更好地利用人体各部位的高度信息，从而提高二维姿态估计的准确性。 2. 针对手势识别中的精度和延迟问题，作者观察到瞬时高密度肌电信号中隐藏着特定模式，这一发现使得基于实时肌电信号的手势识别成为可能。他们引入了肌电图像的概念，并构建了基于瞬时肌电图像和深度卷积网络的新型识别框架，实现了在提升准确率的同时减小延迟。 3. 为了简化标定过程并缓解数据不足的问题，文章提出了一种新的方法，即设计一种带有时序一致性的目标函数，可以从估计的人体关节二维姿态序列中恢复出三维姿态，利用人体姿态和相机参数的时间连续性来提高整体性能。本文深入研究了深度机器学习在体态与手势感知中的挑战，并通过创新的技术手段寻求解决方案，有望推动这一领域的技术进步和应用实践。

術

江

大

学

博

学

位

论

义



第

１

章

绪

论

则

表

示

为

一

个

过

度

完

备

的

字

典

（

ｏ

ｖ

ｅ

ｒ

ｃｏ

ｍ

ｐ

ｌ

ｅ

化

ｄｉ

ｃ

ｔ

ｉ

ｏ

ｎ

ａｒ

ｙ

）

的稀疏线

性

组

合

。

民

ａ

ｍ

ａ

ｋ

ｒ

ｉ

ｓ

ｈ

ｎａ

等

人

［

４

２

］

在

计

算

稀

疏

模

型

的

同

时

给

Ｓ

维

人

体姿

态

施

加

人

体

测

量的

正

规

化

（

ａｎ

ｔ

ｈ

ｒ

ｏ

ｐ

ｏ

ｍ

ｅ

ｔ

ｒ

ｉ

ｃ

ｒ

ｅ

ｇ

ｕ

ｌ

ａ

ｒｉ

ｔ

ｙ

）

，

而

Ｗ

ａ

ｎ

ｇ

等

人

［

２

６

］

则

强

制

约

宋

手

臂

和

腿

的

８

块

骨

骼

的

长

度

，

从

而

消

除

由

不

准

确

的

二

维

人

体

姿

态

佑

计

产

生

的误

差

。

此

外

，

研

究

表

明同

时估

计

五

维

人

体

姿

态和

相

机

参

数

可

Ｗ

进

一

步

提

高准

确

率

［

２

６

，



４

２

，



４３

］

。

最

近

，

Ｚ

ｈ

ｏｕ

等

人

［

４

］

将

兰

维

人

体

姿

态

估

计

转换

为

时

空

匹

配

问

题

，

操

索

视

频

和

Ｓ

维

动

作

捕捉

数

据

么

间的

对

应

关

系

。

上

述

的

这

些方

法

将

从

图

像

中

估

计

二

维

人

体

姿

态

和

从

二

维

人

体

姿

态

估

计

￡

维

人

体

姿

态

视

为

两

个

相

互

独

立

的

子

问

题

，

而

Ｓｉ

ｍ

ｏ

等

人

［

４１

］

则

使

用

贝

叶

斯

框

架

联合

地

对

这

两

个

问

题

进

行

建

模

。

近

年

来

，

深

度

卷

巧网

络

（

ｄ

ｅ

ｑ

）

ｃｏｎｖ

ｏ

ｌ

山

ｉ

ｏｎａ

ｌ



ｎｅ

ｔ

ｗ

ｏ

ｒ

ｋ

，



Ｃ

ｏ

ｎ

ｖ

Ｎ

ｅ

ｔ

）

被

成

功

应

用

在

基

于

单

目

相

机

的

人

体

姿

态

估

计

，

光

其

是

二

维

人

体

姿

态

估

计

中

。

Ｔ

ｏｓ

ｈ

ｅｖ

等

人

［

４５

］

将

人

体

姿

态估

计

问

题

转

化

为

关节点

的

回

归

问

题

，

并

最

先

提

出

了

基

于

深

度

卷

积

网

络

的

姿

态

估

计

方

法

——

Ｄ

ｅｅ

ｐ

Ｐ

ｏ

ｓ

ｅ

。

Ｃ

ｈ

ｅｎ

和

Ｙ

ｕ

ｉ

ｌｌ

ｅ

 ［

２

引

通

过

将

人

体

姿

态

建摸

为

图

形

结

构

模

型

进

一

步

改

进

了

二

维

姿

态

估

计

结

果

。

这

个

图

结

构

模

型

中

的

每

个

顶

点

对

应

一

个

人

体

关

节

点

。

该

方

法

通

过

度

量

局

部

图

像

特

征

定

位

关

节点

，

并

使

用

图

像

相

关

的

成

对

关

系来

计

算

相

邻

关

节点的

相

对

位

置

，

使

关

节

点

定位

更加

准确

。

类

似

地

，

Ｔ

ｏ

ｍ

ｐ

ｓｏ

ｎ

等

人

［

４

６

］

提

出

了

一

个

混

合

模

型

，

该

模

型

使

用

深

度

卷

巧

网

络

检

测

人

体

部

位

，

并

使

用

马

尔

可

夫

随

机场

对多

个

部

位

的

全

局

空间

结构

进

行

约

東

。

Ｔ

ｏ

ｍ

ｐ

ｓｏ

ｎ

等

人

［

４７

］

将

该

模

型

进

一

步

改

进

为

级

联

结构

，

该

方法

结

合

了

局

部

尺

度

和

全

局

尺

度

的

两

个

深

度

卷

巧

网

络

来

适

应

训

练

数

据

中

人

王

标

记

的

关

节

点

位

置

的

误

差

。

Ｌ

ｉ

等

人

［

４

８

］

使

用

结

构

化

学

习

方

法

，

将

图

像

和

人

体

姿

态

嵌

入

到

高

维

空

间

中

。

该方

法

通

过

优

化

一

个

最大

边

际

损

失

函

数

来

联

合训

练

图

像

－

姿

态

嵌

入

（

ｉ

ｍ

ａ

ｇ

ｅ

－

ｐ

ｏ

ｓ

ｅ  ｅ

ｍ

ｂ

ｅ

ｄｄｉ

ｎ

ｇ

）

和得

分

函

数

，

并

使

用

两

阶

段

的

优

化

算

法最

小

化

该

损

失

函

数

。

与

上

述

的这些

方

法

相

反

，

一

里

研

究

者

［

４

９

５１

］

使

用

深

度

机

器

学

习

方

法

直

接

从

图

像

中

估

计

互

维

人

体

姿

态

。

虽

然

基

于

单

幅

图

像

的

姿

态估

计

方

法

可

Ｗ

位

用

于

从

图

像

序

列

中

恢

复

五

维

人

体

姿

态

，

但

是这

种

方

法

常

导

致

不

稳定

的

Ｓ

维

动

作恢复

结

果

［

２

４

］

。

为

了

解

决

这

个问

题

，

Ｗ

ａ

ｎ

ｄ

ｔ

等

人

［

２

４

］

将

五

维

人

体

姿

态

建模

为

多

个

基

本

姿

态的

线

性

组

合

，

并

提

出

周

期

模

型

对

这些

线

性

组

合

系

数

建

模

，

从

而

提

高

周

期

运

动

（

例

如走

路

，

跑步

等

）

恢

复

的

效

李

和准

确

率

。

对

于

非

周

期性

运

动

，

该

方法

使

用

四

肢

的

骨

骼

长

度

关

于

时

间

的

不

变

性

约束

来

提

高

兰

维

人

体

姿

态

恢

复的

准

确

率

。

Ｚ

ｈ

ｏ

ｕ

等

人

［

５２

］

将

兰

维

人

体

姿

态

估

计

问

题

转

化

为

具

有

时

序

平

滑

性

先

验的稀

疏

重

建

问

题

。

该

方

法

将

二

维

关

节点

坐

标

作为

隐

含

变

量

，

并

使

用

基

于

深

度

卷

积

网

络

的

部

位

检

测

器

来

８

浙

江

大

学

博

学

位

论

文



第

１

章

绪

论

表

１

．

２

手势

感知

方

法

。

数

据

手

套



Ｉ

Ｍ

Ｕ



计

算

机

视

觉

设

备



生

理

信

号

精

确度



非

常高



一

般



较

高



较

高

场地

局

限

性



无



高

无

光

照

和

遮

挡

问

题



无



高

无

侵

入

性



高

低



无



较

低

设

备

成

本



高



一

般



低



较

低

巧

测

隐

含

变

量的

置

信

度

映

射

图

。

Ｈ

ａｓ

ｌ

ｅｒ

等

人

［

２

８

］

提

出

对

多

个

摄

像

机

进

行

自

动

摄

像

机

注

册

和

音

频

同

步

，

然

后

通

过

计

算

提

取

的

轮

廓

之

间

的

对

应

关

系

来

恢

复

￡

维

人

体

姿

态

。

Ｈ

ｏ

ｆ

ｍ

ａ

ｎ

ｎ

和

Ｇ

ａ

ｖ

ｒ

ｉｌｌ

ａ

 ［

２

７

］

提

出

了

一

个针

神

从

每

个相

机的输

入

生

成的

形

状假

设

的

多阶

段

的

验

证

过

程

，

并

通

过

最

优

化

跨

相机

的

最佳

轨

迹消除

了

时

序

上

的

歧

义

性

。

Ｅ

化

ａ

ｙ

ｅ

ｋ

等

人

口

９

］

将

基

于

深

度

卷

巧

网

络

的部位

检测模

型

［

４

６

］

与

基

于

高

斯

混

合

模

型

的

跟

综

算

法

相

结

合

，

从

多

个

相

机的输

入

中

稳

定

地

恢

复

全

身关

节点

的

五

维位

置

。

上

述

方

法

并

没

有

考虑

到

相机位

置

和

朝

向相

对

固

定

的

应

用

场

景（例

如

监

控

视

频

）

．

如

何

利

用

已

知

的

相

机

参

数

，

将

对

于

人

体

解

剖

结

构

和

人

体

运

动

的动

态

规

律

的

先

验

知

识

嵌

入

到

人

体

Ｓ

维动

作

恢

复

过

程

中

，

是

本

文

研

究

的重

点

。

１

．

２

．

２

手

勢

廢

知

手

势

感

知

根

据

其

输

入

信

号的

类

型

可

Ｗ

划

分为

基

于

外

在

运

动

信

号

和

基

于

内

在

生

理

信号

两

种

，

其

中

基

于

外

在

运

动

信

号的方

法

根

据

采

集

设

备

的

不

同

又

可

Ｗ

进

一

步

划分

为

基

于

数

据

手套

、

基

于

惯性

测

量

单

元

（

ｉ

ｎ

ｅ

ｒｔ

ｉ

ａ

ｌ 

ｍ

ｅ

ａ

ｓ

ｕｒｅ

ｍ

ｅｎ

ｔ



ｕ

ｎ

ｉ

ｔ

，



Ｉ

Ｍ

Ｕ

）

和

基

于

计算

机

视

觉

设

备

等

。

主

流的

手

势

感

知

方

法

的

优

缺

点

如表

１

．

２

所

示

。

１

．

２

．

２

．

１

基

于

外

在

运

动

信

号

的

手

势

感

知

基

于

外

在

运

动

信

号

的

手

势

感

知

一

般使

用

Ｉ

Ｍ

Ｕ

 ［

５３

］

、

数

据

手套

［

５

４

］

（

或

具

有

特

殊颜

色

标

记

的

手

套

［

５５

］

）

、

彩

色相

机

［

５６

］

、

深

度

相机

［

５

７

］

、

或

近

红

外

相

机

［

５

８

］

来

跟

踪

手

部

动

作

或

识

别手

势

，

相

关综述

可

Ｗ

参考

文

献

［

５９

］

。

９

浙

正

大

学

巧

学

位

论

文



第

１

章

绪

论

基

于

无

标

记

的

彩

包

相

机的手

势

感

知

一

直

是

计

算

机

视

觉

领

域

的

研

究

热

点

。

通

常

的方

法

是

基

于

手

部

轮

廓

［

５

６

］

或

图

僚

特

征

［

６

０

］

从

预

先

构建

的

数

据

库

中

提

取

与

输

入

图

像

匹

配

的手

势

。

然

而

此

类

方

法

通

常

局

限

于室

内

场

景

，

限

制

了

用

户

的

移动

空

间

，

并

且

受

光

照和

遮

档等

因

素

的

影

响

，

鲁

棒

性较

差

。

深

度

相

机

——

例如

Ｋ

ｉ

ｎ

ｅｃ

ｔ

？

——

可

Ｗ

采

集每

个

像

素

位

置

上

的物

体与

相机的

距

离

，

并

且

受

光

照

影

响

较

小

。

一

垫

研

究

者

使

用

深

度

相机

或

结

合

深

度

相

机与

彩

色

相

机

识

别手

势

［

５

７

］

，

获

得

了更

高

的

准

确

率

。

然

而

基

于

深

度

相

机

的手

势

感

知

同

样

受场

地

限

制

，

并

且

受

遮挡

影

响

。

Ｂ

ｅｎ

ｂ

ａ

ｓａ

ｔ

等

人

［

５３

］

使

用

单个

Ｉ

Ｍ

Ｕ

通

过

简

单的

基

于

阔

值

的

方

法

识

别

不

同

轴

向

上

的

上

肢

手

势

。

Ｖ

ａｎ

等

人

［

６

Ｕ

使

用

单

个

Ｉ

Ｍ

Ｕ

作

为

漫游系统的交

互

设

备

。

Ｈ

ａ

ｒｔ

ｍ

ａｎ

ｎ

等

人

［

６

２

］

使

用

动

态

时

间

规

整

（

ｄ

ｙ

ｎａ

ｍ

ｉ

ｃ



ｔ

ｉ

ｍ

ｅ 

ｗ

ａ

ｒ

ｐ

ｉ

ｎ

ｇ

，



ＤＴ

Ｗ

）提

高

基

于

Ｉ

Ｍ

Ｕ

的手

势

识

别的

鲁

棒

性

。

基

于

Ｉ

Ｍ

Ｕ

的

方

法

难

Ｗ

捕

捉

手

指

的

细

微

动

作

，

一

些

研

究

者结

合

肌

电

信

号和

Ｉ

Ｍ

Ｕ

的

信

号联合

识

别

手

指

和

上

肢

动

作

［

６３

－

６

７

］

。

数

据

手

套

——

例

如

被

广泛

使

用

的

Ｃ

ｙ

ｂ

ｅ

ｉ

－

ｇ

ｌ

ｏ

ｖｅ

 １１

＾

——

精确

地

记

录

手

部

关节

角

度

，

可

心

乂

用

于

高精

度

的

手

势

识

别

［

５

４

］

。

但

是

数

据

手套

上包

含

大

量传感

器

，

会

严

重

束

缚

用

户

的

手

指

动

作

，

并

且

价

裕较为昂

贵

。

Ｗ

ａｎ

ｇ

和

Ｊ

ｏ

ｖ

ａｎ

 ［

５

］

使

用

具

有特

殊颜

色

标

记

的手

套

，

通

过

预

先

采

集

大

量

手

部

姿

态

，

并

在

识

别

阶

段

进行

最

近

邻

搜

索

来恢

复

手

部

五

维

姿

态

。

该

方

法

相

对

数

指

手

套

来

说

对

用

户

的手

部

来

缚

较

小

，

但

是

仍

不

适

合

日

常

使

用

，

并

且

与

其

它基

于

计

算

机

视

觉

的

方

法

一

样

受

光

照

和

遮

挡

的

影

响

。

１

．

２

．

２

．

２

基

于

内

在

生

理

信

号

的

手

势

感

知

基

于

巧

在

生

理

信号

的

手

势

感知根

据

信

号

源

可

Ｗ

分

为基

于

脑

机

接

口

化

ｒ

ａ

ｉ

ｎ

－

ｃ

ｏ

ｍ

ｐ

ｕ

ｔ

ｅ

ｒ

 ｉ

ｎ

－

ｔ

ｅ

ｒ

ｆ

ａ

ｃｅ

，



Ｂ

Ｃ

Ｉ

）

和

基

于

肌

肉

计算

机

接

口

（

ｍ

ｕ

ｓｃ

ｌ

ｅ

－

ｃｏ

ｍ

ｐ

ｕ

ｔ

ｅ

ｒ

ｉ

ｎ

ｔ

ｅｒ

ｆ

ａ

ｃ

ｅ

，



Ｍ

Ｃ

Ｉ

）

两

种

。

Ｂ

口

 ［

６８

］

是

一

种将

脑

部

活

动

直

接

解

码

并

转

换

为

反

映

用

户

意

图

的

交

互

指

令

的

通信

系

统

，

即

＂

意

念

控制

’ ’

。

Ｂ

Ｃ

Ｉ

是

感知

计

算

和

人

机交

互

的

终极

目

标

，

涉

及

计

算

机

科学

、

认

知

科学

、

生

物

医

学

等

诸

＃

学

科

。

目

前

Ｂ

Ｃ

Ｉ

相

关

的

软

硬

件技术

还

很

不

成

熟

，

其

较

低

的

识

别准

确率

和

较慢

的

识

别

速度

导

致

其

在

短期

巧难

Ｗ

被

广

泛

使

用

［

６

９

］

。

本

文

研

究

基

于

Ｍ

Ｃ

Ｉ

的

手

势

感

知

。

Ｍ

Ｃ

Ｉ

 ［

７

巧

是

一

种

将

肌

肉

活

动

转

换为

反

映

用

户

意

图

的

交

互

指

令

的

通

信

系

统

。

基

于

Ｍ

ＣＩ

也

ｈ

ｔｔ

ｐ

：

／／

ｗｗ

ｗ

．

ｘ

ｂ

ｏｘ

．

ｃ

ｏ

ｍ

／

ｅｎ

－

Ｕ

Ｓ

／

ｘ

ｂ

ｏ

ｘ

－

ｏ

ｎｅ

／

ａ

ｃｃｅｓ

ｓｏ

ｎ

ｅｓ

／

ｋ

ｉ

ｎ

ｅ

ｃ

ｔ

。

ｈ

ｔｔ

ｐ

：

／

ｗ

．

ｃ

ｙ

ｂ

ｅ

ｒ

ｇ

ｌ

ｏ

ｖ

ｅｓ

ｙ

ｓ

ｔ

ｅ

ｍ

ｓ

．

ｃ

ｏ

ｍ

／

ｃ

ｙ

ｂ

ｅｒ

ｇ

ｌ

ｏ

ｖ

ｅ

－

ｉｉ

１

０

浙

江

大学

博

± 学位

论

义



第

１

覃

绪

论

的手

势

感

知

一

般

使

用

表

面

肌

电

极

［

７０

－

７３

］

、

压

力

传

感器

［

７

４

，



７５

］

、

电

容

传

感

器

［

７

６

，



７７

］

、

或

超

声

波

传感

器

［

７

８

］

来

感

知

肌

肉

活

动

。

其

中

主

流

方

法

一

般

采

用

表

面

肌

电

极

，

其

核

记

技

术

是

基

于

肌

电

信号

的

手

势

识

别

。

根

据

所

采

用

的

电

极的

密

度

，

基

于

肌

电

信

号

的手

势

识

别

可

Ｗ

被

分

成

两

类

。

第

一

类

是基

于

稀

疏

多

信

道

化

电

信

号（

ｓ

ｐ

ａ

ｒｓ

ｅ



ｍ

ｕ

ｌ

ｔ

ｉ

－

ｃ

ｈ

ａｎ

ｎ

ｅ

ｌ 

ｓ

Ｅ

Ｍ

Ｇ

）

，

在

此

类

问

题

中

，

手

势

识

别

通

常被

定

义

为

序

列

分类

问

题

，

其

中

算

法

输

入

一

段

连

续

的

肌

电

信

号

，

输

出

该

段

信号

对

应

的手

势

标

签

。

其

中

分

类

器

的

输

入

是

从

肌

电

信

号的

窗

口

中

提

取

的

特

征

向

量

［

７９

－

８１

］

，

或者

是

输

入

肌

电

信

号

序

列并

采

用

时

序

模

型

对其

建

模

［

６

５

，



８２

，



８

３

］

——

例

如

隐

马尔科

夫

模

型

化

ｉｄｄ

ｅ

ｎ



Ｍ

ａ

ｒ

ｋ

ｏ

ｖ

ｍ

ｏ

ｄ

吐

Ｈ

Ｍ

）

。

这

些方

法

中

涉

及

的

特

征

经

过

了

广

泛

的评

估

，

并

形

成

了

《

个

常

用

的

特

征

集

巧

４

－

８６

］

。

相

对

于

基

于图

像

和

视

频

的

体

态

感

知

，

基

于

化

电

信

号

的手

势

感知

的

标

准

数

据

集

相

对

较

少

。

对

于

传

统

的

稀

疏

多

信

道

肌

电

信

号

，

被

最

广

泛

接

受

的

基

准

数

据

集

是

Ｎ

ｉ

ｎ

ａ

Ｐ

ｒｏ

数

据

集

巧

７

］

，

Ｎ

ｍ

ａ

Ｐ

ｒｏ

巧

７

］

是

一

个

针

对基

于

稀

疏

多

通

道

肌

电

信

号

的手

势

识

别

的标准

数

据

集

，

主

要

用于

主

动

假

肢

的

研

发

。

它

包

含

了

稀

疏

分

布

在被

试

前

臂

上

的

１０

个

传

统

肌

电电

极

采

集

的稀

疏

多

通

道

肌

电

信

号

，

采

样

率

为

１

００

赫

兹

。

Ｎ

ｉ

ｎａ

Ｐ

ｒ

ｏ

数

据

集

包

含

两

个

健

康

被

试

的

数

据

的

子

集

（

ＤＢ１

和

ＤＢ２

）

，

其

中

ＤＢ１

包

含

２

７

名

被

试

的

５

２

种

手

势

，

每

人

每

种

手

势

重

复

１

０

次

，

ＤＢ２

包

含

４

０

人

的

５

０

种

手

势

，

毎

人

每

种

手

势

重

复

６

次

。

Ｎ

ｉ

ｎａ

Ｐ

ｒ

ｏ



ＤＢ

１

中

５

２

个

手

势

的

最

前

沿

的

识

别

准

确

率为

７５

．

３

２

％

巧

７

］

。



＇

第

二

类

是

基

于

高

密

度

肌

电

信号化

ｉ

ｇ

ｈ

－

ｄ

ｅｎｓ

ｉ

ｔ

ｙ

ｓ

Ｅ

Ｍ

Ｇ

，

ＨＤ

－

ｓ

Ｅ

Ｍ

Ｇ

）

。

ＨＤ

－

出

Ｍ

Ｇ

——

即

使

用

二

维

阵列

电

极

采

集的

肌

电信号

——

使

得

肌

肉

活

动

产

生

的

电

势

场

在时

间

和

空

间

上

的

变

化

可

Ｗ

被

多

个紧

密

分

布

在

皮

肤表

面

的

电

极

间

时

记

录

下

来

［

８８

］

。

民

Ｏ

ｊ

ａ

ｓ

等

人

［

８

９

，



９

０

］

在

上

臂

和

前

臂

使

用

Ｓ

个

电极

阵列（合

计

３

５０

个

通

道

）

区

分

对

皮

于

４

个

任

务类

型

和

３

个

发

力

水

平

的

１

２

个

手势

类

别

。

Ｓ

ｔ

ａ

ｎ

ｇ

ｏ

等

人

［

９

１

］

通

过

使

用

包

含

１

９

２

个

电

极的

电

极

阵

列

识

别手

和

前

臂

运

动

。

这

种

方

法

对

于

９

个

手

势

类

别达到

了

９

５

％

的

准确

率

。

目

前

公

开

的

ＨＤ

－

ｓ

Ｅ

Ｍ

Ｇ

基准

数

据

集

只

有

Ｃ

化

－

Ｈ

Ｄ

Ｅ

Ｍ

Ｇ

数

据集

［

７３

］

。

Ｃ

化

－

Ｈ

ＤＥ

Ｍ

Ｇ

仍

］

主

要

用于

基

于

ＨＤ

－

ｓ

Ｅ

Ｍ

Ｇ

的

手

势

识

别

。

它

包

含

５

个被

试

执

行

２

７

种

手

指

手

势

的

ＨＤ

－

ｓ

Ｅ

Ｍ

Ｇ

，

其

中

毎

个

被

试

采

集

５

个

会

话

，

并

且

在

每

个

会

话

中

对

毎

个手

势

执

行

１０

个

试

验

。

Ｃ

Ｓ

Ｌ

－

Ｈ

Ｄ

Ｅ

Ｍ

Ｇ

使

用

具

有

覆

盖

了

前

臂

肌

肉

的

１

９

２

个

电

极

的

电

极

阵列

，

Ｗ

２

０

４

８

赫

兹的

采

样速

率

双

极

地

化

ｉ

ｐ

ｏ

ｌ

ａ

ｒ

）

记

录

肌

电

信号

，

形

成

７

ｘ

２

４

个

通

道的

网

格

。

ＣＳ

Ｌ

－

ＨＤ

Ｅ

Ｍ

Ｇ

中

５２

个

手

势

的

最

前

沿

的

识

别

准

确

率

为

９

０

．

４

％

 ［

７３

］

。

上

述

研

究

一

般

基

于

人

工

设

计

的

特

征

提

取

器

从

一

个窗

口

巧

的

肌

电信

号

中

提

取

特

征

向

量

ＩＩ

浙

江

大

学

博

学

位论义



第

１

章

绪

论

用

于

手

势

分

类

［

９２

－

９

４

］

。

用于

特

征

提

取

的

最

佳

窗

口

长

度

是

在

分

类

误

差

和

控

制

时

延

之

间的

一

种

折

中

。

如

何在

提

升

手

势

识

别准

确

率

的

同

时

降

低

控制时

延

是

本

文

研

究

的

重

点

。

此

外

，

已

有

方

法

通

常

需

要

用

户在每

次佩

戴

设

备

后

先

进

行

标

定

，

因

为

电

极

位

移

，

肌

肉

疲

劳

，

电极

和

皮

肤

之

间

的

阻

抗

变

化

等

因

素

的

干

扰

，

肌

电

信

号

与

采

集会

话

高度

相

关

，

已

经

训

练

好的

手

势

分

类

器

直

接

被

应用

在

新

的

会

话

时

通

常

准确

李较

低

［

１

２

，



９

５

］

。

通

常

标

定过

程需

要用

户

严

格按

照

要

求

做

出

指定

的

手

势

，

步

躁

较为

繁

琐

，

且

少

量

标定

数

据

上

适

配

的

模

型

通

常

难

Ｗ

达

到令

人

满

意

的

准

确率

。

如

何

利

用

户

在交

互

过

程

中产

生

的

无

标

记

数

据

来

取

代

繁

琐

的

标定

过

程

是

本

文

研

究

的

另

一

个

重

点

。

１

．

２

．

３

深

度

机振

学

习

传

统的

机

器

学

习

方

法

在处

理

在

处

理

原

始

的

未

经

处

理

的

数

据

时较

为

乏

力

。

一

般

来

说

，

构

建

一

个

机

器

学

习

系

统需

要

相

当

多

的

专

业

领

域

知

识

来

设

计

特

征

提

取

器

，

它

将

原

始

数

据

（

例

如

图

像

的

後

素

值）转

换为

特

征

向

量

，

然

后

使

用

分

类

器

或

预

测

函

数

输

出

目

标

类

别或

预

测值

。

表

征

学

习

是

一

类

从

原

始

数

据

中

自

动

发

现和

学

习

有

用

的

特

征

表

示

的

方

法

。

深

度

机

器

学

习

（

ｄ

ｅ

ｐ

ｌ

ｅａｒｎ

ｉ

ｎ

ｇ

）

是

具

有

多

级

特

征

表

示

的

表

征

学

习

方

法

，

它

通

过

组

合

简

单但

非

线

性

的

模块

，

逐

级

地

将

原

始

数

据

逐

渐

转

换

为

更

高

层

的

特

征

表

示

。

通

过

组

合

这

些

简

单

的

非

线

性变

换

，

深

度

机

器

学

习

方

法

可

Ｗ

学

习

出

非

常

复

杂

的

特

征

表

示

。

例如

在

基

于

深

度

卷

积网

络

的

人

脸

识

别

中

，

底

层

节

点

学

习

到

的通

常

是

基

本

的

图

像

边

缘

检测

算

子

，

中

间

层的

节

点学

习

到

人

脸

的

局

部

结

构

，

而

顶

层

节点

则

识

别

整

个

人

脸

。

深

度机

器

学

习

起

源于

（

人

王

）

神

经

网

络

（

ｎ

ｅｕ

ｒａ

ｌ 

ｎ

ｅ

ｔ

ｗ

ｏｒ

ｋ

）

的

研

究

。

１

９

４

３

年

Ｍ

ｃ

Ｃ山ｌ

ｏｃ

ｈ

和

Ｐ

ｉ

化

［

９

６

］

首

次

提

出

神

经

网

络

的概

念

并

定

义

了

它

的

数

学

模

型

。

１

９

５

８

年

民

ｏｓ

ｅ

ｎ

ｂ

ｌ

ａ

ｔｔ

 ［

９

７

］

首

次

在

计

算

机

上

实

现

了

两

层

神

经

网

络并

取

名

为

＂

感

知

机

＂

（

ｐ

ｅｒｃｅ

ｐ

ｔ

ｒ

ｏ

ｎ

）

。

然

而

感知

机

只

能

用

于

解

决

简

单

的线

性

分

类

任

务

，

Ｍ

ｉ

ｎｓ

ｋ

ｙ

和

Ｐ

ａ

ｐ

ｅ

ｒｔ

 ［

９８

］

于

１９６９

年

详

细

证

明

了

这

一

点

，

并

指

出

多

层

神

经

网

络

没

有有效

的

学

习

算

法

，

使

神

经

网

络的

研

究

陷

入

近

２０

年

的

寒

冬

。

１

９８６

年

Ｒ

ｕ

ｍ

ｅ

比

ａ

ｒｔ

等

人

［

９９

］

首

次

提

出反

向

传播

化

ａ

浊

ｐ

ｒ

ｏ

ｐ

ａ

ｇ

ａ

ｔ

ｉ

ｏｎ

）

算

法

来

训

练

两

层

神

经

网

络

，

但

深

度神

資

网

络

（

即

多

层

神

经

网

络

）

仍

然

因

为

梯

度

弥

散

（

ｖ

ａ

ｎ

ｉ

ｓ

ｈ

ｉ

ｎ

ｇ ｇ

ｒａ

ｄ

ｉ

ｅｎ

ｔ

）

等

问

题

而

难

Ｐ

乂

训

练

。

２００６

年

Ｈ

ｉ

ｎ

ｔ

ｏ

ｎ

和

Ｓ

ａ

ｌ

ａ

ｋｈ

ｕ

ｔ

ｄｉ

ｎｏｖ

 ［ 

１００

］

提

出

了

深

度

置

信

网

络

（

ｄ

ｅ

ｑ

）

 ｂ

ｅ

ｌｉ

ｅ

ｆ

ｎｅ

ｔ

ｗ

ｏ

ｒ

ｋ

）

，

使

用

逐

层

的

无

监

督

学

习

方

法

训

练

深

度

神

经

网

络

，

有

效

地

降

低

了

深

度

神

经

网

络

的

训

练

难

度

。

在

此后的

几

年

中

，

类

似

的

具

有

多

层

特

征

表

示

的

学

习

方

法

被

深

度机

器

学

习

＂

的

名

字

陆

续

提

出

。

自

１２

剩余119页未读，继续阅读

「已注销」

粉丝: 841
资源: 3602

深度学习驱动的体态与手势感知关键技术突破

最新资源