您所在的位置: 广东残联 > 媒体关注

中科大提出新型连续手语识别框架助“听”懂听障人士

2018-02-11 | 作者: | 来源:机器之心
字体:

摘要:中国科学技术大学一篇关于手语识别的论文被AAAI 2018接收。该论文提出一种新型连续手语识别框架LS-HAN,无需时间分割。LS-HAN由三部分构成:用于视频特征表示生成的双流卷积神经网络、用于缩小语义差距的潜在空间和基于识别的潜在空间分层注意力网络。实验结果表明该框架有效。

  中国科学技术大学一篇关于手语识别的论文被AAAI 2018接收。该论文提出一种新型连续手语识别框架LS-HAN,无需时间分割。LS-HAN由三部分构成:用于视频特征表示生成的双流卷积神经网络、用于缩小语义差距的潜在空间和基于识别的潜在空间分层注意力网络。实验结果表明该框架有效。

  手语识别(SLR)面临的一个重要挑战是设计能够捕捉人体动作、姿势和面部表情的视觉描述符(descriptor)。主要有两类:手动制作的特征(Sun et al. 2013; Koller, Forster, and Ney 2015)和基于卷积神经网络的特征(Tang et al. 2015; Huang et al. 2015; Pu, Zhou, and Li 2016)。受CNN近期成功的启发,该论文作者设计了一种双流3D-CNN用于视频特征提取。

  时域分割是连续手语识别的另一个难题。连续SLR的常见方案是将句子分解成孤立的单词识别问题,这需要进行时域分割。时域分割并不简单,因为存在多种过渡动作,很难检测。而且时域分割作为预处理步骤,如果分割不准确就会导致后续步骤中出现错误。此外,标注每个孤立的片段非常耗时。

  受利用长短期记忆(LSTM)网络进行视频描述生成的启发,研究者使用分层注意力网络(HAN,LSTM的扩展)绕过时域分割,考虑结构信息和注意力机制。该方案需要向HAN馈送整个视频,然后逐词输出完成的句子。但是,HAN可以根据输入视频和前一个单词来优化生成下一个单词的概率,但忽略了视频和句子之间的关系(Pan et al. 2015)。因此,它会遇到是否稳健的问题。为了解决这个问题,研究者整合了潜在空间(LS,Latent Space)模型,以明确地利用视频和文本句子之间的关系。

  这篇论文的主要贡献如下:

  提出新型双流3D-CNN,用于视频特征表示生成;

  提出适合连续SLR的新型LS-HAN框架,无需进行时域分割;

  LS-HAN框架对相关性和识别损失进行联合优化;

  编译最大的开源中国手语(CSL)数据集(截至2017年9月)用于连续SLR,数据集具备句子级别的标注。

 

广东省助残服务咨询热线 96885
扫一扫,关注广东残联微信 扫一扫,关注广东残联微信