华拓科技网
您的当前位置:首页一种手语翻译实现方法及装置[发明专利]

一种手语翻译实现方法及装置[发明专利]

来源:华拓科技网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 110532912 A(43)申请公布日 2019.12.03

(21)申请号 2019107457.2(22)申请日 2019.08.19

(71)申请人 合肥学院

地址 230022 安徽省合肥市经开区锦绣大

道99号(72)发明人 李新路 李国斌 檀明 (74)专利代理机构 西安铭泽知识产权代理事务

所(普通合伙) 61223

代理人 崔瑞迎(51)Int.Cl.

G06K 9/00(2006.01)G06K 9/62(2006.01)G06F 17/27(2006.01)

权利要求书2页 说明书14页 附图6页

(54)发明名称

一种手语翻译实现方法及装置

(57)摘要

本发明公开了一种手语翻译实现方法及装置,该方法包括:获取待翻译的视频信息;通过yolo3算法和yolo-lite+ROI+CBAM模型,对视频信息进行区域检测并提取手势特征;将手势特征与基于CBAM注意力模型和CNN分类算法的特征识别分类器进行匹配,输出分词信息;通过nltk框架、jieba工具和NMS算法对分词信息进行整合,并形成文字信息或语音信息。本发明提供听障人士与健听人群之间更好地交流和互动的环境,将深度学习的一系列算法引入到基于视觉的手语识别任务中,通过深度神经网络优异的学习能力自动学习手势的特征,从而避免了传统手语识别方法特征提取不准确从而导致的识别不准确的问题。

CN 110532912 ACN 110532912 A

权 利 要 求 书

1/2页

1.一种手语翻译实现方法,其特征在于,包括:获取待翻译的视频信息;

通过yolo3算法和yolo-lite+ROI+CBAM模型,对视频信息进行区域检测并提取手势特征;

将手势特征与基于CBAM注意力模型和CNN分类算法的特征识别分类器进行匹配,输出分词信息;

通过nltk框架、jieba工具和NMS算法对分词信息进行整合,并形成文字信息或语音信息。

2.如权利要求1所述的手语翻译实现方法,其特征在于,所述通过yolo3算法和yolo-lite+ROI+CBAM模型,对视频信息进行区域检测并提取手势特征;具体包括:通过yolo3算法对手语动作进行检测,将视频信息数据集的图片作为学习的对象,以图片所对应的真实标签为基准,通过卷积神经网络学习图片的特征,仿造人体神经元细胞的构造,对ROI感兴趣区域持续激活和学习参数;

通过yolo-lite浅层目标检测模型对数据集进行训练,对每个图片提取特征,通过层层学习,细化得到输入图片的关键信息,再和数据集中的标签进行对比矫正,通过反向传播的方式训练得到一个网络模型;

将CBAM注意力模块加入yolo-lite浅层目标检测模型,将原来的卷积分化成多个部分的卷积激活。

3.如权利要求1所述的手语翻译实现方法,其特征在于,所述基于CBAM注意力模型和CNN分类算法的特征识别分类器;具体包括:

将CBAM注意力模块的二维卷积模块扩充为三维卷积模块,对于图片序列的分词预测首先使用三维结构的卷积网络做深层次的语义特征的特征提取,并转化成为二维结构的图片,然后通过CBAM模块结合Inception-Resnet-v2模型进行分词预测。

4.如权利要求1所述的手语翻译实现方法,其特征在于,所述通过nltk框架、jieba工具和NMS算法对分词信息进行整合;具体包括:

对于经过单帧和多帧共同识别出来的各个分词,通过jieba分词工具包进行词性标注,并对词性标注后的分词通过NMS算法进行日常用语训练;

在实时翻译时,采用自然语言处理中的nltk工具包进行翻译。5.一种手语翻译装置,其特征在于,包括:服务器端和客户端;所述服务器端,用于通过yolo3算法和yolo-lite+ROI+CBAM模型,对视频信息进行区域检测并提取手势特征;用于将手势特征与基于CBAM注意力模型和CNN分类算法的特征识别分类器进行匹配,输出分词信息;以及用于通过nltk框架、jieba工具和NMS算法对分词信息进行整合;

所述客户端,用于获取待翻译的视频信息;以及用于显示文字信息或语音信息。6.如权利要求5所述的手语翻译装置,其特征在于,所述服务器端,还用于通过yolo3算法对手语动作进行检测,将视频信息数据集的图片作为学习的对象,以图片所对应的真实标签为基准,通过卷积神经网络学习图片的特征,仿造人体神经元细胞的构造,对ROI感兴趣区域持续激活和学习参数;

还用于通过yolo-lite浅层目标检测模型对数据集进行训练,对每个图片提取特征,通

2

CN 110532912 A

权 利 要 求 书

2/2页

过层层学习,细化得到输入图片的关键信息,再和数据集中的标签进行对比矫正,通过反向传播的方式训练得到一个网络模型;

以及还用于将CBAM注意力模块加入yolo-lite浅层目标检测模型,将原来的卷积分化成多个部分的卷积激活。

7.如权利要求5所述的手语翻译装置,其特征在于,所述服务器端,还用于将CBAM注意力模块的二维卷积模块扩充为三维卷积模块,对于图片序列的分词预测首先使用三维结构的卷积网络做深层次的语义特征的特征提取,并转化成为二维结构的图片,然后通过CBAM模块结合Inception-Resnet-v2模型进行分词预测。

8.如权利要求5所述的手语翻译装置,其特征在于,所述服务器端,还用于对于经过单帧和多帧共同识别出来的各个分词,通过jieba分词工具包进行词性标注,并对词性标注后的分词通过NMS算法进行日常用语训练;

以及还用于在实时翻译时,采用自然语言处理中的nltk工具包进行翻译。

3

CN 110532912 A

说 明 书

一种手语翻译实现方法及装置

1/14页

技术领域

[0001]本发明涉及手语翻译技术领域,更具体的涉及一种手语翻译实现方法及装置。背景技术

[0002]手语是聋哑人之间交流的日常用语,是聋哑人之间交流的最畅快和最自然的方式,也是特殊教育学校进行教学和传达思想的主要工具。手语是以手的形状,位置,手的运动以及面部表情来传达意思的自然语言。手语和其它自然语言类似具有规范的语法,完整的词汇体系。但是精通手语的健听人非常少,而且我国对手语翻译的理论研究还处在初级阶段。手语翻译质量没有保障,手语专业的培训机构较少,手语翻译人员还相当匮乏,难以满足市场需求。因此创建聋哑人之间,聋哑人于正常人之间的无障碍信息交流平台就显得尤为重要。

[0003]手语识别是利用计算机技术对聋哑人日常交流用的手语进行识别,将手语转换为正常人更易理解的语音和文字,进而实现帮助正常人和聋哑人更加方便交流的目的。在旅店,车站,医院等公众服务机构,手语识别技术有着广泛的应用空间和前景,手语识别可以使聋哑人更好的融入社会,这对构建包容和多元的和谐社会有着积极的影响。对手语识别的研究可以为聋哑人的手语教学提供一个新的途径,即手机能对聋哑人的日常交流进行实时翻译,而通过手语识别技术的运用可以对手语的交互双方提供交流的效率及乐趣,因而手语识别的研究具有巨大的社会效应,体现了对社会弱势群体的关注。[0004]手语识别研究涉及到模式识别,概率统计,计算机视觉,图像分析与处理及自然语言处理等多个学科领域的交叉学科。而人的手是形态复杂的非规则物体,手语的手势变化多端,通过计算机对手语进行识别,是对计算机的计算能力,知识表现能力的全面考验。从理论上来说,手语识别不仅是上述前沿学科技术的运用舞台,而且对手语识别的研究也会促进上述领域的发展。

[0005]手语是聋哑人之间沟通的重要方法,手语识别也具有重要的社会意义和科研价值,基于数据手套的识别方法有数据手套成本高昂,推广难度大等缺点,而传统的基于视觉的手语识别方法虽然没有佩戴数据手套的要求,但是由于手语的使用环境多变,光照条件变换复杂,使得基于视觉的手语识别方法一直难以取得较理想的效果。发明内容

[0006]本发明实施例提供一种手语翻译实现方法及装置,用以解决上述背景技术中存在的问题。

[0007]本发明实施例提供一种手语翻译实现方法,包括:[0008]获取待翻译的视频信息;

[0009]通过yolo3算法和yolo-lite+ROI+CBAM模型,对视频信息进行区域检测并提取手势特征;

[0010]将手势特征与基于CBAM注意力模型和CNN分类算法的特征识别分类器进行匹配,

4

CN 110532912 A

说 明 书

2/14页

输出分词信息;

[0011]通过nltk框架、jieba工具和NMS算法对分词信息进行整合,并形成文字信息或语音信息。

[0012]进一步地,所述通过yolo3算法和yolo-lite+ROI+CBAM模型,对视频信息进行区域检测并提取手势特征;具体包括:

[0013]通过yolo3算法对手语动作进行检测,将视频信息数据集的图片作为学习的对象,以图片所对应的真实标签为基准,通过卷积神经网络学习图片的特征,仿造人体神经元细胞的构造,对ROI感兴趣区域持续激活和学习参数;

[0014]通过yolo-lite浅层目标检测模型对数据集进行训练,对每个图片提取特征,通过层层学习,细化得到输入图片的关键信息,再和数据集中的标签进行对比矫正,通过反向传播的方式训练得到一个网络模型;

[0015]将CBAM注意力模块加入yolo-lite浅层目标检测模型,将原来的卷积分化成多个部分的卷积激活。[0016]进一步地,所述基于CBAM注意力模型和CNN分类算法的特征识别分类器;具体包括:

[0017]将CBAM注意力模块的二维卷积模块扩充为三维卷积模块,对于图片序列的分词预测首先使用三维结构的卷积网络做深层次的语义特征的特征提取,并转化成为二维结构的图片,然后通过CBAM模块结合Inception-Resnet-v2模型进行分词预测。[0018]进一步地,所述通过nltk框架、jieba工具和NMS算法对分词信息进行整合;具体包括:

[0019]对于经过单帧和多帧共同识别出来的各个分词,通过jieba分词工具包进行词性标注,并对词性标注后的分词通过NMS算法进行日常用语训练;[0020]在实时翻译时,采用自然语言处理中的nltk工具包进行翻译。[0021]本发明实施例还提供一种手语翻译装置,包括:服务器端和客户端;[0022]所述服务器端,用于通过yolo3算法和yolo-lite+ROI+CBAM模型,对视频信息进行区域检测并提取手势特征;用于将手势特征与基于CBAM注意力模型和CNN分类算法的特征识别分类器进行匹配,输出分词信息;以及用于通过nltk框架、jieba工具和NMS算法对分词信息进行整合;

[0023]所述客户端,用于获取待翻译的视频信息;以及用于显示文字信息或语音信息。[0024]进一步地,所述服务器端,

[0025]还用于通过yolo3算法对手语动作进行检测,将视频信息数据集的图片作为学习的对象,以图片所对应的真实标签为基准,通过卷积神经网络学习图片的特征,仿造人体神经元细胞的构造,对ROI感兴趣区域持续激活和学习参数;

[0026]还用于通过yolo-lite浅层目标检测模型对数据集进行训练,对每个图片提取特征,通过层层学习,细化得到输入图片的关键信息,再和数据集中的标签进行对比矫正,通过反向传播的方式训练得到一个网络模型;

[0027]以及还用于将CBAM注意力模块加入yolo-lite浅层目标检测模型,将原来的卷积分化成多个部分的卷积激活。[0028]进一步地,所述服务器端,

5

CN 110532912 A[0029]

说 明 书

3/14页

还用于将CBAM注意力模块的二维卷积模块扩充为三维卷积模块,对于图片序列的

分词预测首先使用三维结构的卷积网络做深层次的语义特征的特征提取,并转化成为二维结构的图片,然后通过CBAM模块结合 Inception-Resnet-v2模型进行分词预测。[0030]进一步地,所述服务器端,

[0031]还用于对于经过单帧和多帧共同识别出来的各个分词,通过jieba分词工具包进行词性标注,并对词性标注后的分词通过NMS算法进行日常用语训练;[0032]以及还用于在实时翻译时,采用自然语言处理中的nltk工具包进行翻译。[0033]本发明实施例提供一种手语翻译实现方法及装置,与现有技术相比,其有益效果如下:

[0034]本发明提供听障人士与健听人群之间更好地交流和互动的环境,将深度学习的一系列算法引入到基于视觉的手语识别任务中,通过深度神经网络优异的学习能力自动学习手势的特征,从而避免了传统手语识别方法特征提取不准确从而导致的识别不准确的问题,即本发明以翻译模型的构建为核心,以界面友好,功能全面,翻译准确率高的应用为导向,以服务于聋哑人的日常生活为目的,实现普通人与聋哑人之间的智能交流,区别于其他的词典形式的APP,也不需要借助辅助设备,如臂环或者手环的使用,只需手机即可具备实时翻译、实时交流的能力,因而保证了其通用性,使得产品更加容易推广。附图说明

[0035]图1为本发明实施例提供的系统架构示意图;[0036]图2为本发明实施例提供的原始数据集;

[0037]图3为本发明实施例提供的地球物候数据集;[0038]图4为本发明实施例提供的ConGD数据集;[0039]图5为本发明实施例提供的EgoHands数据集;[0040]图6为本发明实施例提供的CBAM模块结构图;

[0041]图7为本发明实施例提供的系统功能总体用例示意图;[0042]图8为本发明实施例提供的系统总体功能模块结构示意图。

具体实施方式

[0043]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

[0044]本发明实施例提供一种手语翻译实现方法,该方法包括:[0045]步骤1:获取待翻译的视频信息。[0046]步骤2:通过yolo3算法和yolo-lite+ROI+CBAM模型,对视频信息进行区域检测并提取手势特征。[0047]步骤3:将手势特征与基于CBAM注意力模型和CNN分类算法的特征识别分类器进行匹配,输出分词信息。[0048]步骤4:通过nltk框架、jieba工具和NMS算法对分词信息进行整合,并形成文字信

6

CN 110532912 A

说 明 书

4/14页

息或语音信息。

[0049]上述步骤1和步骤2,具体过程如下:

[0050]本发明初始阶段用传统的图像处理获得手的位置,我们将视频分割成不同的连续图片,每一张图片都含有翻译者的一部分信息,于是我们考虑到人体肤色与周围环境的差异性,使用色彩空间将原图的RGB三种颜色组合转换成图片的色调,饱和度,亮度信息,使图片信息更加清晰化。由于不同的场景色彩值不停的变动,但是人体颜色却是唯一的区间(这里指的是肤色,不包含人的衣服等),通过设定人体肤色的变动范围,保证对环境去杂达到一定的准确性,再通过对图像二值化,使图片信息简化,为保证图像的准确率使用了膨胀算法去杂,并加强图片的连通性,保证信息的准确性而不至于失去细节部分,再对 ROI区域进行筛选,从面积和长度入手,通过摄像头的距离和像素,以一个比例系数的大小进行筛选。实时高,但准确率会随如光线等的环境波动影响受损。[0051]第二个阶段对前面的算法进行阶段性的改造,使用深度学习方法来进行特征的提取和融合,我们参考深度学习yolo3算法来进行对手的检测,把数据集的图片作为学习的对象,以图片所对应的真实标签为基准,通过卷积神经网络来学习图片的特征,仿造人体神经元细胞的构造,对ROI区域不断的激活和学习参数,其中为了增加准确性,使用了残差网络来监测更细小的物体,可以很好的控制物体的远近所带来的影响,通过高达53层的卷积网络获得了更多的图片信息,使准确率到达98%,但随之带来的对于离线模型移动端的速度问题是一个不可避免的难题,因此本发明目前采用部署到服务器端的方式来达到一个实时监测的效果。

[0052]考虑到Python在处理速度方面没有C和C++高效,而且参数过多导致的时间效率过低,再加上硬件设备的,因此我们选择了更加轻量化的浅层目标检测模型yolo-lite,根据对yolo-lite改版运用,对数据集egohands的训练,对每个图片提取特征,通过层层学习,最后细化的得到输入图片的关键信息,再和数据集中的标签进行对比矫正,如同给定坐标点来拟合函数一样,通过反向传播的方式训练得到一个更加准确的网络模型,此网络只有简单的7层,但是它可以实现复杂的功能。为了进一步提升yolo-lite的准确率,于是我们为模型加入了CBAM(注意力模块),将原来的卷积分化成多个部分的卷积激活,从维度和空间上面进行进一步的筛选并抑制不必要的信息使准确率提高,这种方法快速且高效,可以直接部署在移动端设备上,并且很大限度上降低了硬件要求,这样不仅可以减少服务器的压力,为后面的翻译腾出大量的设备资源,还有希望在未来发布识别速度更高更快局限性更小的离线模型。其中,CBAM注意力模块参见图6。[0053]上述步骤3,具体过程如下:

[0054]本发明首先对CBAM(注意力模块)进行进一步层次的扩充与修改,首先将原本的二维卷积核扩充为三维的卷积模块,然后将注意力分别集中在通道和时间序列方面使其可以具有更深层次的感知能力。在COCO数据集中在使用 ResNet网络以及其它网络中加入CBAM模块都可以有效的降低top1和top5 的错误率。因此该模块的有效性和说服力是充分的,但是经过改版之后的模块不足以验证它自身的水平,所以我们取用该模块通过DC竞赛中《地球物候的深度学习预测》使用的数据集和评价指标做进一步的验证,但是在实际训练和测试中发现模型在训练集样本中的预测能力的指标远超过目前初赛排名第一名的队伍,但是因为模型的过拟合问题比较明显,因此导致了模型在实际的比赛中仅获得了第39名的成

7

CN 110532912 A

说 明 书

5/14页

绩。后面我们会根据目前所遇到的问题做进一步的改进与修正。

[0055]本发明在对提取特征后的数据样本在分词预测方面使用单张图片的分词预测结合经过视频分割之后图片序列的分词预测做一个集成学习以期达到更好的学习能力。其中单张图片的分词预测使用的是Inception-Resnet-v2的模型结构,该结构作为目前在同等算力的公开网络模型中的有极大的优势和公信力,因此可以完全满足生活常用语分词的预测工作。因此为了进一步提高分词的识别能力,我们将CBAM(3D+2D)模块与Inception-Resnet-v2模型相结合以期能达到最优的效果。对于图片序列的分词预测我们首先使用3D结构的卷积网络做深层次的语义特征的特征提取,转化成为二维的图片,然后再通过 CBAM模块结合Inception-Resnet-v2模型再进行分词的预测。为了简化对手语视频的数据集的获取难度和工作量,这里我们使用的是经过标注的ConGD数据集。[0056]上述步骤4,具体过程如下:

[0057]本发明在对于经过单帧和多帧共同识别出来的各个分词将使用jieba分词工具包进行词性标注,经过词性标注后的分词将有助于对多个分词作合理且有效的句式整合,并依据一定的语义和语法规则经过一个良好的规划过程,这个过程我们将使用NMS算法进行大量日常用语的训练。以期达到良好的翻译效果来更好的帮扶聋哑人。

[0058]本发明在做实时翻译的过程中使用自然语言处理中的nltk工具包,该包是由宾夕法尼亚大学计算机和信息科学的史蒂芬·伯德和爱德华·洛珀编写。因为其收集了大量公开数据集、模型上提供了全面易用的接口,涵盖了分词、词性标注、句法分析等各项NLP领域的功能,所以该工具包完全可以满足本发明实际的需要。并且使用了北京大学中国语言学研究中心(Center for Chinese Linguistics PKU)中的语料库,该语料库可以为训练出优良且合理的句式提供数据支持。[0059]总之,本发明主要从服务器端和用户端展开设计,首先服务器端部署深度学习训练的模型文件,开放服务程序,由服务程序调用模型接口,用户可以通过该程序和服务器端语义数据库来实现用户需求。用户归属于若干个社区集群内,不同用户可进行实时交流与讨论,用户亦可上传手语视频,上传的视频经过筛选与处理,然后纳入到语义库中去,新纳入的语义集合达到一定数量时,模型将进行加权训练,当加权训练达到一定次数时,模型需要重新训练,最后将验证通过的模型部署到服务器上,当模型迭代到一定次数时,将发布离线模型,来进一步提高识别速度。在实际生活中,用户与用户可以使用此软件通过手语进行交流,即软件提供手语转文字和手语转音频的用户程序。基本思路如图1所示。[0060]本发明涉及的数据集,具体内容如下:[0061]原始数据集

[0062]本发明所使用的第一个数据集为小组3名学生使用单反相机在多个场景下拍摄的8个类别共160组视频集。每个视频在4秒到10秒之间,视频手势均为生活中常用的手语语言。数据集共包含“你好”,“谢谢你”,“对不起”等的多个生活常用语。参见图2和表1。[0063]表1原始数据集

8

CN 110532912 A

说 明 书

6/14页

[00]

DC竞赛数据集

[0066]为了对时间序列作更加深入的研究和算法改进,小组使用部分本发明中所使用到的核心算法针对DC竞赛中《地球物候的深度学习预测》的比赛使用的基于时间序列数据集做了一定的工作。初赛所使用的数据集包含了四个地区,每个地区都具有212个采样时间点的位图信息,初赛赛制要求预测出每个地区后三期的位图信息。本队伍目前在400多支队伍中位列39名。参见图3和表2。[0067]表2 DC竞赛数据集

[0068]

[0065]

  地区 时序个数 图像大小 是否公布

训练集 4 212 1200*1200 是 验证集 4 3 1200*1200 否

[0069]ConGD数据集

[0070]该数据集的全称为ChaLearn LAP ConGD Database,该数据集由Jun Wan and Stan Z.Li等人[2]建立.该数据集包含249种连续手势的类别,共47933组手势数据,并且是一种基于Kinect相机所拍摄的具有多模态特征的数据集,它不仅包含图片的rgb信息,还包含图像的深度信息。参见图4和表3。[0071]表3 ConGD数据集

[0072]

[0073][0074]

Egohands数据集

[0075]Egohands数据集是由印第安纳大学(Indiana University)计算机视觉实验室所提供的关于手部的公开数据集[3],它是一个用于复杂的以自我为中心的交互的数据集,采用第一人称和第三人称的视角所拍摄而成。Egohands数据集包含 48个视频,其中包含两人之间复杂的第一人称互动。这个数据集的主要目的是使更好的、数据驱动的方法能够理解第一人称的计算机视觉。我们将应用此数据集训练出一个优良的手检测器。参见图5。[0076]本发明涉及的训练方法,具体内容如下:[0077]1、迭代器

[0078]在模型训练的过程中,我们在进程中创建另外一个子线程和一个固定长度的队列,该线程用于启用一个迭代器,为模型的训练提供数据,队列中存放迭代器所产生的数据,并按照主线程的需求从子线程中取用数据。使用这种方法可以很大程度上的减轻模型

9

CN 110532912 A

说 明 书

7/14页

训练过中的内存开销,并且降低了模型训练对设备的要求。[0079]2、优化器

[0080]本发明主要选择Adam和RMSprop的优化器来做模型的梯度优化训练。 Adam在所有优化器中对内存需求较小,并且为不同的参数计算不同的自适应学习率,并且适用于训练复杂网络,处理稀疏梯度和优化非平稳目标,也适用于大数据集和高维空间。RMSprop依赖于全局学习率,但是不需要对每一个学习率做手工地调节,并且解决了激进地学习率衰减地问题,适用于训练复杂网络,处理非平稳目标,因此对RNN的训练效果优良。这两种优化器互为补充,为整个模型参数的优化提供了稳定的支持。[0081]3、学习率衰减

[0082]该方法的主要作用是在训练优化的过程中,当标准评估停止提升时,降低学习速率,也就是降低学习率。当学习相对停止时,使用该方法,模型总是会受益于降低2-10倍的学习速率。该方法用于检测一个指标并且当这个指标在一定的训练批次之后还没有进步,那么学习率就会降低,以更好的参数来优化模型。[0083]4、模型的保存与重载

[0084]该方法用于在每个训练批次之后保存模型,以至于在训练中断之后可以顺利的对模型重用或者加载模型权重值进行再训练。并且该方法支持按照模型每一层的名称来加载,这样就给更改模型结构之后重新开始训练提供了很大的便利,也就因此提供了很大的试错空间。[0085]5、选取最优模型

[0086]该方法用于智能的停止训练,它会检测一个评估指标,当这个指标在一定的训练批次之后还没有进步(小于被监测指标提升的最小变化值)时,则停止训练。并且可以从具有被监测数量的最佳值时期恢复模型权重。[0087]6、可视化监督

[0088]在可视化监督方面,本发明使用了当前通用的可视化监督方法,即对 TensorBoard的启用,我们可以通过浏览器来访问TensorBoard中的服务,该服务可以动态的展示出页面中训练集以及验证集的准确率和损失值变化情况,有助于我们了解模型优化过程中的情况,并作出合理的判断。[00]本发明的模型部署,具体内容如下:

[0090]客户端将视频通过ffmpeg进行视频分帧生成若干张图片,在生成的过程中同时将上传的图片转化为字节流,再将字节流转化为字符串同时使用base 进行加密编码。然后在服务器端或客户端在将其通过base解码成字节流,进而再转为相应的图片文件保存至服务器中。

[0091]在服务端利用opencv将图片依次解析成数组,并将数组传递给模型中,获得模型输出结果。同时将输出的结果实时传递到客户端。[0092]本发明客户端的设计,具体内容如下:[0093]1、系统设计的目标及基本思路[0094](1)设计目标

[0095]①高效的把手形特征与视频分隔开来。[0096]②基于Android Studio这一开发平台,得到一个界面友好,功能相对全面,实时翻

10

CN 110532912 A

说 明 书

8/14页

译的准确率高的APP。其将会包括以下几个功能板块:[0097]a:视频转文字信息[0098]b:视频转语音信息[0099]c:文字信息转手语视频[0100]d:语音信息转手语视频[0101]e:用户的社交功能[0102](2)基本思路

[0103]①通过选取视频或者拍摄视频,对所得到的视频进行处理得到结果[0104]②通过用户发表文字和评论文字以实现社交功能[0105]③社交的基本功能:修改、显示个人信息,更改头像,退出账号,登录注册等。[0106]2、系统功能需求[0107]用户需求分析

[0108]作为一款社交性的即时手语翻译软件,本系统应该具备视频识别、语音输入及识别、社区等功能的实现。总体用例图参见图7。[0109]功能需求分析

[0110]当不懂手语的人与聋哑人交流存在困难时,本APP可以通过拍摄聋哑人的手语动作进行识别,并显示该手语动作所表示的含义显示在屏幕上,并将得到的翻译结果实现真人发声,方便使用。同时,本APP可以手动输入或者语音输入,通过输入的文字转化为视频并在屏幕上进行播放,以此达到与聋哑人交流不便的问题。用户可以在社区模块中浏览、点赞及评论其他用户发表的文字,可以点击用户的头像进入目标用户的个人动态中查看目标用户的基本信息以及个人动态,促进了用户和用户之间的交流。用户可以在个人中心中更改自己的基本信息以及浏览自己发表的文字。该APP也支持不同用户的登录以及注册。[0111]系统开发的可行性分析[0112]①技术可行性分析

[0113]安卓作为全球最具有广泛影响力的手机操作系统,它的功能是十分强大的。本系统基于安卓平台,所使用的编程语言是Java语言,所以平台的适用性和相似性非常强,对开发十分有利。

[0114]②经济可行性分析

[0115]开放式源代码手机系统Android具有良好的扩展性,系统中使用的视频分帧技术是FFmpeg工具提供的开源API,语音识别及合成技术是科大讯飞的语音API,方便了广大开发者研究开发,这些都保证了系统在经济上的可行性。[0116]3、系统总体设计[0117]系统总体功能模块,参见图8。[0118]①首页模块

[0119]手语识别功能:通过录制视频或选择手机上的视频进行手语翻译。[0120]文字转视频功能:通过手动输入或语音输入文字,将文字翻译成手语视频的功能。[0121]②社区模块[0122]发表文字:用户通过发表文字来描述自己的心情、观点等。[0123]评论消息:用户可以评论社区中的任何消息。

11

CN 110532912 A[0124]

说 明 书

9/14页

点赞:记录消息的点赞数。

[0125]查看用户动态:点击头像或用户昵称即可查看用户个人动态。[0126]③个人中心模块[0127]个人信息管理:可以修改个人的各种信息,如头像、昵称、性别等,同时也可以退出当前账号。

[0128]个人动态:展示用户的所有的动态信息。[0129]④登录、注册模块[0130]登录:输入邮箱和密码即可登录。[0131]注册:输入邮箱、密码、性别等信息即可完成注册。[0132]数据库设计[0133]①概念模型[0134]表4表汇总

[0135]

根据上面设计规划出来的实体有用户评论实体、用户文字实体、文字点赞实体、头

像信息实体和用户实体。

[0137]表5用户文字表posttable

[0136]

[0138]

[0139]

表6文字评论表commenttable

[0140]

12

CN 110532912 A

说 明 书

10/14页

[0141]

[0142]

表7用户表usertable

[0143]

[0144]

表8文字点赞表praisestaatetable

[0145]

13

CN 110532912 A

说 明 书

11/14页

[0146]

[0147]

表9头像信息表userheadimgtable

[0148]

4、系统详细设计

[0150]登陆模块详细设计[0151]首次打开APP时,则进入登录界面,若有账号,用户登录进入APP主界面,否则需要注册一个新的账号。若以前登录过,APP时则直接进入APP主界面。将登录后的用户信息保存在xml文件中,下次登录时则不用输入账号登录,直接进入主页面。[0152]首页模块详细设计[0153]①手语识别模块设计[0154]Ⅰ.概述

[0155]点击视频的按钮,弹出一个对话框进行录像或者从相册中选择视频的选择,然后对得到的视频进行视频分帧、图像处理,并将处理后的结果作为参数与训练后的模型进行匹配得到手语识别后的结果。[0156]Ⅱ.视频分帧设计与实现[0157]利用FFmpeg工具进行每秒三帧的视频分帧,将分帧后的图片保存进手机新建的文件夹中。

[0158]Ⅲ.图像处理的设计与实现[0159]清洗数据集,对数据集中的不符合要求的视频进行删除(如内容过多,大量无用信息),利用传统的数字图像处理的知识,将视频进行分帧并分类,形成最初的数据集,再对文件进行归类处理,采用最有效的色彩空间HSV模式进行对视频关键信息的保留并放大信息,通过大量的场外选择最合适的阈值,将人体最大的保留,之后再对人体进行信息提取,从图片数据集中将我们所需的手部和脸部的部位完整的提取出来,最后对图片信息进行压缩传送。

[0160]②文字翻译模块设计[0161]Ⅰ.概述

14

[0149]

CN 110532912 A[0162]

说 明 书

12/14页

利用手动输入或语音输入将文字输入到输入框中,然后点击搜索按钮播放该文字

所对应的手语视频。

[0163]Ⅱ.语音输入设计与实现

[01]在布局文件中定义一个语音输入的按钮控件bt_start,为其添加点击事件,按下按钮触发语音识别,调用科大讯飞听些接口API,识别成功后将识别到的文本信息会写到文本框中。

[0165]社区模块详细设计[0166]①社区主页面[0167]Ⅰ.概述

[0168]在社区主页面中展示用户发表的文字,在此页面中可以点击用户的头像进入指定用户的个人动态中,同时也可以对每条消息点赞或者评论。[0169]Ⅱ.获取文字的设计与实现

[0170]在服务端进行与MySql的数据交互操作,将需要的数据以json的格式代码显示在网页上,Android通过网络获取到网页上的内容并将其转化成json对象,再将json对象进行处理,将文字的内容显示出来。[0171]Ⅲ.点赞功能的设计与实现[0172]点击点赞按钮,若按钮图片显示的为未点赞状态,则将图片设置为点赞状态;反之,将图片设置为未点赞。同时记录该篇文字获取的总点赞数。[0173]②发表文字[0174]Ⅰ.概述

[0175]输入文字到输入框中,点击发表按钮后,进行发表,操作成功后跳转到社区的主页面中。

[0176]Ⅱ.发表文字功能的设计与实现[0177]将文字内容提交给网页,服务端代码执行将文字插入到数据库的操作。[0178]③评论文字[0179]Ⅰ.概述

[0180]进入文字的详细页面,点击系统底部的输入框进行输入,点击评论后即可完成评论,同时评论数也会随之加1。[0181]个人中心模块详细设计[0182]①主界面[0183]Ⅰ.概述

[0184]显示用户的头像、昵称、个性签名以及我的动态。点击第一个布局可进入用户的个人资料界面,点击第二个布局可进入用户的动态界面。[0185]②修改个人信息[0186]Ⅰ.概述

[0187]在个人资料界面中,点击每一个布局均可修改对应的用户信息。修改资料后点击保存,会更新用户的信息。

[0188]Ⅱ.更换用户头像的设计与实现[01]将图片资源放在服务器中,获取Mysql数据库中的头像表保存的头像名称,通过

15

CN 110532912 A

说 明 书

13/14页

Glide图片加载框架加载图片并显示在界面上。点击图片后通过更改用户表中的头像名字段以此更改用户的头像。[0190]③查看个人动态[0191]Ⅰ.概述

[0192]显示用户发表过的所有的文字以及用户的一些基本资料。点击每一个文字均可查看文字的细节以及评论。[0193]④退出账号[0194]Ⅰ.概述

[0195]点击退出账号按钮即可注销当前账户,并跳转到登录界面。[0196]基于同一发明构思,本发明实施例提供一种本发明实施例还提供一种手语翻译装置,包括:服务器端和客户端;[0197]服务器端,用于通过yolo3算法和yolo-lite+ROI+CBAM模型,对视频信息进行区域检测并提取手势特征;用于将手势特征与基于CBAM注意力模型和CNN分类算法的特征识别分类器进行匹配,输出分词信息;以及用于通过 nltk框架、jieba工具和NMS算法对分词信息进行整合;[0198]客户端,用于获取待翻译的视频信息;以及用于显示文字信息或语音信息。[0199]进一步地,服务器端,

[0200]还用于通过yolo3算法对手语动作进行检测,将视频信息数据集的图片作为学习的对象,以图片所对应的真实标签为基准,通过卷积神经网络学习图片的特征,仿造人体神经元细胞的构造,对ROI感兴趣区域持续激活和学习参数;

[0201]还用于通过yolo-lite浅层目标检测模型对数据集进行训练,对每个图片提取特征,通过层层学习,细化得到输入图片的关键信息,再和数据集中的标签进行对比矫正,通过反向传播的方式训练得到一个网络模型;

[0202]以及还用于将CBAM注意力模块加入yolo-lite浅层目标检测模型,将原来的卷积分化成多个部分的卷积激活。[0203]进一步地,服务器端,

[0204]还用于将CBAM注意力模块的二维卷积模块扩充为三维卷积模块,对于图片序列的分词预测首先使用三维结构的卷积网络做深层次的语义特征的特征提取,并转化成为二维结构的图片,然后通过CBAM模块结合 Inception-Resnet-v2模型进行分词预测。[0205]进一步地,服务器端,

[0206]还用于对于经过单帧和多帧共同识别出来的各个分词,通过jieba分词工具包进行词性标注,并对词性标注后的分词通过NMS算法进行日常用语训练;[0207]以及还用于在实时翻译时,采用自然语言处理中的nltk工具包进行翻译。[0208]综上所述,本发明使用TensorFlow和Keras深度学习框架,该框架可以有效满足生产和科研的需要,它不仅高效,而且拓展性强、可维护并支持灵活地操作。因而能满足本发明的要求。使用高效的目标检测算法,本发明将使用目前最快的图像检测算法yolo3,该模型的计算速度为每秒40帧左右(根据图像大小会有增减),完全满足目标检测部分实时性的要求。使用Google翻译所使用的Seq2Seq和NMS算法,其算法使用LSTM或者GRU神经元,可以相对完整地保证整个语句的语义完整度,并且使用了attention机制加强了网络长中期记

16

CN 110532912 A

说 明 书

14/14页

忆的能力,该算法作为一种工业级算法而言,有一定的应用优势。视频分词与词嵌入,该部分是我们的一块知识盲点,我们会参照google的word2vec 词嵌入方法,尝试从CBOW和Skip-Gram两个方面进行改进。本发明不仅在 APP中建立了用于交流与反馈的社区功能,还会建立短视频播放及上传的功能,用以吸引更多的用户入驻从而保证了APP上线之后的流量。

[0209]进一步地,本发明的关键技术:在第一阶段,本发明已经使用了CNN的有关算法,训练出了一个基本的模型demo,并投入到了使用;本阶段,也就是模型开发的第二阶段,将采用精度更高的原理和算法:使用目标检测算法获取到视频中关键位置的信息。视频分词分帧并转化为词向量。合理识别单个词向量并翻译为句式流畅且通俗易懂的语句。使用LSTM或者GRU神经元。使用Seq2Seq或NMS机器翻译算法。[0210]进一步地,本发明的先进性:基于移动设备,以APP作为载体,打造用于聋哑人之间正常交流的工具软件。以社区推广的形式,吸收用户的标记视频资料不断扩充样本库,基于服务器端使用深度学习技术进行不断学习并构建手势识别模型,提高识别精度。最大可能地消除了市面上手语识别的局限性,形成通用性解决方案,方便用户使用,易于推广。[0211]以上公开的仅为本发明的几个具体实施例,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

17

CN 110532912 A

说 明 书 附 图

1/6页

图1

18

CN 110532912 A

说 明 书 附 图

2/6页

图2

19

CN 110532912 A

说 明 书 附 图

3/6页

图3

20

CN 110532912 A

说 明 书 附 图

4/6页

图4

图5

21

CN 110532912 A

说 明 书 附 图

5/6页

图6

22

CN 110532912 A

说 明 书 附 图

6/6页

图7

图8

23

因篇幅问题不能全部显示,请点此查看更多更全内容