基于深度视频的人体行为特征表示与识别-孙艳丰.pdf

上传人:1890****070 文档编号:101871 上传时间:2018-05-12 格式:PDF 页数:8 大小:2.42MB
返回 下载 相关 举报
基于深度视频的人体行为特征表示与识别-孙艳丰.pdf_第1页
第1页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于深度视频的人体行为特征表示与识别-孙艳丰.pdf》由会员分享,可在线阅读,更多相关《基于深度视频的人体行为特征表示与识别-孙艳丰.pdf(8页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第42卷第7期2016年7月北京工业大学学报JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGYVol.42 No.7Jul. 2016基于深度视频的人体行为特征表示与识别孙艳丰,张 坤,胡永利(北京工业大学城市交通学院多媒体与智能软件技术北京市重点实验室,北京 100124)摘 要:深度视频中的人体行为的识别研究主要集中在对深度视频进行特征表示上,为了获得具有判别性的特征表示,首先提出了深度视频中一种基于表面法向信息的局部二值模式(local binary pattern, LBP)算子作为初级特征,然后基于稀疏表示模型训练初级特征字典,获取初级特征的稀疏表

2、示,最后对用自适应的时空金字塔划分的若干个子序列使用时空池化方法进行初级特征与稀疏系数的规格化,得到深度视频的高级特征,最终的特征表示实现了深度视频中的准确的人体行为识别.在公开的动作识别库MSR Action3D和手势识别库MSR Gesture3D上的实验证明了本文提出的特征表示的有效性和优越性.关键词:深度视频;行为识别;深度序列分割;局部二值模式算子;稀疏表示中图分类号: U 461; TP 308文献标志码: A文章编号: 0254 -0037(2016)07 -1001 -08doi: 10.11936/ bjutxb2016010029收稿日期: 2016-01-13基金项目:国

3、家自然科学基金资助项目(61370119)作者简介:孙艳丰(1964 ),女,教授,博士生导师,主要从事多功能感知、模式识别方面的研究, E-mail: yfsun bjut. edu. cnAction Feature Representation and Recognition Based on Depth VideoSUN Yanfeng, ZHANG Kun, HU Yongli(Beijing Key Laboratory of Multimedia and Intelligent Software Technology, College of MetropolitanTranspo

4、rtation, Beijing University of Technology, Beijing 100124, China)Abstract: Researches of human behavior recognition in depth video focused on depth video s actionfeature representation was conducted to obtain a discriminative feature representation. Firstly a LBPoperator based on the surface normal

5、in depth video as a lower feature was proposed. Then the featureswere used to train a dictionary to get sparse representation. Lastly the original depth video was dividedinto some sub depth video by an adaptive spatio-temporal pyramid and a pooling method was adopted tonormalize the lower features a

6、nd the sparse coefficient to get a higher representation. The highrepresentation realizes an accurate recognition of human behavior. The experiments on the actionrecognition dataset MSR Action3D and gesture recognition dataset MSR Gesture3D prove the author蒺simproved encoding algorithms feasibility

7、and superiority.Key words: depth video; action recognition; depth sequences segmentation; LBP(local binary pattern)operator; sparse representation人体行为识别在视频监控、医疗健康看护1等领域已经具有广泛应用.但目前人体行为识别的研究主要集中在传统彩色图像视频上,由于彩色图像视频缺乏人体的三维空间信息,对行为特征的描述不够全面,很难处理遮挡、光照及行为外观变化的特征描述问题,因此其应用效果及范围具有一定局限性2-3.随着图像获取技术的进步,深度图像获取

8、越来越容易.深度图像相比传统的彩色图像能提供更多的人体表观和结构信息,对光照变化不敏感,因此在行为识别领域,引入深度信息,研究基于深度信息北 京 工 业 大 学 学 报2016年的人体特征表示与提取是人体行为识别的关键,已经引起人们的极大关注4-6.局部二值模式(local binary pattern,LBP)是一种计算简单、非参数化的局部纹理模式描述算子,它在二维图像特征表示与提取中获得了成功.由于它对光照变化不敏感,因此,是一种有效的纹理描述算子7-8.受LBP描述算子的启发,为获取深度图中反映不同人体行为表面的曲面特征,进一步提高人体行为识别的鲁棒性,本文通过对LBP模式的深入研究,根

9、据深度图中人体结构的相似性及关联信息,定义了深度图中法向信息的LBP描述算子,该算子在细节上保持了人体行为曲面的几何特性,局部空间上提取了曲面的局部特征,并以此作为深度图中人体行为局部特征表示.全局上,基于字典学习的编码方法整合了细节信息,自适应时空金字塔和稀疏系数的池化处理保持住了人体曲面的局部空间结构关系,实现对三维人体行为的细节和整体特征描述.通过在公开使用的MSR Action3D和MSR Gesture3D人体行为数据库上的实验,证实了本文方法的可行性和优越性.1 基于法线信息的LBP算子在模式识别中,LBP算子最早应用于二维人脸图像的识别,它在图像一个区域窗口内,以窗口的中心像素为

10、阈值,将相邻若干个像素的灰度值与其进行比较,若邻域像素值大于中心像素值,则该像素点的位置被标记为1,否则标记为0.这样,一个区域窗口中便可产生一个二进制数(通常转换为十进制数),即得到该窗口中心像素点的LBP值,这个值反映了该区域的局部纹理信息7.鉴于LBP算子在二维模式识别领域中的成功应用9 -10,本文将LBP算子推广到深度视频序列中,提出了描述深度视频中基于表面法向信息的LBP算子,这种LBP算子可以很好地描述曲面的曲率变化特性.由于深度序列可以看作是一个三维到一维的函数z = f(x,y,t),这样便得到了由一系列的点(x,y,z,t)组成满足S(x,y,t,z) = f(x,y,t)

11、 - z =0的四维超平面.该超平面上点(x,y,z,t)的法线方向为N = 驻S (= 鄣z鄣x,鄣z鄣y,鄣z鄣t, )-1T(1)和传统的梯度方向相比,法向量的方向与4D曲面的形状相关,法向量的方向分布能够比传统的梯度方向提供更多的几何信息,也可以更精确地表述四维超平面的几何信息5.考虑到法线代表四维空间中的方向,基于原来LBP算子的构造思路,根据深度图中某一点法线与其八邻域点法线间的角度关系定义该点的新的LBP算子为LBP(P) = 移7n =0B(Angle(N,Nn)2nB(x) = 0, x 孜), i 1(4)式中:孜为设定的阈值;sum( )用于计算二值图中非零的个数.不同于

12、均匀划分时间完成视频分割,本文使用均匀划分累积运动能量所对应的时刻来进行视频分割.如图6所示,先对能量进行均匀划分后得到5个时刻t0、t1、t2、t3、t4,利用这几个时刻构造一个3层的时间金字塔:t0 - t4时间段内所有的帧作为第1层;将t0 - t4分为2个子序列t0 - t2、t2 - t4,作为金字塔的第2层;再对t0 - t2、t2 - t4进一步划分得到4个子序列t0 - t1、t1 - t2、t2 - t3、t3 - t4,作为金字塔的第3层.构建的时间金字塔见图7.在时空维度,原深度序列被划分为4 伊3 伊7个子序列.图6 时间维度根据能量函数分段Fig.6 Sequence

13、s segment according to the energy function图7 构建时间金字塔Fig.7 Pyramid in temporal dimension4. 2 池化处理对于每个子序列,通过前面字典学习得到了字典及其稀疏表示系数,使用了池化(pooling)技术对稀疏系数进行处理得到每个子序列的描述符.原始的池化技术主要有2种,平均值池化就是对池化数4001 第7期孙艳丰,等:基于深度视频的人体行为特征表示与识别据取平均值,最大值池化就是求池化数据的最大值.根据稀疏系数的特点,本文使用一种全新的池化方法,即空间平均池化与时间最大池化.另外,并不是直接对稀疏系数进行池化,而

14、是通过池化组合LBP特征和字典的每个视觉词的加权差异来表示原有数据.给定一个维度为W 伊 H 伊 T的深度序列,它的组合LBP特征为x = (x1,x2, ,xP)沂 RM 伊 P(P = W 伊H 伊 T),关于字典D的稀疏表示系数为琢 = (琢1,琢2, ,琢P)沂 RK 伊 P,琢i的第k个元素记为琢ki . x中在该序列第t帧的子集计为Nt.对字典的每个视觉词,首先应用空间平均池化计算组合LBP特征与视觉词之间的差异uk(t) = 1|Nt |移i沂 Nt琢ki (xi -dk) (5)式中:uk(t)沂 RM,表示第t帧内第k个视觉词的池化差异向量;|Nt |表示集合Nt中元素个数;

15、琢ki为组合LBP特征xi对应字典D的稀疏系数琢i的第k个元素.然后,使用时间最大池化得到差异向量uk沂RM,uk的第m个元素umk (t)的计算方法为umk = maxt =1, ,Tumk (t), m =1, ,M (6)时间最大池化后得到的特征向量uk在保留序列重要的类别信息的同时又去除了大量冗余的信息.最后,将所有视觉词的差异向量连结起来得到该子序列的M 伊 K维的描述符,得到子序列的规格化的表示U = (uT1, ,uTK)沂 RM* K (7)最终的将4. 1节中的84个子序列的描述符串联在一起作为原始深度序列的最终的描述符,将这个描述符输入到文献12中相同的线性SVM分类器进行

16、分类识别.5 实验结果与分析为了验证本文定义的行为特征的表示能力和识别效果,在2个公开的人体行为数据库上进行了实验.所有实验代码使用Matlab语言编写,实验的软件环境为Windows 7 64位,Matlab 2014;硬件环境为Intel(R) Xeon(R) CPU E5-2687W 伊2,128 GB.5. 1 基于MSR Action3D数据库的人体行为识别MSR Action3D数据库3是使用微软Kinect深度传感器采集的公共数据库,该数据库由10个表演者完成20种动作的深度序列构成,每个表演者的每个动作采集2 3次. 20种动作分别为:高挥臂(high arm wave)、低挥

17、臂(horizontal arm wave)、敲打(hammer )、手抓( hand catch )、冲拳( forwardpunch)、高抛(high throw)、画叉(draw 伊 )、画勾(draw tick)、画圆(draw circle)、拍手(hand clap)、双手挥(two hand wave)、侧拳( side boxing)、弯腰(bend)、向前踢( forward kick)、向侧方踢( sidekick)、慢跑(jogging)、网球挥拍(tennis swing)、网球发球(tennis serve)、高尔夫挥杆(golf swing)、拾起并抛出(pick

18、up and throw).虽然这个数据库的背景经过处理,但是由于20种动作中许多动作非常相似,对这个数据集进行识别仍然具有很大的挑战性.为了便于性能比较,遵循文献4,5,12中的实验设置:在10个表演者中,选择第1、3、5、7、9个的数据作为训练集,第2、4、6、8、10个的数据作为测试集.首先通过实验考察LBP算子的邻域半径对识别性能的影响,这次实验使用了2. 2中的空间金字塔LBP算子的组合方式,实验结果见表1.表1 在MSR Action3D数据库上,不同LBP算子邻域的识别结果Table 1 Results of LBP operator with different radius

19、onMSR Action3D datasetLBP算子邻域半径正确率/ %1 93. 822 94. 913 94. 554 93. 81可以发现,当LBP算子邻域半径r =2时得到了识别率为94. 91%的最好识别结果,这个结果比原始的r =1时的结果提升了1%,这表示改进后LBP对识别起了积极的作用.选取r = 2在该数据库上进行下面的实验.其次,考察深度序列中LBP算子的2种组合方式对识别性能的影响,实验结果见表2,表中“不组合冶表示使用中心的LBP算子作为LBP特征进行后续编码工作,这种特征中心点使用一维数字表示,没有考虑到深度序列的时序性,也几乎没有考虑中心点邻域信息,所以识别结果不

20、理想;使用组合的LBP算子方式后,弥补了这种缺憾,实验结果明显改善.本文提出的方法与一些现有算法的实验结果比较见表3.实验中,LBP邻域半径设置为2,采用空间金字塔的LBP算子组合方式.本文选择了近几年比较杰出的识别方法作为比较对象,实验中都使用5001北 京 工 业 大 学 学 报2016年表2 在MSR Action3D数据库上,不同LBP算子组合方式的识别结果Table 2 Results of LBP operator with differentcombinations on MSR Action3D datasetLBP算子组合方式正确率/ %不组合91. 64立方体方式组合93.

21、 48金字塔方式组合94. 91同样的实验装置,这些比较方法中,文献4,13-16是基于骨架点的方法,这些方法对Kinect提取到的骨架点的精确程度很高,但存在遮挡或数据丢失时会严重降低实验结果;文献14使用算法选取k个最相关的骨架点,这样可以避免一些不精确的骨架点对识别的影响,取得了同类方法中最好的识别结果;文献17-18使用不同方式提取深度序列中的关键点,利用这些关键点提取特征,其识别结果对关键点依赖性较高;文献19中的方法是将一个深度序列相邻帧的差异累计起来形成一幅深度运动累积图8 使用法线LBP +金字塔特征组合方法的混淆矩阵Fig.8 Confusion matrix of LBP

22、and pyramid method(DMM)图像,之后在这个DMM图像上提取梯度方向直方图(HOG)特征进行特征表示;文献5,12都是基于法线的方法,文献5中将法线投影到预先选定的120个方向,没能对法线进行进一步表示,文献12直接对法线信息进行编码,没能充分利用一个邻域内的法线共同表示所蕴含的信息.从表3可以发现,本文提出的方法获得了最高的94. 91%的识别结果,实验结果进一步证明了本文提出的行为特征表示弥补了其他方法的不足,具有较强的区分性、鲁棒性和稳定性.表3 在MSR Action3D数据库上,现有方法与本文方法的识别率比较Table 3 Comparison of the pro

23、posed method with otherson MSR Action3D dataset方法正确率/ %Histogram of 3D Joints13 79. 00Eigen Joints16 82. 30STOP15 84. 80Actionlet Ensemble4 88. 20Pose Set14 90. 00Depth Motion Maps19 88. 73HON4D5 88. 89DSTIP17 89. 30HOPC18 92. 64SNV12 93. 09本文方法94. 91实验的混淆矩阵如图8所示,混淆矩阵纵坐标表示动作类别,横坐标表示实验识别的动作类别.由混淆矩阵可以

24、观察到:因为“手抓冶和“高抛冶动作十分相似,所以33%的“手抓冶被识别成了“高抛冶;同样因为“冲拳冶“画叉冶与“敲打冶动作相似度很高,所以27%的“冲拳冶、21%的“画叉冶被识别成“敲打冶.6001 第7期孙艳丰,等:基于深度视频的人体行为特征表示与识别5. 2 基于MSR Gesture3D数据库的人体行为识别MSR Gesture3D是一个通过深度相机获取深度序列的手势数据库,也是一种十分流行的人体手势测试评价数据库.该数据库包含了12个由美国标准手语(American sign language, ASL)定义的动态手势,它们是:z、j、哪里(where)、商店(store)、猪(pig

25、)、过去(past)、饥饿(hungry)、绿色(green)、完成(finish)、蓝色(blue)、浴室( bathroom)、牛奶(milk).每个手势由10个人执行2或3次.这个数据库比MSR Action3D数据库存在更多的自遮挡问题,这个数据库具有很强的挑战性.本文采用了文献5,12中的实验设置:Leave-one-subject-out交叉验证方法,进行了10次实验.第1次实验使用第1个表演者的所有数据作为测试集,其余表演者的数据作为训练集,第2次实验使用第2个表演者的所有数据作为测试集,其余表演者的数据作为训练集,以此类推,最终取这10次实验结果的平均值作为最后的识别率.因为手

26、势中没有骨架点信息,所以基于骨架点的方法无法在这个数据库上进行实验.本文的实验结果与其他方法的比较见表4,文献6方法优化了原来文献19中DMM图像,对原DMM图进行了边缘增强的处理并加入了动态的时间金字塔方法.表4 在MSR Gesture3D数据库上,现有方法与本文方法的识别率比较Table 4 Comparison of the proposed method withothers on MSR Gesture3D dataset方法正确率/ %Action Graph on Occupancy20 80. 50Action Graph on Silhouette20 87. 70Rand

27、om Occupancy Pattern2 88. 50Edge enhanced DMM6 89. 20HON4D5 92. 45SNV12 94. 74本文方法95. 36从表4可以看出,本文方法取得了95. 36%的识别率.混淆矩阵如图9所示,从这个矩阵可以发现,本文方法在绝大多动态手势上都有优异的效果,相比文献12, 17 ,同样是基于法线的方法,由于LBP编码方式在保留整体信息的同时更加强调图像中手的边缘信息,因此,本文结果优于这2种方法.由于该数据库为手势数据库,在采集手势的过程中存在双手互相遮挡以及手指间遮挡的现象,本文方法首先提取表面法线弱化了遮挡带来的深度值的变化,然后按金字

28、塔方式提取的组合LBP特征扩大了原始LBP特征的表示范围,最后通过稀疏表示与池化方法全局上对深度视频进行编码.这些手段克服了数据库自遮挡问题,本文方法在该数据库每个手势上均取得了较高的识别结果,并得到了最高的平均识别率.图9 本文方法在MSR Gesture3D数据库上的混淆矩阵Fig.9 Confusion matrix on MSR Gesture3D dataset6 结论1)针对深度视频序列,提出了一种基于法向信息的LBP算子,提取深度视频序列中人体行为的初级特征,并组合LBP算子以更好表示具有动态时序特性的人体行为.2)提出了基于时空金字塔的深度序列分割方法,该方法将视频序列划分成若

29、干子序列.对每个子序列,基于稀疏表示模型提取其组合LBP特征的表示系数,对每个子序列池化组合LBP特征相对字典每个视觉词的加权系数差异,作为行为时序特征的描述符.3)在公开的动作识别库MSR Action3D和手势识别库MSR Gesture3D上的实验证明了本文特征描述的有效性和优越性.参考文献:1李瑞峰,王亮亮,王珂.人体动作行为识别研究综述J.模式识别与人工智能, 2014(1): 35-48.LI R F, WANG L L, WANG K. A survey of human bodyaction recognition J. Pattern Recognition and Arti

30、ficialIntelligence, 2014(1): 35-48. (in Chinese)2 WANG J, LIU Z C, CHOROWSKI J, et al. Robust 3daction recognition with random occupancy patterns C椅7001北 京 工 业 大 学 学 报2016年European Conference on Computer Vision ( ECCV ).Florence: Springer, 2012: 872-885.3 LI W Q, ZHANG Z Y, LIU Z C. Action recogniti

31、on basedon a bag of 3d points C椅 IEEE Conference on ComputerVision and Pattern Recognition Workshop (CVPRW). SanFrancisco: IEEE, 2010: 9-14.4 WANG J, LIU Z C, WU Y, et al. Mining actionletensemble for action recognition with depth cameras C椅IEEE Conference on Computer Vision and PatternRecognition (

32、CVPR). Providence: IEEE, 2012: 1290-1297.5 OREIFEJ O LIU Z C. HON4D: Histogram of oriented 4dnormals for activity recognition from depth sequencesC椅 IEEE Conference on Computer Vision and PatternRecognition (CVPR). Portland: IEEE, 2013: 716-723.6 ZHANG C Y, TIAN Y L. Edge enhanced depth motionmap fo

33、r dynamic hand gesture recognition C 椅 IEEEConference on Computer Vision and Pattern RecognitionWorkshop (CVPRW). Portland: IEEE, 2013: 500-505.7 TIMO O, MATTI P, TOPI M. Multiresolution gray-scaleand rotation invariant texture classification with local binarypatterns J. IEEE Transactions on Pattern

34、 Analysis andMachine Intelligence, 2002, 24(7): 971-987.8刘丽,匡纲要.图像纹理特征提取方法综述J.中国图象图形学报, 2009(4): 622-635.LIU L, KUANG G Y. Overview of image textural featureextraction methods J椅 Journal of Image and Graphics,2009(4): 622-635. (in Chinese)9 WANG X Y, HAN T X, YAN S C. An HOG-LBP humandetector with p

35、artial occlusion handling C 椅 IEEEInternational Conference on Computer Vision ( ICCV).Kyoto: IEEE, 2009: 32-39.10唐恒亮.基于三维特征的人脸识别算法研究D.北京:北京工业大学, 2011.TANG H L. Face recognition based on 3D features D.Beijing: Beijing University of Technology. 2011. ( inChinese)11 LUO J, WANG W, QI H. Group sparsity

36、and geometryconstrained dictionary learning for action recognition fromdepth maps C 椅 IEEE International Conference onComputer Vision (ICCV). Sydney: IEEE, 2013: 1809-1816.12 YANG X D, TIAN Y L. Super normal vector for activityrecognition using depth sequences C 椅 IEEEConference on Computer Vision a

37、nd Pattern Recognition(CVPR). Columbus: IEEE, 2014: 804-811.13 XIA L, CHEN C C, AGGARWAL J K. View invarianthuman action recognition using histograms of 3d jointsC椅 IEEE Conference on Computer Vision and PatternRecognition Workshop (CVPRW). Providence: IEEE,2012: 20-27.14 WANG C, WANG Y, YUILLE A. A

38、n approach to posebased action recognition C 椅 IEEE Conference onComputer Vision and Pattern Recognition ( CVPR).Portland: IEEE, 2013: 915-922.15 VIEIRA A W, NASCIMENTO E R, OLIVEIRA G L, etal. STOP: space-time occupancy patterns for 3D actionrecognition from depth map sequences C 椅 17thIberoamerica

39、n Congress on Pattern Recognition. BuenosAires: Springer, 2012: 252-259.16 YANG X, TIAN Y. Eigenjoints based action recognitionusing naive bayes nearest neighbor C 椅 IEEEConference on Computer Vision and Pattern RecognitionWorkshop (CVPRW). Providence: IEEE, 2012: 14-19.17 XIA L, AGGARWAL J. Spatio-

40、temporal depth cuboidsimilarity feature for activity recognition using depthcamera C椅 IEEE Conference on Computer Vision andPattern Recognition (CVPR). Portland: IEEE, 2013:2834-2841.18 RAHMAIN H, MAHMOOD A, DU Q H, et al. HOPC:histogram of oriented principal components of 3D pointclouds for action

41、recognition C椅 European Conferenceon Computer Vision (ECCV). Zurich: Springer, 2014:742-757.19 YANG X, ZHANG C, TIAN Y L. Recognizing actionsusing depth motion maps-based histograms of orientedgradients C 椅 ACM International Conference onMultimedia. Nara: ACM, 2012: 1057-1060.20 KURAKIN A, ZHANG Z, LIU Z. A real-time system fordynamic hand gesture recognition with a depth sensor C 椅 European Signal Processing Conference(EUSIPCO). Bucharest: IEEE, 2012: 1975-1979.(责任编辑 吕小红)8001

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 论证报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com