基于时空信息和非负成分表示的动作识别-王健弘.pdf-得力文库

资源描述

《基于时空信息和非负成分表示的动作识别-王健弘.pdf》由会员分享，可在线阅读，更多相关《基于时空信息和非负成分表示的动作识别-王健弘.pdf（6页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第46卷第4期2016年7月东南大学学报(自然科学版)JOURNAL OF SOUTHEAST UNIVERSITY(Natural Science Edition)V0146 No4July 2016DOI：103969jissn10010505201604001基于时空信息和非负成分表示的动作识别王健弘张旭章品正姜龙玉罗立民(东南大学影像科学与技术实验室，南京210096)摘要：为充分利用时空分布信息及视觉单词间的关联信息，提出了一种新的时空一非负成分表示方法(ST-NCR)用于动作识别首先，基于视觉词袋(BoVW)表示，利用混合高斯模型对每个视觉单词所包含的局部特征的时空位置分

2、布进行建模，计算时空Fisher向量(STFV)来描述特征位置的时空分布；然后，利用非负矩阵分解从BoVW表示中学习动作基元并对动作视频进行编码为有效融合时空信息，采用基于图正则化的非负矩阵分解，并且将STFV作为图正则化项的一部分在3个公共数据库上对该方法进行了测试，结果表明，相比于BoVW表示和不带时空信息的非负成分表示方法，该方法能够提高动作识别率关键词：动作识别；非负成分表示；时空Fisher向量；视觉词袋中图分类号：TP3914 文献标志码：A 文章编号：10010505(2016)04-0675-06Action recognition based on spatiotempora

3、l informationand nonnegative component representationWang Jianhong Zhang Xu Zhang Pinzheng Jiang Longyu Luo Limin(Laboratory ofImage Science and Technology，Southeast University，Nanjing 210096，China)Abstract：To make full use of spatial-temporal information and the relationship among different visu-al

4、 words，a novel spatialtemporal nonnegative component representation method(STNCR)is proposed for action recognitionFirst，based on BoVW(bag of visual words)representation，the loca-tions of local features belonging tO each visual word are modeled with the Gaussian mixture model，and a spatiotemporal Fi

5、sher vector(Sw)is calculated to describe the location distribution of localfeaturesThen，nonnegative matrix factofization(NMF)is employed to learn the action componentsand encode the action video samplesTo incorporate the spatialtemporal cues for final representa-tion，the graph regularized NMF(GNMF)i

6、s adopted，and STFv is used as part of graph regulariza-tionThe proposed method is extensively evaluated on three public datasetsExperimental resultsdemonstrate that compared with BoVW representation and nonnegative component representationwithout spatiotemporal information，the method call obtain bet

7、ter action recognition accuracyKey words：action recognition；nonnegative component representation；spatiotemporal Fisher Vector；bag of visual words人体动作识别是当前计算机视觉和模式识别领域的研究热点之一，它在视频分析、视频检索、智能监控以及人机交互等领域中有着广泛的应用人体动作识别最关键的问题是如何有效并具有区分性地表示动作视频片段目前广泛应用的方法是提取视频中的局部特征并采用视觉词袋(BoVW)给出视频表示该方法采用码书中的视觉单词对动作视频中的每一

8、个局部特征进行编码，然后统计整段视频的视觉单词直方图作为该视频的表示向量已有许多学者针对局部特征进行了研收稿日期：20164)2-24作者简介：王健弘(1984一)，男，博士生；罗立民(联系人)，男，博士，教授，博士生导师，luo1istseneduca基金项目：国家自然科学基金青年科学基金资助项目(61401085)、教育部留学归国人员科研启动基金资助项目(2015)引用本文：王健弘，张旭，章品正，等基于时空信息和非负成分表示的动作识别J东南大学学报(自然科学版)，2016，46(4)：675680DOI：103969jissn1001-0505201604001676 东南大学学报(自然科

9、学版) 第46卷究，提出了一些行之有效的特征，如HOGHOF【2 J，HOG3D【3 J，Gist3D【4 J，以及密集轨迹【51等同时，也有学者从改进编码方式角度来提高识别精度，包括局部软分配M J、稀疏编码【刊以及局部约束线性编码81等但BoVW方法仍存在一些缺陷：基于BoVW给出的表示向量仅统计了视觉单词的出现频次，却未考虑视觉单词之间的关系；该方法还忽略了局部特征的位置分布信息有效利用这些信息对于提高动作识别率是有益的为解决上述问题，本文提出一种基于时空位置信息和非负成分表示的动作识别方法非负成分表示是一种中层表示方法，采用动作基元作为词典基本单元，每个动作基元由若干相关的底层视觉单词

10、构成，通过非负矩阵分解(NMF)从训练样本的BoVW底层特征表示中学习得到时空信息采用时空Fisher向量(S，nW)表示，时空Fisher向量描述每一个视觉单词所对应的所有底层局部特征位置的时空分布将时空Fisher向量在计算非负成分表示时加入，得到结合时空分布信息的非负成分表示向量，称之为时空一非负成分表示(STNCR)采用时空qE负成分表示作为动作视频的最终表征来训练SVM分类器，实现动作识别1 时空Fisher向量考虑到由同一视觉单词所描述的底层局部特征的时空位置分布具有一定的规律性，本文利用混合高斯模型和Fisher向量描述底层局部特征时空位置分布以及该分布和视觉单词之间的关系首先采

11、用混合高斯模型对每个视觉单词所包含的底层特征时空位置分布进行建模，设InR3(n=1，2，)为特征J。R4(n=1，2，)所对应的时空位置坐标，视觉单词总数为K，则第k个视觉单词所对应的特征位置分布可表示为Gp(1。I k)=坛(L Ip妇，) (1)式中，()表示高斯分布；G为高斯模型的个数；坛It妇和ok分别为第g个高斯模型的混合权重、均值向量和协方差矩阵基于式(1)，位置L的全局分布可表示为置p(1。)=(忌)p(厶I k) (2)式中，(k)为特征分配到视觉单词k的权重得到位置f。的全局分布后，求取时空Fisher向量对位置L的全局分布P(L)求对数似然函数关于http：journal

12、seueduCBp船和的梯度，位置l。关于弘妇和的归一化梯度向量q。培和G，妇可由如下公式得到： =志耋讯啪)警(3)6。，蛔=i了乏三云荟N y：(忌)y。(g)【!生三乏垒三一1】(4)式中，7：(忌)表示位置1。属于视觉单词k的后验概率；y幺(g)表示位置l。在视觉单词k的混合高斯模型中属于第g个高斯单元的后验概率；。=寺(七)最终，时空s 向量z由这K组混n=lFi her合高斯模型中所有高斯单元上的瓯，船和G，姆组合而成：Z=q，ll，G：，G三，。G，G：lG，哪，耵，G：舯，肼，G：，肼7 (5)2非负成分表示非负成分表示是采用非负矩阵分解【91对BoVW底层特征表示进行分解得到

13、的非负矩阵分解是一种矩阵分解方法，它将一个非负矩阵分解为2个非负矩阵的乘积非负矩阵分解能够降低数据维度，同时，相对于其他矩阵分解方法，由于有非负约束的存在，数据由基向量叠加表达，具有一定的物理意义和可解释性，并且合乎大脑感知的直观体验令Y；E R埘(f=1，2，)为第i个视频的一个M维的底层特征表示向量，Y=Y。，Y：，YR觚为由所有视频的底层特征表示组成的矩阵对y进行非负矩阵分解，即最小化以下目标函数：O=IIywII 2 (6)式中，U=Itl，It2，H置R肘。2和V=1，l，l，：，l，R融为非负矩阵若将U的每一列定义为一个动作基元，则列向量中每一个元素对应一个底层特征的视觉单词，动作

14、基元可以看成是由多个相关的底层特征视觉单词共同构成的中层特征表示矩阵y中的列向量l，则可以看作是第f个视频基于动作基元词典u的中层表示向量，本文将l，；称之为视频f的非负成分表示非负成分表示相对于BoVW底层特征表示而言更加简洁通过非负矩阵分解可以找出视觉单词间的关联，同时提取出真正有效通用的视觉单词，第4期王健弘，等：基于时空信息和非负成分表示的动作识别 677抑制一些仅存在于少数样本，对后续分类作用不大的视觉单词21时空一非负成分表示常用的特征融合方法有特征表示融合和核融合特征表示融合是在底层或中层特征表示时将2种特征向量拼接由于时空Fisher向量维数较大，特征表示融合方法得到的表示向

15、量维数过大，不利于后续计算，而且会导致结果主要受时空Fisher向量的影响核融合首先分别求取底层特征和时空Fisher向量的非负成分表示，在SVM分类前计算核矩阵，将2个核矩阵融合后再进行分类对于核融合，由于2种特征非负成分表示分开求取，因此同一样本中底层特征和时空Fisher向量之间的相互关系在中层表示中得不到体现为解决以上问题，本文提出一种新的融合方法，即采用基于图正则化的非负矩阵分解(GNMF)叫计算动作基元矩阵U以及非负成分表示矩阵y，同时将时空Fisher向量作为图正则化项的一部分，与底层特征在图正则化项内融合该方法不仅有效融合了时空分布信息，而且非负成分表示的向量维度也没有增加由此

16、得到的非负成分表示被称为时空一非负成分表示该方法的目标函数如下：O=II Y一，y II 2+下AII吩一l，。II 2(JBw；+-iJ=1(1一p)w。D) (7)相比于式(6)，式(7)的第2部分是新增的图正则化部分式(7)中，口为权重参数；A为正则化参数；w=(w；)R，酽=(w；)R肌。分别为底层特征表示向量和时空Fisher向量的相似性矩阵，采用热内核权重分别定义如下：慨F：feXp(一言。乃一y r Il 2) ，j属于同类【0 i,j属于不同类(8)wP：exp(丁1崦一zr II 2) ，J属于同类【O f，属于不同类(9)式中，6为宽度参数式(7)中的口用来调节矿和WD所占

17、比重，当卢=1时，式(7)退化为标准形式的GNMFGNMF通过添加图正则化项保证了数据在变换前后的空间结构具有相似性，即式(7)保证了如果2个同类样本底层特征表示和时空分布相似，那么两者的时空一非负成分表示也依然是相似的22时空一非负成分表示计算方法定义w=3w8+(1一卢)妒以及对角矩阵D=(如)，dii=，同时定义拉普拉斯矩阵L=DW，则式(7)的目标函数可简化为0=II ywI|2+ArT(VL矿) (10)该目标函数与标准GNMF简化后的形式相同，可采用交替迭代的方法求解，和y，迭代规则如下：睢uo品 (11)肛yo嬲(12)式中，符号。表示两矩阵对应元素相乘；除法表示两矩阵对应元素相

18、除对于测试集的视频样本，首先计算所有样本的底层特征表示Yt=Yn，Y12，y龇以及时空Fisher向量z。=zn，Z12，z以，其中t为测试视频样本的数目最简单的求取中层表示的方法是根据词典u直接计算K=U+Yt，符号卡表示伪逆但是这种方法求出的中层表示无法保证非负特性，同时该方法忽略了测试样本的时空分布信息以及测试集与训练集之间的关系本文考虑依然采用GNMF求取测试集的非负成分表示K，将测试集和训练集的数据同时代人式(7)，则目标函数变为如下形式：、+tO。=II 9一u矿Il 2+争o_一V；II 2(卢访；+(1一卢)品：)=l|Pu矿0 2+Atr(说伊)=0 yuy 0 2+l|yt

19、uK 0 2+Atr(说伊)(13)式中，符号“表示矩阵同时包含训练集和测试集的数据对于式(13)，U和y已知，测试集的非负矩阵Vt=(v，)为变量，求解K使目标函数最小化采用拉格朗日乘子法求解，设咖；为约束1，t(，)o所对应的拉格朗日乘子，咖=(咖；)构造如下拉格朗日函数L：L=O。+tr(咖卅) (14)将拉格朗El函数L对K求一阶偏导，可得芳=一2矿yt+2UTUV。+2A(L2+痧(15)式中，L：是的+1N+t列组成的子矩阵利用KKT条件咖口1，。(口)=0，可得一(矿yt)批u)+(矿)批u)+A(钇2)汛u)=0(16)http：journalseueducn678 东南大学学

20、报(自然科学版) 第46卷进一步推导，可得到K的迭代更新规则：g o竺娶竺生 (17)t+-Vto而寿五茜 17)式中，wj和JD：为与L：相对应的矩阵分块式(17)体现了测试集的时空一非负成分表示计算不仅依赖于动作基元字典u，同时也考虑了时空分布信息以及测试集与训练集各样本间的相关性，这保证了训练集和测试集时空一非负成分表示的一致性图1给出了整个方法的实现流程图3实验结果与分析图1本文方法的实现流程图31 数据库及参数设置本实验采用3个通用的动作识别评估数据库KTH，YouTube和HMDB51来验证本文方法的有效性KTH数据库1包含25人在4个不同场景下的6类动作(Walking，Jogg

21、ing，Running，Boxing，Waving，Clapping)，共计600个视频实验设置同文献11，600个视频分为2 391段，将16人的动作片段作为训练集，其余9人的动作片段作为测试集YouTube数据库纠包含11类动作，每一类动作被分为25个独立的组，每组48个视频，不同组的视频是在不同环境下拍摄的，共计1 168个视频片段视频全部取自YouTube网站，分辨率低，背景复杂实验采用留一法交叉验证【l 2|，每次一组视频用作测试，其余24组作为训练集，取25次结果的均值作为最终识别率HMDB51数据库3包含51类动作，共6 766个视频片段，视频来自电影片段和视频网站，由于动作种类

22、多、场景复杂，HMDB51数据库非常具有挑战性按照文献13将6 766个视频分为3组，在3组视频上分别进行训练和测试，取3组结果的平均值作为最终识别率图2为从3个数据库中部分视频截取的图像密集轨迹方法14 o是最有效的底层局部特征提取方法，近年来得到广泛应用本文选用3个基于http：joumalseueduca(c)HMDB51数据库图2数据库例图第4期王健弘，等：基于时空信息和非负成分表示的动作识别 679密集轨迹的特征作为底层特征，分别为HOG，HOF和MBH底层特征字典大小统一为4 000，底层特征表示统一采用局部软分配的编码方式相比于BoVW方法中采用的硬分配编码方式，局部软分配具有

23、更好的精度和鲁棒性，同时能保证底层特征表示非负，这是本文方法后续处理的前提条件时空Fisher向量计算过程中，每个视觉单词所对应的混合高斯模型中高斯模型数目设置为9由于底层特征视觉单词非常多，直接训练混合高斯模型将非常耗时，实验中，简化为所有视觉单词采用相同的混合高斯模型该统一模型的生成方式为：将单位立方等分为8个小立方，连同自身共9个立方，设每个立方内底层特征时空位置分布都是均匀分布，计算均值和方差，由此得到9个高斯模型，将这9个模型的等权重组合作为实验中使用的混合高斯模型本文采用RBF-x2核的非线性SVM作为分类器，由于动作识别是多分类问题，采用一对多方法，对每一类动作训练一个分类器，样

24、本测试时选择分数最高的动作类别作为最终分类结果32实验结果与分析为验证本文提出的时空一非负成分表示方法的有效性，将本文方法STNCR与BoVW底层特征表示以及不带时空信息的非负成分表示(NCR)方法在相同条件下进行比较STNCR和NCR均以BoVW底层特征表示结果为基础，STNCR是通过在NCR中增加时空分布信息改进得到的NCR和STNCR的基元词典大小设置为500，STNCR的权重参数口设置为055ST-NCR与其他方法在KTH，YouTube和HMDB51数据库上的识别率比较结果如表1一表3所示从表1一表3可看出，在3个数据库上，NCR和STNCR的结果均明显好于BoVW的结果这表明采用非

25、负成分的中层表示方法相比于BoVW底层表示方法能够更有效地表征运动视频同时还表3 3种方法在HMDBSl数据库上的识别率比较可以看出，STNCR的识别率要优于NCR，这显示了本文方法的有效性为进一步研究权重参数口对STNCR结果的影响，选用底层特征HOG和HOF，选择不同的卢值，在KTH和YouTube数据库上分别进行实验，结果如图3所示从图中可看出，随着届值的增大，识别率的趋势基本是先增大然后回落，在口值为05附近取得峰值这一结果显示引入时空分布信息后能够提高识别率，同时时空分布信息与HOG和HOF特征所描述的信息是互为补充的，联合使用的识别率高于使用单一信息的识别率0 0 1 O2 O

26、3 04 0 5 0 6 07 08 09 10卢图3不同权重参数卢对ST-NCR结果的影响为进一步提高识别率，将基于3个底层特征(HOG，HOF和MBH)所得到的ST-NCR进行融合在3个测试数据库上，将融合后的中层表示所得识别率与其他文献的识别率数据进行比较，结果见表4由表可看出，本文方法在KTH数据库上的识别率与文献15的识别率接近，但高于其他方法；在YouTube和HMDB51数据库上，本文方法的识别率已经超过其他所有方法表1 3种方法在KTH数据库上的识别率比较表4本文融合后识别率与其他文献方法识别率比较表2 3种方法在YouTube数据库上的识别率比较4结语本文提出了一种新的中

27、层动作表示方法用于http：journalseueduca680 东南大学学报(自然科学版) 第46卷动作识别，该方法基于动作基元表征动作视频，同时融合了底层特征时空分布信息首先，基于BoVW表示，利用混合高斯模型对视觉单词所包含特征的时空位置分布进行建模，计算时空Fisher向量；然后，将时空Fisher向量作为图约束的一部分，利用GNMF对BoVW底层特征表示结果进行分解，得到动作基元以及基于动作基元的时空一非负成分表示实验结果表明，与BoVW表示以及不带时空信息的非负成分表示方法相比，本文所提出的时空一非负成分表示方法能提高动作识别率参考文献(References)1Turaga P，C

28、hellappa R，Subrahmanian V S，et a1Ma-chine recognition of human activities：A surveyJIEEE Transactions on Circuits and Systems for VideoTechnology，2008，18(11)：14731488DOI：101109tcsvt200820055942Laptev I，Marszalek M，Schmid C，et a1Learning re-alistic human actions from movieslc飞IEEE Confer-ence on Compu

29、ter Vision and Pattern RecognitionAn-chorage，USA，2008：18DOI：101109cvpr200845877563Klaser A，Marszalek M，Schmid CA spatio-temporaldescriptor based on 3d-gradientsC19th British Machine Vision Conferencek州s，UK，2008：995-1004DoI：105244c22994Solmaz B，Assari S M，Shah MClassifying web videos using a global v

30、ideo descriptorJMachine VisionandApplications，2012，24(7)：14731485DOI：101007s00138旬12m449x5Wang H，Klllser A，Schmid C，et a1Dense trajectoriesand motion boundary descriptors for action recognitionJInternational Journal of Computer Vision，2013，103(1)：6079DoI：101007sl 1263-012-059486Liu L Q，Wang L，Liu X

31、WIn defense of soft-assignment coding l clEEE International Conference onComputer VisionBarcelona，Spain，201 l：248624937Yang J，Yu K，Gong Y，et a1Linear spatial pyramidmatching using sparse coding for image classificationI clEEE Conference on Computer Vision and Pattern RecognitionMiami，USA，2009：179418

32、018Wang J，Yang J，Yu K，et a1Locality-constrained lin-ear coding for image classificationCIEEE Confer-ence on Computer Vision and Pattern RecognitionSanFrancisco，CA，USA，2010：33603367DOI：10http：，10urnal。seueduca1 109cvpr201055400189Lee D D，Seung H SLearning the parts of objects bynonnegative matrix fac

33、torizationJNature，1999，柏1(6755)：788791DOI：1010384456510Cai D，He X，Han J，et a1Graph regularized nonnegative matrix factorization for data representationJ1EEE Transactions on Pattern Analysis and MachineIntelligence，2011，33(8)：15481560DoI：101109TPAM201023111Schuldt C，Laptev I，Caputo BRecognizing human

34、actions：A local svM approachCProceedings ofthe 17th International Conference on Pattern RecognitionCambridge，UK，2004：32-36DOI：101 109icpr2004133446212Liu J，Luo J，Shah MRecognizing realistic actionsfrom videos“in the wild”、c、，IEEE Conference onComputer Vision and Pattern RecognitionMiair6，USA，2009：19

35、96200313Kuehne H，Jhuang H，Garrote E，et a1瑚佃B：Alarge video database for human motion recognitionCIEEE International Conference on Computer Vi-sionBarcelona，Spain，2011：2556-2563DOI：101109iccv201 1612654314Wang H，Kli【ser A，Schmid C，et a1Dense trajecto-ries and motion boundary descriptors for action rec

36、og-mtionJInternational Journal of Computer Vision。2013，1帕(1)：6079DOI：101007s11263-0120594-815Sadanand S，Corso J JAction bank：A lligh-levelrepresentation of activity in videoCIEEE Confer-ence on Computer Vision and Pattern RecognitionProvidence，USA。2012：1234124116Le Q V，Zou w Y，Yeung S Y，et a1Leaming

37、 hier-archical invariant spatiotemporal features for actionrecognition with independent subspace analysisclEEE Conference on Computer Vision and Pattern RecognitionProvidence，USA，201 l：3361336817Wang H，Yuan C，Hu W，et a1Action recognitionusing nonnegative action component representation andsparse basis selectionJIEEE Transactions on Image Processing，2014，23(2)：570581DOI：101109tip2013229255018Yang X，Tian YAction recognition using supersparse coding vector wim spatio-temporal awarenessC13胁European Conference on Computer Vi-sionZurich，Switzerland，2014：727-741DOI：101007978331910605-2 47

展开阅读全文