失眠网 > 行为识别相关文献阅读

行为识别相关文献阅读

时间：2020-08-21 04:08:45

相关推荐

行为识别相关文献阅读

行为识别

任务

预测某个时间间隔上的行为。视频分类：预测整个视频的行为。图像分类器。

难点

严重依赖物体和场景。数据集带来的问题：骑马和跑步可以用有没有马来区分；遛狗和化学可以用背景区分。这也就导致了真正对动作去区分这么一个功能没做到。光流的问题：长度和语义。光流的帧数少难以描述长时间的动作。本身意义不明显，论文On the Integration of Optical Flow and Action Recognition提出了一个观点光流可能只是掩盖了外观信息。CNN擅长捕获物体和场景信息，所以会在训练过程中让动作识别靠物体和场景识别出来。密集快速的运动。空间语义信息细微差别。复杂的时域动态线索。基本的推理能力。

RGB数据集上各个深度学习模型

双流网络

可以使用多任务学习——两个数据集来防止过拟合。

举例：Spatial-Temporal Channel Correlation Networks for Action Classification,

上图网络采用现将2D卷积的支路于ImageNet中进行预训练，然后2D支路在3D卷积支路训练时冻结起来。此时的2D支路作为“老师”迁移自己学习到的知识给3D支路。便可以通过解决一个图片视频对应任务，来教3D卷积来学会中级的特征表示。

RGB+光流如下图：

Two-stream convolutional networks for action recognition in videos, Learning spatiotemporal features with 3D convolutional networks, Temporal Segment Networks: Towards Good Practices for Deep Action Recognition(TSN), Quo vadis, action recognition?A new model and the Kinetics dataset, TDN: temporal difference networks for efficient action recognition, Convolutional two-stream network fusion for video action recognition, Improved human action recognition approach based on two-stream convolutional neural network model, Linear dynamical systems approach for human action recognition with dual-stream deep features,

三维卷积

同时考虑空间和时间信息，带来了更高的复杂度难以训练。

Beyond short snippets: deep networks for video classification, A closer look at spatiotemporal convolutions for action recognition, Temporal 3D convnets: new architecture and transfer learning for video classification, Learning spatio-temporal representation with pseudo-3D residual networks, ECO: efficient convolutional network for online video understanding, MARS: motion-augmented RGB stream for action recognition, Weakly-supervised temporal attention 3D network for human action recognition,

LSTM

实践中，常采用更复杂的单元进行更长序列化的训练。

所以就导致并行能力受到限制，由于门控的存在，所以上下文也不能太长。

Sparse deep LSTMs with convolutional attention for human action recognition, 结合 Attention-ConvLSTM 的双流卷积行为识别,

深度骨架序列数据集中使用的深度模型

深度图像对光照条件的变化更具鲁棒性，且深度相机可以更容易从杂乱的背景中减去前景，从而忽略来自杂乱背景的混乱纹理。

所以通过深度数据可以快速准确地估算出人体骨架。深度骨架序列具有丰富的空间信息和时域信息。

所以就有了以下这些基于骨架数据对人类行为进行识别的模型。

基于RNN

如下粗体字论文中，基于 LSTM 提出了一种时空注意模型，该模型选择性地关注每一帧中骨架的判别性关节，并对不同帧的输出给予不同程度的关注，从骨架数据中探索人体行为识别和检测的时空鉴别特征。

Spatio-temporal LSTM with trust gates for 3D human action recognition, Global context-aware attention LSTM networks for 3D action recognition, Ensemble deep learning for skeleton-based action recognition using temporal sliding LSTM networks, Independently recurrent neural network (IndRNN): building a longer and deeper RNN, View adaptive neural networks for high performance skeleton-based human action recognition, Investigation of different skeleton features for CNN-based 3D action recognition,

基于CNN

CNN较RNN而言有更优秀的高级信息提取能力，能够高效地学习高级语义线索。

Ensemble one-dimensional convolution neural networks for skeleton-based action recognition, Skeleton based action recognition using translation-scale invariant image mapping and multiscale deep CNN, Learning shape-motion representations from geometric algebra spatio-temporal model for skeleton-based action recognition, SkeleMotion: a new representation of skeleton joint sequences based on motion information for 3D action recognition, Skeleton image representation for 3D action recognition based on tree structure and reference joints, 3D skeletal human action recognition using a CNN fusion model, Exploiting spatio-temporal representation for 3D human action recognition from depth map sequences,

基于GCN

人体 3D 骨架数据是自然的拓扑图，顶点表示关节，边表示连接关节的肢节，因此可以用图卷积网络来发掘骨架之间的空间联系，将图卷积操作拓展到时域上，就能同时发掘空间和时间特征。

ST-GCNs模型如下，作者提出了捕获全局图的策略，高效地建模输入图序列的表示。同时，全局图策略还可以将图序列降维到欧氏空间，从而引入多尺度时间滤波器来有效地捕获动态信息。

Spatial temporal graph convolutional networks for skeleton-based action recognition, Two-stream adaptive graph convolutional networks for skeleton-based action recognition, Skeleton-based action recognition with directed graph neural network, Actional-structural graph convolutional networks for skeleton-based action recognition, An attention enhanced graph convolutional LSTM network for skeleton-based action recognition, Semantics-guided neural networks for efficient skeleton-based human action recognition, Rethinking the ST-GCNs for 3D skeleton-based human action recognition,

未来的研究方向

深度学习算法需要大量的时间和数据集来训练模型，而且运算量太大实时性不够强，所以在实际的场景中很难得到应用。所以如何提高其训练效率和识别效率就是研究的重难点。

双流网络模型虽然效果好但是模型复杂计算量大，所以需要设计出能更高效提取有效特征的多流网络。特征融合方法可以利用不同数据的优势，可以获得更稳健的特征表示，但是处理的数据量大特征维度高，一定程度上增加了计算复杂度。所以选择哪种特征，采用哪种融合方法和策略是重要研究方向。注意力机制大放异彩。大部分情况下，深层网络比浅层网络更有效。使用注意力机制可以选择关注位置，产生更具分辨性的特征表示。在原有的网络基础上加入注意力机制可以使网络结构往更深层次发展，产生更有效的高级特征。图卷积使用深度骨架数据可以使得识别模型的训练过程中忽略掉背景元素（对比CNN，CNN就更中意背景和物体）。可以在拓扑图中有效地提取空间特征来学习。