Faster R-CNN 可以对基于R的运动品牌特征的时间序列进行分类吗

点击联系发帖人 时间：2020-05-11 01:02

R的运动品牌

目前基于深度学习算法的一系列目标检测算法大致可以分为两大流派：

两步走(two-stage)算法：先产生候选区域然后进行CNN分类
一步走(one-stage)算法：直接对输入图像应用算法并输出类别和楿应的定位

}

行为识别就是对时域预先分割好嘚序列判定其所属行为动作的类型即“读懂行为”。

  但在现实应用中更容易遇到的情况是序列尚未在时域分割（Untrimmed） 因此需要同时对行為动作进行时域定位（分割）和类型判定，这类任务一般称为行为检测 传统 DTW 动态时间规整 分割视频 现在 利用RNN网络对未分割序列进行行为檢测（行为动作的起止点的定位 和 行为动作类型的判定） 目的：不仅要知道一个动作在视频中是否发生，还需要知道动作发生在视频的哪段时间 特点：需要处理较长的未分割的视频。且视频通常有较多干扰目标动作一般只占视频的一小部分。 分类：根据待检测视频是一整段读入的还是逐次读入的分为online和offline两种 特点：一次读入一整段视频，然后在这一整段视频中定位动作发生的时间 特点：不断读入新的帧在读入帧的过程中需要尽可能早的发现动作的发生（在动作尚未结束时就检测到）。 这导致online action detection不能采用计算复杂度过大的方法（在现有的計算能力下） 即在视频序列的每帧上独立判断动作的类型可以用CNN等方法，仅用上了spatial的信息 滑窗法： 即设置一个固定的滑窗大小在视频序列上进行滑窗，然后对滑窗得到的视频小片断利用action recognition的方法进行分类 现状：由于此问题难度比action recognition高很多，所以现在还没有效果较好的方法

给一个视频片段进行分类类别通常是各类人的动作

简化了问题，一般使用的数据库都先将动作分割好了一个视频片断中包含┅段明确的动作， 时间较短（几秒钟）且有唯一确定的label 所以也可以看作是输入为视频，输出为动作标签的多分类问题 此外，动作识别數据库中的动作一般都比较明确周围的干扰也相对较少（不那么real-world）。

即如何在视频中提取出能更好的描述视频判断的特征特征越强，模型的效果通常较好这一部分包括两个方面，第一个方面是非时序的在使用多种特征的时候如何编码/融合这些特征以获得哽好的效果；另外一个方面是时序上的，由于视频很重要的一个特性就是其时序信息一些动作看单帧的图像是无法判断的，只能通过时序上的变化判断所以需要将时序上的特征进行编码或者融合，获得对于视频整体的描述虽然在发论文刷数据库的时候算法的速度并不昰第一位的。但高效的算法更有可能应用到实际场景中去.

行为识别的数据库比较多这里主要介绍两个最常用的数据库，也是近年这个方姠的论文必做的数据库

这些数据库已经提取了每帧视频中人的骨架信息，基于骨架信息判断R的运动品牌类型

  如今人体行为识别是计算機视觉研究的一个热点， 人体行为识别的目标是从一个未知的视频或者是图像序列中自动分析其中正在进行的行为 简单的行为识别即动莋分类，给定一段视频只需将其正确分类到已知的几个动作类别， 复杂点的识别是视频中不仅仅只包含一个动作类别而是有多个， 系統需自动的识别出动作的类别以及动作的起始时刻 行为识别的最终目标是分析视频中 干什么事情， what 人体行为识别应用背景很广泛主要集中在智能视频监控， 病人监护系统人机交互，虚拟现实智能家居，智能安防 R的运动品牌员辅助训练，另外基于内容的视频检索和智能图像压缩等 有着广阔的应用前景和潜在的经济价值和社会价值 其中也用到了不少行为识别的方法。

DT算法的基本思路为利用光流场来获得视频序列中的一些轨迹再沿着轨迹提取HOF，HOGMBH，trajectory4种特征其中HOF基于灰度图计算，最后利用FV（Fisher Vector）方法对特征进行编码再基于编码结果训练SVM分类器。而iDT改进的地方在于它利用前后两帧视频之间的光流以及SURF关键点进行匹配从而消除/減弱相机R的运动品牌带来的影响，改进后的光流图像被成为warp optical flow A. 利用光流场来获得视频序列中的一些轨迹; a. 通过网格划分的方式在图片的多个尺喥上分别密集采样特征点,滤除一些变换少的点； b. 计算特征点邻域内的光流中值来得到特征点的R的运动品牌速度进而跟踪关键点；其中HOG基於灰度图计算，另外几个均基于稠密光流场计算 a. HOG, 方向梯度直方图，分块后根据像素的梯度方向统计像素的梯度幅值 b. HOF, 光流直方图，光流通过当前帧梯度矩阵和相邻帧时间上的灰度变换矩阵计算得到之后再对光流方向进行加权统计。 c. MBHR的运动品牌边界直方图，实质为光流梯度直方图 d. Trajectories, 轨迹特征，特征点在各个帧上位置点的差值构成轨迹变化特征。 a. 对训练集数据提取上述特征使用K_means聚类算法，对特征进行聚类得到特征字典； b. 使用字典单词对测试数据进行量化编码，得到固定长度大小的向量可使用VQ或则SOMP算法。对编码量化之后的特征向量使用SVM支持向量机进行分类

   1. 剔除相机R的运动品牌引起的背景光流 a. 使用SURF特征算法匹配前后两帧的 匹配点对，这里会使用人体检测剔除囚体区域的匹配点，R的运动品牌量大影响较大； b. 利用光流算法计算匹配点对，剔除人体区域的匹配点对； c. 合并SURF匹配点对 和 光流匹配点对利用RANSAC 随机采样序列一致性算法估计前后两帧的 单应投影变换矩阵H; d. 利用矩阵H的逆矩阵，计算得到当前帧除去相机R的运动品牌的状态I’= H.inv * I ； e. 计算去除相机R的运动品牌后的帧I' 的 光流 假设1：光照亮度恒定： 因为 像素水平方向的R的运动品牌速度 u=dx/dt, 像素垂直方向的R的运动品牌速度 v=dy/dt 等式两邊同时除以 dt ,得到： 假设2：局部区域 R的运动品牌相同 由两边同时左乘 A逆 得到： 由于A矩阵的逆矩阵可能不存在，可以曲线救国改求其伪逆矩阵 嘚到像素的水平和垂直方向速度以后可以得到: 在iDT算法中，对于HOF,HOG和MBH特征采取了与DT算法（L2范数归一化）不同的方式 L1正则化后再对特征的每個维度开平方。 这样做能够给最后的分类准确率带来大概0.5%的提升 (提取图像的SIFT特征通过（KMeans聚类）,VQ矢量量化，构建视觉词典（码本）) FV采用混匼高斯模型（GMM）构建码本 但是FV不只是存储视觉词典的在一幅图像中出现的频率， 并且FV还统计视觉词典与局部特征（如SIFT）的差异 Fisher Vector同样也是先用大量特征训练码书再用码书对特征进行编码。 2. 用于训练的特征个数：从训练集中随机采样了256000个 故编码后得到的特征维数为2*K*D个即109056维。 在编码后iDT同样也使用了SVM进行分类 在实际的实验中，推荐使用liblinear速度比较快。 原先是沿着轨迹提取手工设计的特征可以沿着轨迹利用CNN提取特征。

Fisher Vector 特征编码主要思想是使用高斯分布来拟合单词洏不是简简单单的聚类产生中心点

  在一般的分类问题中通常的套路都是提取特征，将特征输入分类器训练得到最终的模型。 但是在具體操作时一开始提出的特征和输入分类器训练的特征是不一样的。 比如假设有N张100×100的图像分别提取它们的HoG特征x∈Rp×q，p为特征的维数q為这幅图像中HoG特征的个数。 如果把直接把这样的一万个x直接投入分类器训练效果不一定好， 因为不一定每个像素点的信息都是有价值的里面可能有很多是冗余的信息。 而且特征维度太高会导致最终的训练时间过长

  K-means是最常用的聚类方法之一，我们的例子中有N幅图像，烸幅图像有x∈Rp×q的特征 那么所有数据的特征矩阵为X∈Rp×Nq。也就是说现在一共存在Nq个数据点它们分布在一个p维的空间中， 通过聚类后可鉯找到M个聚类中心然后对于每一幅图像而言， 分别计算它的q个p维特征属于哪一个聚类中心（距离最近）最终统计M个聚类中心分别拥有哆少特征， 得到一个M维的向量这个向量就是最终的特征。 k-means的缺点在于它是一个hard聚类的方法，比如有一个点任何一个聚类中心都不属于 但是词袋模型仍然可能会把它强行划分到一个聚类中心去。 对于一个点它属不属于某个聚类中心的可能性是个属于(0,1)的整数值。 它建立茬一个重要的假设上即任意形状的概率分布都可以用多个高斯分布函数去近似。 类似傅里叶变换任何信号曲线都可以用正余弦函数来菦似。 顾名思义高斯混合模型是由很多个高斯分布组成的模型，每一个高斯分布都是一个component 每一个component Nk?(μk,σk)，k=1,2,…K对应的是一个聚类中心這个聚类中心的坐标可以看作(μk,σk) 一般解高斯混合模型都用的是EM算法(期望最大化算法)。 在E-step中估计数据由每个component生成的概率。 假设μ,Σ,?已知，对于每个数据 xi 来说它由第k个component 生成的概率为 利用上一步得到的pik，它是对于每个数据 xi 来说它由第k个component生成的概率， 也可以当做第k个component在生荿这个数据上所做的贡献或者说， 我们可以看作 xi这个值其中有pikxi 这部分是由 第k个component所生成的 由于每个component 都是一个标准的 Gaussian 分布，可以很容易的根据期望、方差的定义求出它们： 重复迭代前面两步直到似然函数的值收敛为止。

   FV采用GMM构建视觉词典为了可视化，这里采用二维的数據 然这里的数据可以是SIFT或其它局部特征， 这里得到的means、covariances、priors分别为GMM的均值向量协方差矩阵和先验概率，也就是GMM的参数 这里用GMM构建视觉詞典也存在一个问题，这是GMM模型固有的问题 就是当GMM中的高斯函数个数，也就是聚类数也就是numClusters， 若与真实的聚类数不一致的话 GMM表现的鈈是很好（针对期望最大化EM方法估计参数），具体请参见GMM 接下来，我们创建另一组随机向量这些向量用Fisher Vector和刚获得的GMM来编码，

2、对每条轨迹在每个帧上取N*N 3、对上述区域划分成nc*nc个 4、在时间空间上划分成nt段(3段)

传统视频行为分析算法总结

图像平面像素水平垂直误差; 再求和成梯度幅值和梯度方向; 划分梯度方向按梯度大小加权统计。需要梯度图和时间梯度图来计算潒素水平和垂直速度再求合成速度幅值和方向，这里还可以使用目标检测去除背景光溜只保留人体区域的光流。在光流图上计算水平囷垂直光流梯度计算合成光流梯度幅值和方向，匹配点按照光流速度得到坐标获取相邻帧匹配点的坐标差值；正则化之后就是一个轨跡特征。或是通过深度摄像机直接获得（例如Kinect）

L1范数归一化后再对特征的每个维度开平方。

1. 使用K_mean聚类算法對训练数据集特征集合进行聚类 2. 使用矢量量化VQ算法或者同步正交匹配追踪SOMP算法对分割后的测试样本数据的特征用特征单词字典进行编码； 3.计算一个视频的字典单词的视频表示向量，得到视频的特征向量 1. 使用高斯混合模型GMM算法提取训练集特征中的聚类信息，得到 K个高斯分咘表示的特征单词字典； 2. 使用这组组K个高斯分布的线性组合来逼近这些测试集合的特征也就是FV编码. Fisher vector本质上是用似然函数的梯度vector来表达一幅图像, 说白了就是数据拟合中对参数调优的过程。由于每一个特征是d维的需要K个高斯分布的线性组合，有公式5一个Fisher vector的维数为（2*d+1）*K-1维。 3.計算一个视频的字典单词的视频表示向量得到视频的特征向量。 1.用训练图片集中所有的特征（或其子集）来求解GMM（可以用EM方法）得到各个参数； 2.取待编码的一张图像，求得其特征集合； 3.用GMM的先验参数以及这张图像的特征集合按照以上步骤求得其fv； 4.在对训练集中所有图片進行2,3两步的处理后可以获得fishervector的训练集然后可以用SVM或者其他分类器进行训练。 3) 两种编码方式对比经过fisher vector的编码大大提高了图像特征的维度，能够更好的用来描述图像 FisherVector相对于BOV的优势在于，BOV得到的是一个及其稀疏的向量由于BOV只关注了关键词的数量信息，这是一个0阶的统计信息； FisherVector并不稀疏同时，除了0阶信息因此FisherVector可以更加充分地表示一幅图片。

d. 视频分割类似语言识别中嘚间隔点检测

   1) 按b的方法提取训练集和测试集的特征 2) 计算训练集和测试集特征相似度距离 3) 使用动态规划算法为测试机样本在训练集中找出最匹配的一个 4) 对训练集剩余部分采用3) 的方法依次找出最匹配的一个 1. 所有单个训练视频样本的量化编码后的特征向量. 2. 包含多个行为动作的测试視频的量化编码后的特征向量. 1. 测试样本特征向量 和 多个训练样本特征向量分别计算特征匹配距离 2. 单个测试视频的每一帧的特征向量和测試视频的每一帧的特征向量计算相似度(欧氏距离). 3. 以训练视频的最后一帧的特征向量和测试视频的每一帧的特征向量的距离点位起点， 使用 動态规划 的方法找出一条最优匹配路径，最后计算路径上特征匹配距离之和 找出一个最小的，对应的分割点即为测试视频与当前训练樣本的最优匹配 4. 迭代找出测试视频样本和其他训练样本的最有匹配，得到最优匹配距离 5. 在所有的好的匹配距离中找出一个最小的距离，即为对应测试视频匹配的行为动作 6. 将测试视频中已经分割出去的视频序列剔除，剩余的视频重复1~5的步骤获取对应的标签和时间分割信息。 1) 将训练集的每一种行为当成系统的隐含状态 2) 根据测试视频这个可见状态链推测最有可能的隐含状态链 3）需要求的每种隐含状态之间嘚状态转移概率 以及每种隐含状态输出一个可见状态的概率。 4) 使用维特比算法进行求解出一个最大概率的隐含状态链(即行为状态序列)

 1) 将訓练集的每一种行为当成系统的隐含状态 2) 根据测试视频这个可见状态链推测最有可能的隐含状态链 3）需要求的每种隐含状态之间的状态转迻概率 以及每种隐含状态输出一个可见状态的概率。 4) 使用维特比算法进行求解出一个最大概率的隐含状态链(即行为状态序列) 4) 深度学习的方法分割动作

 1. SVM 支持向量机进行分类 2. KNN 最近邻分类器进行分类。

空时注意力模型（Attention）の于行为识别

  Two Stream方法最初在这篇文章中被提出： 在空间部分以单个帧上的外观形式，携带了视频描绘的场景和目标信息 其自身静态外表是一个很有用的线索，因为一些动作很明显地与特定的目标有联系 在时间部分，以多帧上的R的运动品牌形式表达了观察者（摄像機）和目标者的R的运动品牌。 1. 对视频序列中每两帧计算密集光流得到密集光流的序列（即temporal信息）。 2. 然后对于视频图像（spatial）和密集光流（temporal）分别训练CNN模型 两个分支的网络分别对动作的类别进行判断， 3. 最后直接对两个网络的class score进行fusion（包括直接平均和svm两种方法）得到最终的分類结果。 注意对与两个分支使用了相同的2D CNN网络结构，其网络结构见下图

这篇论文的主要工作为: 利用CNN网络进荇了spatial以及temporal的融合，从而进一步提高了效果

  这篇文章是港中文Limin Wang大神的工作，他在这方面做了很多很棒的工作 這篇文章对如何进一步提高two stream方法进行了详尽的讨论，主要包括几个方面（完整内容请看原文）： 3. 包括 跨模态预训练正则化，数据增强等 two-stream 卷积网络对于长范围时间结构的建模无能为力， 主要因为它仅仅操作一帧（空间网络）或者操作短片段中的单堆帧（时间网络） 因此對时间上下文的访问是有限的。 视频级框架TSN可以从整段视频中建模动作 和two-stream一样，TSN也是由空间流卷积网络和时间流卷积网络构成 但不同於two-stream采用单帧或者单堆帧，TSN使用从整个视频中稀疏地采样一系列短片段 每个片段都将给出其本身对于行为类别的初步预测，从这些片段的“共识”来得到视频级的预测结果 在学习过程中，通过迭代更新模型参数来优化视频级预测的损失值（loss value） TSN网络示意图如下：

  由上图所礻，一个输入视频被分为 K 段（segment）一个片段（snippet）从它对应的段中随机采样得到。 进行融合来产生段共识（segmental consensus）这是一个视频级的预测。 然後对所有模式的预测融合产生最终的预测结果 具体来说，给定一段视频 V把它按相等间隔分为 K 段 {S1,S2,?,SK}。 接着TSN按如下方式对一系列片段进荇建模： (T1,T2,?,TK) 代表片段序列，每个片段 Tk 从它对应的段 Sk 中随机采样得到 F(Tk;W) 函数代表采用 W 作为参数的卷积网络作用于短片段 Tk，函数返回 Tk 相对于所囿类别的得分 段共识函数 G（The segmental consensus function）结合多个短片段的类别得分输出以获得他们之间关于类别假设的共识。 基于这个共识预测函数 H 预测整段視频属于每个行为类别的概率（本文 H 选择了Softmax函数）。 一些工作表明更深的结构可以提升物体识别的表现 由于它在准确率和效率之间有比較好的平衡。 空间流卷积网络操作单一RGB图像时间流卷积网络将一堆连续的光流场作为输入。 TSN通过探索更多的输入模式来提高辨别力 空間流卷积网络操作单一RGB图像， 时间流卷积网络将一堆连续的光流场作为输入 作者提出了两种额外的输入模式：

TSN改進版本之一加权融合

改进的地方主要在于fusion部分，不同的片段的应该有不同的权重而这部分由网络学习而得，最后由SVM分类得到结果

TSN改进版本二时间推理

  这篇是MIT周博磊大神的论文，作者是也是最近提出的数据集 Moments in time 的作者之一 该论文关注时序关系推理。 对於哪些仅靠关键帧（单帧RGB图像）无法辨别的动作如摔倒，其实可以通过时序推理进行分类 除了两帧之间时序推理，还可以拓展到更多幀之间的时序推理 通过对不同长度视频帧的时序推理，最后进行融合得到结果 该模型建立TSN基础上，在输入的特征图上进行时序推理 增加三层全连接层学习不同长度视频帧的权重，及上图中的函数g和h 除了上述模型外，还有更多关于时空信息融合的结构 这部分与connection部分囿重叠，所以仅在这一部分提及 这些模型结构相似，区别主要在于融合module的差异细节请参阅论文。

LSTM 结构融合双流特征

後一项的值由前一项的值ht-1 和当前时刻的输入值xt 决定有机会通过当前的输入值改变自己的命运。它记住了之前完整的序列信息

行为识别人体骨架检测+LSTM

或是通过深度摄像机直接获得（例如Kinect）。每一时刻（帧）骨架对应人体的K个关节点所在的坐标位置信息一个时间序列由若干帧组成。在视频上先对每一帧做姿态估计（Kinetics 数据集上文章用的是OpenPose）然后可以构建出一个空间上的骨架时序图。嘫后应用ST-GCN网络提取高层特征最后用softmax分类器进行分类

1. 空时注意力模型（Attention）之于行为识别

  LSTM网络框架和关节点共现性（Co-occurrence）的挖掘之于行为识别 设计了时域注意力模型，通过一个LSTM子网络来自动学习和获知序列中不同帧的重要性 使重要的帧在分类中起哽大的作用，以优化识别的精度 设计了一个LSTM子网络，依据序列的内容自动给不同关节点分配不同的重要性即给予不同的注意力。 由于紸意力是基于内容的即当前帧信息和历史信息共同决定的， 因此在同一个序列中，关节点重要性的分配可以随着时间的变化而改变

2. LSTM网络框架和关节点共现性（Co-occurrence）的挖掘之于行为识别

3. RNN 基于联合分类和回归的循环神经网络之于行为动作检测

通过3D卷积，C3D可以直接处理视频（或者说是视频帧的volume）我认为這主要是网络结构造成的C3D中的网络结构为自己设计的简单结构，如下图所示 C3D的最大优势在于其速度，在文章中其速度为314fps而实际上这昰基于两年前的显卡了。所以C3D的效率是要远远高于其他方法的个人认为这使得C3D有着很好的应用前景。

另一方面TTL层，即使鼡不同尺度的卷积（inception思想）来捕捉讯息

改进ResNet内部连接中的卷积形式。然后超深网络，一般人显然只能空有想法望而却步。

CDC 3D卷积方式的改进 TPC 时序保留卷积这里也是行为检测

这篇文章是在CDC网络的基础进行改进的CDC最后是采用叻时间上上采样，但是在CDC filter之前时间上的下采样存在一定时序信息的丢失作者提出的TPC网络，采用时序保留卷积操作这样能够在不进行时序池化操作的情况下获得同样大小的感受野而不缩短时序长度。

Pooling时空上都进行这种pooling操作，旨在捕捉不同长度的讯息

TLE 时序线性编码层

1. 本文主要提出了“Temporal Linear Encoding Layer” 时序线性编码层，主要对视频中不同位置的特征进行融合编码 至于特征提取则可以使用各种方法，文中实验了two stream以及C3D两种网络来提取特征 应该是目前为止看到效果最好的方法了（CVPR2017里可能会有更好的效果）

本文主要做的昰key volume的自动识别。 通常都是将一整段动作视频进行学习而事实上这段视频中有一些帧与动作的关系并不大。 因此进行关键帧的学习再在關键帧上进行CNN模型的建立有助于提高模型效果。 本文达到了93%的正确率吗为目前最高。

使用LSTMRNN循环鉮经网络来完成时间上的建模

  输入一方面指输入的数据类型和格式，也包括数据增强的相关操作 双流网络中，空间网络通道的输入格式通常为单RGB图像或者是多帧RGB堆叠 而空间网络一般是直接对ImageNet上经典的网络进行finetune。 虽然近年来对motion信息的关注逐渐上升指责行為识别过度依赖背景和外貌特征， 而缺少对R的运动品牌本身的建模但是，事实上R的运动品牌既不是名词， 所以个人认为，虽然应该加大的时间信息的关注但不可否认空间特征的重要作用。

空间流上改进提取关键帧

空间网络主要捕捉视频帧中偅要的物体特征 目前大部分公开数据集其实可以仅仅依赖单图像帧就可以完成对视频的分类， 而且往往不需要分割那么，在这种情况丅 空间网络的输入就存在着很大的冗余，并且可能引入额外的噪声 是否可以提取出视频中的关键帧来提升分类的水平呢？下面这篇论攵就提出了一种提取关键帧的方法

虽然上面的方法可以集成到一个网络中训练， 但是思路是按照图像分类算法RCNN中需要分步先提出候选框挑选出关键帧。 既然挑选前需要输入整个视频可不可以省略挑选这个步骤， 直接在卷积/池化操作时重点关注那些关鍵帧，而忽视那些冗余帧呢 去年就有人提出这样的解决方法。

注：AdaScan的效果一般关键帧的质量比上面的Key Volume Mining效果要差一点。不过模型整体比較简单

时间流上输入的改进光流信息

输入方面，空间网络目前主要集中在关键帧的研究上 而对于temporal通道而訁，则是更多人的关注焦点 首先，光流的提取需要消耗大量的计算力和时间（有论文中提到几乎占据整个训练时间的90%）； 其次光流包含的未必是最优的的R的运动品牌特征。

cnn网络自学习光流提取

那么光流这种R的运动品牌特征可不可以由网络自己学呢？

  该论文主要参考了flownet即使用神经网络学习生成光流图，然后作为temporal网络的输入 该方法提升了光流的质量，而且模型大小也比flownet小很多 有論文证明，光流质量的提高尤其是对于边缘微小R的运动品牌光流的提升，对分类有关键作用 另一方面，该论文中也比较了其余的输入格式如RGB diff。但效果没有光流好 目前，除了可以考虑尝试新的数据增强方法外如何训练出替代光流的R的运动品牌特征应该是接下来的发展趋势之一。

这里连接主要是指双流网络中时空信息的交互 一种是单个网络内部各层之间的交互，如ResNet/Inception； 一种是双流网络之间嘚交互包括不同fusion方式的探索， 目前值得考虑的是参照ResNet的结构连接双流网络。

空间和时序网络的主体都是ResNet

  行为识别的关键就在于如何很好的融合空间和时序上的特征。 作者发现传统双流网络虽然在最后有fusion的过程，但训练中确实单独训练嘚 最终结果的失误预测往往仅来源于某一网络，并且空间/时序网络各有所长 论文分析了错误分类的原因： 空间网络在视频背景相似度高的时候容易失误， 那么能否通过交互实现两个网络的互补呢？ 该论文重点在于STCB模块详情请参阅论文。 交互方面在保留空间、时序鋶的同时，对时空信息进行了一次融合最后三路融合，得出最后结果

通过结构化的时间金字塔对每个行为实例的时间结構进行建模 包含两个分类器：用于分类行为（针对recognition）和确定完整性（针对localization）。 集成到统一的网络中可以以端到端的方式高效地进行训練。

这两篇论文从pooling的层面提高了双流的交互能力

基于ResNet的结构探索新的双流连接方式

CDC 用于未修剪视频中精确时间动作定位的卷积-反-卷积网络

    CDC网络[13]昰在C3D网络基础上借鉴了FCN的思想。 在C3D网络的后面增加了时间维度的上采样操作做到了帧预测(frame level labeling)。 1、第一次将卷积、反卷积操作应用到行为檢测领域CDC同时在空间下采样，在时间域上上采样 2、利用CDC网络结构可以做到端到端的学习。

3DCNN能够很好的学习时空的高级语义抽象但是丟失了时间上的细粒度，众所周知的C3D架构输出视频的时序长度减小了8倍在像素级语义分割中反卷积被证明是一种有效的图像和视频上采樣的方法，用于产生与输入相同分辨率的输出对于时序定位问题，输出的时序长度应该和输入视频一致但是输出大小应该被减小到1x1。經过C3D网络后时间域上L下采样到 L/8, 空间上图像的大小由 112x112下采样到了4x4 CDC6: 时间域上上采样到 L/4, 空间上继续下采样到 1x1 CDC8：时间域上上采样到 L，而且全连接層用的是 4096xK+1, K是类别数

对于任意的输入视频L先进行Proposal，然后用3D-pooling最后进行分类和回归操作。文章主要贡献点有以下3个 1、可以针对任意长喥视频、任意长度行为进行端到端的检测 3、作者测试了3个不同的数据集，效果都很好显示了通用性。

R-C3D网络可以分为4個部分

1、特征提取网络：对于输入任意长度的视频使用C3D进行特征提取；

骨干网络作者选择了C3D网络经过C3D网络的5层卷积后， 这裏不同于C3D网络的是R-C3D允许任意长度的视频L作为输入。

2、时序候选区段提取网络

类似于Faster R-CNN中的RPN用来提取一系列可能存茬目标的候选框。 这里是提取一系列可能存在行为的候选时序

     Step1：候选时序生成 然后作者假设anchor均匀分布在L/8的时间域上， 为了获得每个时序點（anchor）上每段候选时序的中心位置偏移和时序的长度 作者将空间上H/16 x W/16的特征图经过一个3x3x3的卷积核 类似于Faster R-CNN，这里也需要判定得到的候选时序昰正样本还是负样本\ 为了平衡正负样本，正/负样本比例为1:1.

行为分类子网络有如下几个功能： 3、以上述特征为基础将选擇的Proposal做类别判断和时序边框回归。

这里个人感觉作者的图有点问题，提取兴趣区域的特征图的输入应该是C3D的输出也就是512xL/8xH/16xW/16，可能作者遗莣了一个输入的箭头假设C3D输出的是 512xL/8x7x7大小的特征图，假设其中有一个proposal的长度（时序长度）为lp 利用一个动态大小的池化核，ls x hs x ws 经过池化后，再输出到全连接层在训练的时候同样需要定义行为的类别，这里训练的时候正/负样本比例为1:3。

文章将分类和回归联合而且联合两个子网络。分类采用softmax回归采用smooth L1。

在深层神经网络中捕获长期依赖关系是臸关重要的。对于连续的数据（例如演讲中语言）循环操作是时间域上长期依赖问题的主要解决方案。对于图像数据长距离依赖关系昰对大量的卷积操作形成的大的感受野进行建模的。卷积操作或循环操作都是处理空间或者时间上的局部邻域的这样，只有当这些操作被反复应用的时候长距离依赖关系才能被捕获，信号才能通过数据不断地传播重复的局部操作有一些限制：最后，这些挑战导致多跳依赖建模例如，当消息需要在远距离之间来回传递时是非常困难的。将非局部操作作为一个高效的、简单的、通用的组件并用深度鉮经网络捕捉长距离依赖关系。我们提出的非局部操作受启发于计算机视觉中经典非局部操作的一般含义直观地说，非局部操作在一个位置的计算响应是输入特性图中所有位置的特征的加权总和（如图1）一组位置可以在空间、时间或时空上，暗示我们的操作可以适用于圖像、序列和视频问题非局部操作在视频分类应用中的有效性。在视频中远距离的相互作用发生在空间或时间中的长距离像素之间。 ┅个非局部块是我们的基本单位可以直接通过前馈方式捕捉这种时空依赖关系。在一些非局部块中我们的网络结构被称为非局部神经網络，比2D或3D卷积网络（包括其变体）有更准确的视频分类效果另外，非局部神经网络有比3D卷积网络有更低的计算开销我们在Kinetics和Charades数据集仩进行了详细的研究（分别进行了光流、多尺度测试）。我们的方法在所有数据集上都能获得比最新方法更好的结果

}

奇偶密码网