主题:视频中,基于骨架的行为识别。
解读:https://blog.csdn.net/b224618/article/details/81143736
解读:https://blog.csdn.net/chenhaojing/article/details/81476244
其他人:用DRL做行为识别的很少、类似的工作一般一次提取一个关键帧
框架:用DRL训练 FDNet提取关键帧,用GCNN训练。
RL:
状态:F\M\Sb
F:global frames: 所有帧的信息:帧数关键点数三个维度。
*帧非整数:双三次插值。保证首尾与原相同。
* 双三次插值(英语:Bicubic interpolation)是二维空间中最常用的插值方法。
M:selected frames:当前被选择帧的信息。
Sb:被选择帧的掩码
动作:向哪个方向移动帧(3种)
*移动有固定范围,不会交叉。上下界:当前帧和下一帧的一半
奖励:GCNN训练好。从绝对正确帧与错误帧跳跃时加大奖励惩罚,其他用
GCNN:(这里有一些数学公式没看懂)
构图,后卷积
loss function选取的是交叉熵(= =)
*交叉熵:度量两个概率分布间的差异性信息
训练:使用 policy gradient。Deep Q-learning工作量大。
算法:先用等间距帧训练GCNN,之后训练和用DRL调整。
评价
优点:在动作识别领域,增强学习的应用还不多。基于骨架的CNN,之前研究只考虑互连骨架,其实不互连的也有用。
缺点:1.关键帧数量。2.移动卡住,有些范围无法达到等问题。3.正确帧一个范围。4.有的帧从对到错,有的帧从错到对(r是累加的?还是一个?)
*这个帧移动/奖励函数 的机制一定有问题,可以构造一下看看。但是DRL本来就不能解决。。
vertex
顶点
cross-entropy
交叉熵
sensory
感觉
mutually
交互地
frame
框架
concatenate
连接
aggregate
总计的
enforce
执行