0%

Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

主题:视频中,基于骨架的行为识别。
解读:https://blog.csdn.net/b224618/article/details/81143736
解读:https://blog.csdn.net/chenhaojing/article/details/81476244

其他人:用DRL做行为识别的很少、类似的工作一般一次提取一个关键帧

框架:用DRL训练 FDNet提取关键帧,用GCNN训练。

img1

RL:

状态:F\M\Sb
F:global frames: 所有帧的信息:帧数关键点数三个维度。
    *帧非整数:双三次插值。保证首尾与原相同。
        * 双三次插值(英语:Bicubic interpolation)是二维空间中最常用的插值方法。
M:selected frames:当前被选择帧的信息。
Sb:被选择帧的掩码

动作:向哪个方向移动帧(3种)
    *移动有固定范围,不会交叉。上下界:当前帧和下一帧的一半
奖励:GCNN训练好。从绝对正确帧与错误帧跳跃时加大奖励惩罚,其他用
img2

GCNN:(这里有一些数学公式没看懂)
构图,后卷积
img3

loss function选取的是交叉熵(= =) 
    *交叉熵:度量两个概率分布间的差异性信息

训练:使用 policy gradient。Deep Q-learning工作量大。
算法:先用等间距帧训练GCNN,之后训练和用DRL调整。

评价

优点:在动作识别领域,增强学习的应用还不多。基于骨架的CNN,之前研究只考虑互连骨架,其实不互连的也有用。
缺点:1.关键帧数量。2.移动卡住,有些范围无法达到等问题。3.正确帧一个范围。4.有的帧从对到错,有的帧从错到对(r是累加的?还是一个?)
    *这个帧移动/奖励函数 的机制一定有问题,可以构造一下看看。但是DRL本来就不能解决。。


vertex
顶点
cross-entropy
交叉熵
sensory
感觉
mutually
交互地
frame
框架

concatenate
连接

aggregate
总计的

enforce
执行

-------------这么快就看完啦^ω^谢谢阅读哟-------------