任务:
视频中的多行人追踪任务。由于人在场景中的数量自由变化且可能相互遮挡,适用自由度高注重交互的多agent。
概述:
任务分为两个部分,predict和decision。在每一帧形成一个多目标detect的结果,另外通过predict网络使用每一个物体的历史轨迹预测下一帧的各个物体位置(未使用DRL)。
然后,考虑离这个物体最近的其他物体neighbor,根据他定义的距离(分别比较2个结果),判断是否考虑可能造成遮挡的agent,然后将predict、detect、neighbor(或空白图),3张图片输入到Decision Network(DRL环境)。DRL用于学习判断对三张图片最优的利用方式。
Decision部分的DRL细节:
State:理论上包含当前帧的detect图,所有agent的上一帧位置,但multi-agentDRL系统,每个agent的decision网络输入只有3张图片。
action集:{block(Detection结果不存在,使用predict更新位置);ignore(认为detection结果不可信,使用predict更新位置);update(综合predict和detection更新位置);delete(detection结果不存在,predict预测物体已离开场景,删除agent);},另外已使用过的detect结果删除,如果发现有多余的detect,判断有新物体进入场景,初始化一个新的agent。
reward:根据综合选择动作后,预测的位置与ground truth的IoU
实验:
做得非常充分,各种offline和online多目标追踪的指标和对比方法,但是由于对比过多,直观的效果看着并不是很好?作者详细论证了某个指标出色的方法在其他指标表现不好,或者某些情况存在缺陷,以证明自己的方法综合来看比较好,能充分利用上下文信息。
评价:
从理解层面场景适合multi-agent解决。用DRL,利用最近的neighbor,衡量detection以及predict两个结果的可信度。实验非常充分,效果不能说很突出。文章细节写得不错。
思考:
*物体过多,遮挡后可能会出现id出错(认错人)的问题,保留前几帧的物体特征。但是对于行人的相似,还是有一些挑战。因为方法只能考虑两个agent的交互。
*multi-agent,输入Q网络的包括一些其他agent的信息,其他的相比普通drl不是很特别。
*为什么predict部分不用DRL的方法呢?
*类似我之前考虑的reward设计部分的问题,生成多个结果后用DRL判断应该使用哪个结果或综合考虑。然而真正drl的reward,如果再套用drl,这部分奖励很难定义。