任务：

视频中的多行人追踪任务。由于人在场景中的数量自由变化且可能相互遮挡，适用自由度高注重交互的多agent。

概述：

任务分为两个部分，predict和decision。在每一帧形成一个多目标detect的结果，另外通过predict网络使用每一个物体的历史轨迹预测下一帧的各个物体位置（未使用DRL）。
然后，考虑离这个物体最近的其他物体neighbor，根据他定义的距离（分别比较2个结果），判断是否考虑可能造成遮挡的agent，然后将predict、detect、neighbor(或空白图)，3张图片输入到Decision Network(DRL环境)。DRL用于学习判断对三张图片最优的利用方式。

Decision部分的DRL细节：

State:理论上包含当前帧的detect图，所有agent的上一帧位置，但multi-agentDRL系统，每个agent的decision网络输入只有3张图片。
action集:{block(Detection结果不存在，使用predict更新位置)；ignore(认为detection结果不可信，使用predict更新位置)；update(综合predict和detection更新位置)；delete(detection结果不存在，predict预测物体已离开场景，删除agent)；}，另外已使用过的detect结果删除，如果发现有多余的detect，判断有新物体进入场景，初始化一个新的agent。
reward：根据综合选择动作后，预测的位置与ground truth的IoU

实验：

做得非常充分，各种offline和online多目标追踪的指标和对比方法，但是由于对比过多，直观的效果看着并不是很好？作者详细论证了某个指标出色的方法在其他指标表现不好，或者某些情况存在缺陷，以证明自己的方法综合来看比较好，能充分利用上下文信息。

评价：

从理解层面场景适合multi-agent解决。用DRL，利用最近的neighbor，衡量detection以及predict两个结果的可信度。实验非常充分，效果不能说很突出。文章细节写得不错。

思考：

*物体过多，遮挡后可能会出现id出错（认错人）的问题，保留前几帧的物体特征。但是对于行人的相似，还是有一些挑战。因为方法只能考虑两个agent的交互。
*multi-agent，输入Q网络的包括一些其他agent的信息，其他的相比普通drl不是很特别。
*为什么predict部分不用DRL的方法呢？
*类似我之前考虑的reward设计部分的问题，生成多个结果后用DRL判断应该使用哪个结果或综合考虑。然而真正drl的reward，如果再套用drl，这部分奖励很难定义。

Starry Wintersky

Collaborative Deep Reinforcement Learning for Multi-Object Tracking

任务：

概述：

Decision部分的DRL细节：

实验：

评价：

思考：