强化学习聚类。解决action过大:用一个recommender推荐两个图片,action判断是否相连。(???这是个很奇怪的用法)按时间给不同操作加权。
逆强化学习:本质是reward不通过人为设定,而是从其他算法,用少量样本以及action,用短视的方法学习reward。
Merge or Not? Learning to Group Faces via Imitation Learning(AAAI2018)
-------------这么快就看完啦^ω^谢谢阅读哟-------------