Synthetic Returns for Long-Term Credit Assignment 핵심 리뷰
DeepMind에서 오늘 알람이 떠서 알게된 따끈따끈한 논문입니다. 한달 전인 2월 24일에 아카이브에 올라왔더군요. 논문링크: arxiv.org/abs/2102.12425 본 논문은 강화학습의 원초적 이슈인 Long-term credit assignment 문제를 해결하는 방법을 다룹니다. *Long-term credit assignment: Delayed reward 환경에서 발생하는 문제를 말합니다. 에이전트가 어떠한 적절한 행동을 취하여 desirable한 상태를 얻었음에도, 그에 대한 보상이 한참 후에 주어진다면 적절한 행동을 강화하는 데 장애가 됩니다. 설령 그 적절한 행동이 작업을 성공하는 정말 결정적인 행동이었다 하더라도, 해당 행동에 높은 기여도를 부여(credit assignment)하..
연구/페이퍼리뷰
2021. 3. 24. 17:59