Pong 존버 승리
나는 놀랍게도 Atari Pong을 거진 2개월이 넘도록 잡고 있었다. 그리고 오늘 승리했다. 89 Episode 만에 14대 21로 승리하는 Pong을 보고야 말았다.. 2013년에 다 풀린 그딴 Pong을 왜 2개월 동안이나 붙잡고 있었을지 이해가 되지 않을 수 있다. 2013년에 pixel 입력으로 pong을 풀었던 바로 그 알고리즘 DQN은 Bellman equation을 기반으로 한 Q함수를 DNN으로 근사하여 푼다. 이 Bellman equation은 강화 학습에서 하나의 정수가 되었다. 그 뒤로 쏟아져나오는 '정파' 강화학습 논문들은 이 'Bellman equation' 정통을 따른다. (DQN이 아니라 사실 딥강화학습 이전부터 내려오던 강화학습 자체의 정통이다.) 하지만 존버의 이유는 '사..
연구
2021. 1. 14. 05:18