충격적인 일이 발생했다.
Pong을 조진 뒤로는 Breakout을 조지고 있다.
그런데 오늘 실험에서 30,000프레임 대에서 300점을 넘기는 해프닝이 벌어졌다.
이는 공이 블록을 뚫는 전략이 사용되어야 달성할 수 있다.
DQN에서는 평균적으로 20,000,000 프레임은 넘겨야 에피소드 평균 200점을 넘기 시작하므로
이것이 일반적인 결과라면 강화학습에 대해 지금까지와는 전혀 다른 해석이 나올 수 있다.
운으로 이런 결과가 나오긴 쉽지 않긴 하지만,
어쩌면 그저 해프닝이었을 수도 있기에
이 현상이 같은 세팅의 다른 실험에서도 일관성 있게 발견되는지 확인 중이다.
아래는 조금 더 학습을 진행한 뒤의 모습이다.
변형된 전략과 안타깝게 공을 놓치는 모습이 인상적이다.
이후에는 남은 것들까지 어느정도 청소해주는 모습도 볼 수 있었다.
연구의 본질은 사치와 향락이다. (2) | 2021.03.27 |
---|---|
미니 배치에 대한 고찰 (2) | 2021.03.12 |
Pong 존버 승리 (7) | 2021.01.14 |
유전 알고리즘 - 컨셉 (2) | 2020.02.14 |
유전 알고리즘 (2) | 2020.02.13 |
댓글 영역