상세 컨텐츠

본문 제목

Breakout 조지기

연구

by Aesthetic Thinker 2021. 1. 24. 00:27

본문

충격적인 일이 발생했다.

Pong을 조진 뒤로는 Breakout을 조지고 있다.

그런데 오늘 실험에서 30,000프레임 대에서 300점을 넘기는 해프닝이 벌어졌다.

이는 공이 블록을 뚫는 전략이 사용되어야 달성할 수 있다.

 

DQN에서는 평균적으로 20,000,000 프레임은 넘겨야 에피소드 평균 200점을 넘기 시작하므로

이것이 일반적인 결과라면 강화학습에 대해 지금까지와는 전혀 다른 해석이 나올 수 있다.

 

운으로 이런 결과가 나오긴 쉽지 않긴 하지만,

어쩌면 그저 해프닝이었을 수도 있기에

이 현상이 같은 세팅의 다른 실험에서도 일관성 있게 발견되는지 확인 중이다.

 

해당 현상

아래는 조금 더 학습을 진행한 뒤의 모습이다.

변형된 전략과 안타깝게 공을 놓치는 모습이 인상적이다.

 

해당 현상 변형

이후에는 남은 것들까지 어느정도 청소해주는 모습도 볼 수 있었다.

 

청소기

 

'연구' 카테고리의 다른 글

연구의 본질은 사치와 향락이다.  (2) 2021.03.27
미니 배치에 대한 고찰  (2) 2021.03.12
Pong 존버 승리  (7) 2021.01.14
유전 알고리즘 - 컨셉  (2) 2020.02.14
유전 알고리즘  (2) 2020.02.13

관련글 더보기

댓글 영역