로고 이미지

고정 헤더 영역

글 제목

메뉴 레이어

로고 이미지

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 롯데리아
  • 분류 전체보기 (128)
    • 사색 (39)
      • 인지과학적 사유 (12)
      • 자유분방한 사고 (11)
      • 순수한 생각 (3)
      • 짧은 생각 (12)
      • Break (1)
    • 경험 (27)
      • 에피소드 (26)
    • 비문학 (33)
      • 정규화제1단계 (16)
      • 정규화제2단계 (9)
      • 최적화제1단계 (7)
      • 최적화제2단계 (1)
    • 연구 (25)
      • 한탄 (2)
      • 페이퍼리뷰 (1)
      • 정보 (11)
      • 메타 (5)
    • 꿈 (2)
      • Wish2See (1)
      • Wish2Eat (1)

검색 레이어

로고 이미지

검색 영역

컨텐츠 검색

PONG

  • Pong 존버 승리

    2021.01.14 by Aesthetic Thinker

Pong 존버 승리

나는 놀랍게도 Atari Pong을 거진 2개월이 넘도록 잡고 있었다. 그리고 오늘 승리했다. 89 Episode 만에 14대 21로 승리하는 Pong을 보고야 말았다.. 2013년에 다 풀린 그딴 Pong을 왜 2개월 동안이나 붙잡고 있었을지 이해가 되지 않을 수 있다. 2013년에 pixel 입력으로 pong을 풀었던 바로 그 알고리즘 DQN은 Bellman equation을 기반으로 한 Q함수를 DNN으로 근사하여 푼다. 이 Bellman equation은 강화 학습에서 하나의 정수가 되었다. 그 뒤로 쏟아져나오는 '정파' 강화학습 논문들은 이 'Bellman equation' 정통을 따른다. (DQN이 아니라 사실 딥강화학습 이전부터 내려오던 강화학습 자체의 정통이다.) 하지만 존버의 이유는 '사..

연구 2021. 1. 14. 05:18

추가 정보

반응형

최신글

인기글

의문스러운 그래프

페이징

이전
1
다음
McDonalds
푸터 로고 © Aesthetic Thinker
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바