로고 이미지

고정 헤더 영역

글 제목

메뉴 레이어

로고 이미지

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 롯데리아
  • 분류 전체보기 (128)
    • 사색 (39)
      • 인지과학적 사유 (12)
      • 자유분방한 사고 (11)
      • 순수한 생각 (3)
      • 짧은 생각 (12)
      • Break (1)
    • 경험 (27)
      • 에피소드 (26)
    • 비문학 (33)
      • 정규화제1단계 (16)
      • 정규화제2단계 (9)
      • 최적화제1단계 (7)
      • 최적화제2단계 (1)
    • 연구 (25)
      • 한탄 (2)
      • 페이퍼리뷰 (1)
      • 정보 (11)
      • 메타 (5)
    • 꿈 (2)
      • Wish2See (1)
      • Wish2Eat (1)
홈태그방명록롯데리아
  • 사색 39
    • 인지과학적 사유 12
    • 자유분방한 사고 11
    • 순수한 생각 3
    • 짧은 생각 12
    • Break 1
  • 경험 27
    • 에피소드 26
  • 비문학 33
    • 정규화제1단계 16
    • 정규화제2단계 9
    • 최적화제1단계 7
    • 최적화제2단계 1
  • 연구 25
    • 한탄 2
    • 페이퍼리뷰 1
    • 정보 11
    • 메타 5
  • 꿈 2
    • Wish2See 1
    • Wish2Eat 1

검색 레이어

로고 이미지

검색 영역

컨텐츠 검색

credit assignment

  • Synthetic Returns for Long-Term Credit Assignment 핵심 리뷰

    2021.03.24 by Aesthetic Thinker

Synthetic Returns for Long-Term Credit Assignment 핵심 리뷰

DeepMind에서 오늘 알람이 떠서 알게된 따끈따끈한 논문입니다. 한달 전인 2월 24일에 아카이브에 올라왔더군요. 논문링크: arxiv.org/abs/2102.12425 본 논문은 강화학습의 원초적 이슈인 Long-term credit assignment 문제를 해결하는 방법을 다룹니다. *Long-term credit assignment: Delayed reward 환경에서 발생하는 문제를 말합니다. 에이전트가 어떠한 적절한 행동을 취하여 desirable한 상태를 얻었음에도, 그에 대한 보상이 한참 후에 주어진다면 적절한 행동을 강화하는 데 장애가 됩니다. 설령 그 적절한 행동이 작업을 성공하는 정말 결정적인 행동이었다 하더라도, 해당 행동에 높은 기여도를 부여(credit assignment)하..

연구/페이퍼리뷰 2021. 3. 24. 17:59

추가 정보

반응형

최신글

인기글

의문스러운 그래프

페이징

이전
1
다음
McDonalds
푸터 로고 © Aesthetic Thinker
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.