로고 이미지

고정 헤더 영역

글 제목

메뉴 레이어

로고 이미지

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 롯데리아
  • 분류 전체보기 (128)
    • 사색 (39)
      • 인지과학적 사유 (12)
      • 자유분방한 사고 (11)
      • 순수한 생각 (3)
      • 짧은 생각 (12)
      • Break (1)
    • 경험 (27)
      • 에피소드 (26)
    • 비문학 (33)
      • 정규화제1단계 (16)
      • 정규화제2단계 (9)
      • 최적화제1단계 (7)
      • 최적화제2단계 (1)
    • 연구 (25)
      • 한탄 (2)
      • 페이퍼리뷰 (1)
      • 정보 (11)
      • 메타 (5)
    • 꿈 (2)
      • Wish2See (1)
      • Wish2Eat (1)

검색 레이어

로고 이미지

검색 영역

컨텐츠 검색

credit assignment

  • Synthetic Returns for Long-Term Credit Assignment 핵심 리뷰

    2021.03.24 by Aesthetic Thinker

Synthetic Returns for Long-Term Credit Assignment 핵심 리뷰

DeepMind에서 오늘 알람이 떠서 알게된 따끈따끈한 논문입니다. 한달 전인 2월 24일에 아카이브에 올라왔더군요. 논문링크: arxiv.org/abs/2102.12425 본 논문은 강화학습의 원초적 이슈인 Long-term credit assignment 문제를 해결하는 방법을 다룹니다. *Long-term credit assignment: Delayed reward 환경에서 발생하는 문제를 말합니다. 에이전트가 어떠한 적절한 행동을 취하여 desirable한 상태를 얻었음에도, 그에 대한 보상이 한참 후에 주어진다면 적절한 행동을 강화하는 데 장애가 됩니다. 설령 그 적절한 행동이 작업을 성공하는 정말 결정적인 행동이었다 하더라도, 해당 행동에 높은 기여도를 부여(credit assignment)하..

연구/페이퍼리뷰 2021. 3. 24. 17:59

추가 정보

반응형

최신글

인기글

의문스러운 그래프

페이징

이전
1
다음
McDonalds
푸터 로고 © Aesthetic Thinker
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바