일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- queueing theory
- irregularly sampled time series
- nccl 업그레이드
- nccl 설치
- ed boarding
- gru-d
- 의료정보
- 대기행렬
- timellm
- 딥러닝
- operation management
- Transformer
- pre-trained llm
- moirai
- m/m/s
- NTMs
- pytorch
- 패혈증 관련 급성 호흡곤란 증후군
- 불규칙적 샘플링
- 토픽모델링
- 분산 학습
- Time Series
- nccl 업데이트
- ERD
- first pg on this rank that detected no heartbeat of its watchdog.
- length of stay
- 리뷰
- timesfm
- multi gpu
- GaN
- Today
- Total
목록Reinforcement Learning (5)
데알못정을
강화 학습 스터디) 바닥부터 배우는 강화학습을 읽고 정리하였습니다. MDP를 안다 → 보상함수 $r^a_{s}$와 전이 확률 $P^a_{ss’}$를 안다 MDP를 모른다 → 보상함수 $r^a_{s}$와 전이 확률 $P^a_{ss’}$를 모른다 ! 이런 상황을 모델 프리(model free)라고 부름. 여기서 모델은 강화 학습에서 환경의 모델(model of environment)의 줄임말로, 에이전트의 액션에 대해 환경이 어떻게 답할지 예측하기 위해 사용하는 모든 것을 의미 몬테카를로 학습 어떤 동전의 무게 중심이 한쪽에 치우쳐 있어서 앞면이 나올 확률이 50%가 아닐 때 앞면이 나올 확률을 아는 방법 → 여러번 시도하여 기댓값을 구하는 것 → MDP에 대한 정보를 모를 때 각 상태의 가치를 평가하는 문..
강화 학습 스터디) 바닥부터 배우는 강화학습을 읽고 정리하였습니다. Chapter 4는 간단한 MDP(상태나 액션의 개수가 많지 않은)를 푸는 법에 대한 내용임 내용은 주로 테이블 기반 방법론(tabular method)에 기반하는데, 이는 모든 상태 s 혹은 상태와 액션의 페어(s,a)에 대한 테이블을 만들어서 값을 기록해 놓고, 그 값을 조금씩 업데이트 하는 방식을 의미 밸류 평가하기 - 반복적 정책 평가[정책이 고정인 상황] 이 문제를 해결하기 위해서는 반복적 정책 평가(iterative policy evaluation)라는 방법론을 도입 → 이 방법론은 MDP에 대한 모든 정보를 알 때 사용할 수 있음 문제 상황 정책 함수 $\pi$는 4 방향 랜덤 보상 함수 $r^a_{s}$는 -1로 고정, 전..
강화 학습 스터디) 바닥부터 배우는 강화학습을 읽고 정리하였습니다. 벨만 방정식: 어떤 주어진 상태의 밸류를 계산하는 방법 밸만 기대 방정식 Remind state-value function $v_{\pi}(s_{t}) = \mathbb{E}[r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + …] = \mathbb{E}[r_{t+1} + \gamma (r_{t+2} + \gamma r_{t+3} + …)] = \mathbb{E}[r_{t+1} + \gamma G_{t+1}] = \mathbb{E}[r_{t+1} + \gamma v_{\pi}(s_{t+1})]$ $s_{t}$의 밸류는 리턴의 기댓값인데 이를 위처럼 다시 $s_{t+1}$ 의 state-value functi..
강화 학습 스터디) 노승은 저자의 바닥부터 배우는 강화학습 책 기반의 정리입니다. 강화 학습은 순차적 의사결정 문제를 푸는 것임. 순차적 의사결정 문제는 MDP(Markov Decision Process)라는 개념을 통해 더 정확하게 표현할 수 있음 마르코프 프로세스(Markov Process) 미리 정의된 어떤 확률 분포를 따라서 상태와 상태 사이를 이동해 다니는 여정 어떤 상태에 도착하게 되면 그 상태에서 다음 상태가 어디가 될지 각각에 해당하는 확률이 있고, 그에 따라 다음 상태가 정해짐 하나의 상태에서 다른 여러 상태로 전이할 확률의 합은 1 [Notation] $MP \equiv (S,P)$ S: 상태 집합(가능한 상태를 모두 모아놓은 집합) 상태가 5개면 $S = s_{1}, …, s_{5}$..
강화 학습 스터디) 노승은 저자의 바닥부터 배우는 강화학습 정리입니다. 인공지능 혹은 AI 라고 하는 것 → 학술적으로 엄밀히 정의되지 않는, 대중적인 용어 기계학습 → 인공지능을 구현하는 하나의 방법론. 즉, 인공지능을 꼭 기계 학습으로만 구현해야 하는 것인 아님! 예컨데 게임 속 몬스터의 지능을 만든다고 할 때, 간단한 룰 베이스 알고리즘을 적용해도 인공 지능을 구현했다고 볼 수 있음 룰 베이스 알고리즘은 모든 상황에 대해서 규칙을 구현해야 한다는 단점이 있음 그래서 기계학습을 사용 → 모든 상황에 대해서 규칙을 만들지 않아도 인공 지능을 만들 수 있다!(강화학습, 지도학습, 비지도학습이 여기에 속함!) 지도 학습과 강화 학습의 차이 지도 학습: 입력 데이터에 대응 되는 정답이 있을 때, 입력 데이터..