Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- operation management
- 분산 학습
- timellm
- irregularly sampled time series
- nccl 업그레이드
- 딥러닝
- m/m/s
- NTMs
- 리뷰
- GaN
- ed boarding
- moirai
- ERD
- Transformer
- nccl 업데이트
- 토픽모델링
- timesfm
- queueing theory
- nccl 설치
- Time Series
- pytorch
- 패혈증 관련 급성 호흡곤란 증후군
- multi gpu
- 불규칙적 샘플링
- gru-d
- first pg on this rank that detected no heartbeat of its watchdog.
- length of stay
- pre-trained llm
- 대기행렬
- 의료정보
Archives
- Today
- Total
목록s6 (1)
데알못정을
[Review] Mamba: Linear-Time Sequence Modeling with Selective State Spaces 쉽게 이해하기
Summary 이번 포스팅에서는 최근 Long sequence data modal에서 Transformer의 성능을 앞도하고 있는 Deep State Space Model의 발전 과정과 글의 문맥적 흐름까지 이해할 수 있도록 설계된 Selective State Space Model, 그리고 그 아키텍처를 단순화한 Mamba를 알아보도록 하겠습니다. 해당 논문은 여러가지 사전 지식이 없는 상태에서 읽는 것은 (산업공학도로서)매우 힘든 일입니다. 왜냐하면 State Space Model(SSM)과 이것의 딥러닝 아키텍처로서의 사용부터, 연산을 효율적으로 하기 위한 많은 시도들을 알고 있어야, 비로소 이 논문의 motivation을 공감할 수 있고, 문제를 어떻게 해결했는지 이해할 수 있기 때문입니다. 실제 ..
Paper Review
2024. 3. 24. 16:11