Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- timellm
- irregularly sampled time series
- nccl 업데이트
- Transformer
- 패혈증 관련 급성 호흡곤란 증후군
- length of stay
- gru-d
- 대기행렬
- 불규칙적 샘플링
- 딥러닝
- operation management
- nccl 업그레이드
- ed boarding
- GaN
- nccl 설치
- m/m/s
- pytorch
- pre-trained llm
- 의료정보
- queueing theory
- timesfm
- 리뷰
- 분산 학습
- first pg on this rank that detected no heartbeat of its watchdog.
- NTMs
- ERD
- Time Series
- 토픽모델링
- multi gpu
- moirai
Archives
- Today
- Total
목록DeepSSM (1)
데알못정을
[Review] Mamba: Linear-Time Sequence Modeling with Selective State Spaces 쉽게 이해하기
Summary 이번 포스팅에서는 최근 Long sequence data modal에서 Transformer의 성능을 앞도하고 있는 Deep State Space Model의 발전 과정과 글의 문맥적 흐름까지 이해할 수 있도록 설계된 Selective State Space Model, 그리고 그 아키텍처를 단순화한 Mamba를 알아보도록 하겠습니다. 해당 논문은 여러가지 사전 지식이 없는 상태에서 읽는 것은 (산업공학도로서)매우 힘든 일입니다. 왜냐하면 State Space Model(SSM)과 이것의 딥러닝 아키텍처로서의 사용부터, 연산을 효율적으로 하기 위한 많은 시도들을 알고 있어야, 비로소 이 논문의 motivation을 공감할 수 있고, 문제를 어떻게 해결했는지 이해할 수 있기 때문입니다. 실제 ..
Paper Review
2024. 3. 24. 16:11