일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- gru-d
- nccl 설치
- multi gpu
- 불규칙적 샘플링
- moirai
- 딥러닝
- GaN
- ERD
- length of stay
- NTMs
- m/m/s
- timellm
- nccl 업데이트
- 리뷰
- timesfm
- 대기행렬
- 분산 학습
- 토픽모델링
- irregularly sampled time series
- queueing theory
- 의료정보
- nccl 업그레이드
- ed boarding
- 패혈증 관련 급성 호흡곤란 증후군
- pytorch
- pre-trained llm
- operation management
- Time Series
- first pg on this rank that detected no heartbeat of its watchdog.
- Transformer
- Today
- Total
목록Transformer (2)
데알못정을
Summary 이번 포스팅에서는 최근 Long sequence data modal에서 Transformer의 성능을 앞도하고 있는 Deep State Space Model의 발전 과정과 글의 문맥적 흐름까지 이해할 수 있도록 설계된 Selective State Space Model, 그리고 그 아키텍처를 단순화한 Mamba를 알아보도록 하겠습니다. 해당 논문은 여러가지 사전 지식이 없는 상태에서 읽는 것은 (산업공학도로서)매우 힘든 일입니다. 왜냐하면 State Space Model(SSM)과 이것의 딥러닝 아키텍처로서의 사용부터, 연산을 효율적으로 하기 위한 많은 시도들을 알고 있어야, 비로소 이 논문의 motivation을 공감할 수 있고, 문제를 어떻게 해결했는지 이해할 수 있기 때문입니다. 실제 ..
요약: 기존의 ViT, ViViT를 활용할 때 있어서, 패치의 높은 연산량 문제를 TokenLearner module이라는 효율적으로 해결할 수 있는 토큰 학습 방법을 제안하였음 이 논문을 이해하기 위해서는 아래 3가지 동향을 알고 있어야 한다. 기존에 텍스트 시퀀스나 시계열적 데이터를 처리했던 Transformer모델을 이미지에 적용하는 방법을 제안한 것이 ViT고, 비디오에 적용하는 방법을 제안한 것이 ViViT이다. 논문에서는 이러한 Transformer 기반의 모델을 비전 분야에 적용할 경우 만날 수 있는 문제를 다음과 같이 정의하면서 시작했다. Introduction 1) Main Challenge in Vision Transformers - Patch calculation quantity 논문..