Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- 분산 학습
- 의료정보
- 대기행렬
- moirai
- gru-d
- 딥러닝
- 토픽모델링
- ed boarding
- 패혈증 관련 급성 호흡곤란 증후군
- ERD
- irregularly sampled time series
- nccl 업데이트
- m/m/s
- queueing theory
- pre-trained llm
- Time Series
- 불규칙적 샘플링
- Transformer
- timellm
- operation management
- nccl 업그레이드
- GaN
- first pg on this rank that detected no heartbeat of its watchdog.
- pytorch
- 리뷰
- timesfm
- length of stay
- NTMs
- multi gpu
- nccl 설치
Archives
- Today
- Total
목록2023/07/06 (1)
데알못정을

정말 미치겠고 미치겠다. 데이터프레임의 크기도 줄여보고 구글링해서 하라는거 다 해봤는데 안되서 정말 쩔쩔 맸다. 데이터셋의 크기가 2백만개가 넘어 매우 컸기 때문에 데이터프레임의 값을 열로 변형하는 pivot trasform은 부하가 많이 컸다. 그러던 중 데이터프레임을 여러개로 분할하여 따로따로 pivot을 시도해보면 어떨까라는 생각에 나는 노가다를 하기 시작했다. 근데 이렇게 해도 메모리 에러가 발생했다. 진짜 죽고싶었다. 그러던 중 read_csv에 chunksize라는 인자가 있다는 것을 알게되었다. 데이터프레임에서 원하는 컬럼만 불러올 수 있듯이, 데이터셋의 샘플을 특정 몇개로 쪼개서(chunk) 불러와 모아두는 하나의 생성자(generator)를 만들 수 있다. 코드는 다음과 같다. impor..
Coding
2023. 7. 6. 14:47