일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 토픽모델링
- Time Series
- 의료정보
- pytorch
- irregularly sampled time series
- 불규칙적 샘플링
- 리뷰
- nccl 설치
- ed boarding
- multi gpu
- 패혈증 관련 급성 호흡곤란 증후군
- nccl 업그레이드
- operation management
- queueing theory
- 분산 학습
- ERD
- 딥러닝
- timesfm
- GaN
- first pg on this rank that detected no heartbeat of its watchdog.
- m/m/s
- gru-d
- moirai
- timellm
- length of stay
- nccl 업데이트
- Transformer
- pre-trained llm
- 대기행렬
- NTMs
- Today
- Total
목록Coding (8)
데알못정을
Multi GPU를 사용하는 학습 코드를 돌리던 와중에 잘 돌아가다가 갑자기 특정 epoch에서 코드가 멈추는 현상이 발생했다.(GPU에도 메모리가 멈췄다. watch -n 0.1 nvidia-smi로 보는데, 계속 멈춰있다) 그러다가 갑자기 혼자 중단하고서 하는말이 First PG on this rank that detected no heartbeat of its watchdog. [rank1]:[E814 01:43:33.703972694 ProcessGroupNCCL.cpp:1413] [PG 0 (default_pg) Rank 1] Heartbeat monitor timed out! Process will be terminated after dumping debug info. workMetaList_..
데이터 전처리를 수행하던 중에 피봇 테이블을 이용하여 label을 열 정보로 두고 그에 따른 값을 매핑할 필요가 있었다. 내가 하고 싶었던 것은 위 사진에서 보이는 데이터프레임의 label이라는 값을 column으로 변환하고, 그에 대응되는 값을 각각 매칭시키고 싶었고, subject_id, stay_id, charttime은 보존되어야 하기 때문에 multi index로 설정했다. 일단 관측치가 너무 많기 때문에 위 코드 처럼 chunk 단위로 데이터를 불러왔고 chunk 단위로 pivot 변환을 수행하였다. 그 결과는 아래와 같다. 참 난해했다. column을 보면 amount와 각 label 들이 multi index로 들어가있었고, index 자체도 multi index이기 때문에 이를 그대로 전..
정말 미치겠고 미치겠다. 데이터프레임의 크기도 줄여보고 구글링해서 하라는거 다 해봤는데 안되서 정말 쩔쩔 맸다. 데이터셋의 크기가 2백만개가 넘어 매우 컸기 때문에 데이터프레임의 값을 열로 변형하는 pivot trasform은 부하가 많이 컸다. 그러던 중 데이터프레임을 여러개로 분할하여 따로따로 pivot을 시도해보면 어떨까라는 생각에 나는 노가다를 하기 시작했다. 근데 이렇게 해도 메모리 에러가 발생했다. 진짜 죽고싶었다. 그러던 중 read_csv에 chunksize라는 인자가 있다는 것을 알게되었다. 데이터프레임에서 원하는 컬럼만 불러올 수 있듯이, 데이터셋의 샘플을 특정 몇개로 쪼개서(chunk) 불러와 모아두는 하나의 생성자(generator)를 만들 수 있다. 코드는 다음과 같다. impor..
최근 연구실을 옮기면서 새로운 환경에서 작업을 하게되었는데, 딥러닝 학습 환경을 만들기 위해 새로운 가상환경을 만들어야 했다. 절차가 그리 까다롭지 않아서 외우고 있었는데 사람인지라 까먹게되서 그냥 여기다 정리하고 필요할 때 마다 보려고 정리한다. 가상환경 관련 명령어는 다음과 같다. 아나콘다 명령 프롬프트를 열어 사용할 수 있다. # 가상환경 목록 확인 conda info --envs # 가상환경 삭제 conda remove -n 가상환경이름 --all # 가상환경 복사 conda create -n 새로운 가상환경 이름 --clone 복제 할 가상환경 # 가상환경 활성화 conda activate 가상환경 이름 # 가상환경 내의 패키지 확인 conda list # 가상환경 내에 패키지 설치 conda ..
프로젝트가 끝나고 코드 정리를 하게 되었는데, 이 프로젝트 전용의 가상환경을 만들어서 패키지 버전을 정리하려고 했다. 그래서 클린한 가상환경을 하나 만들고 이를 주피터 노트북과 연결하는 작업을 하는 도중에 발생하는 오류를 해결하느라 애를 먹었다. 일단 만들어 놓은 KISTI_GRP 라는 가상환경을 activate하고 ipykernel을 설치하던 중 다음과 같은 오류를 만났다. ~$ conda activate KISTI_GRP ~$ pip install ipykernel Defaulting to user installation because normal site-mackages is not writeable Requirement already satisfied: ipykernel in /usr/lib/py..
신경망에서 특정 layer의 결과 값을 출력할 수 있다. 최근 신경망 관련 연구를 하다가, 신경망의 각 layer의 결과 값이 input data 대비 어떻게 representation 되는지 확인하기 위해 이 작업이 필요 했다. [전체 코드] class MLPclassifier(nn.Module): def __init__(self, input_size, drop_rate): super(MLPclassifier, self).__init__() self.input_size = input_size layer1 = [nn.Linear(input_size, 39), nn.BatchNorm1d(39), nn.Dropout(drop_rate), nn.ReLU()] layer2 = [nn.Linear(39, 72),..