일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- causal ml
- 분산 학습
- nccl 업그레이드
- 불규칙적 샘플링
- ERD
- 인과추론
- multi gpu
- 딥러닝
- NTMs
- netflix thumbnail
- first pg on this rank that detected no heartbeat of its watchdog.
- Transformer
- machine learning
- 의료
- doubleml
- pytorch
- 인과추론 의료
- causal inference
- gru-d
- 토픽모델링
- irregularly sampled time series
- causal reasoning
- nccl 설치
- Time Series
- nccl 업데이트
- 리뷰
- GaN
- causal transformer
- 의료정보
- causal machine learning
- Today
- Total
목록전체 글 (48)
데알못정을

정말 미치겠고 미치겠다. 데이터프레임의 크기도 줄여보고 구글링해서 하라는거 다 해봤는데 안되서 정말 쩔쩔 맸다. 데이터셋의 크기가 2백만개가 넘어 매우 컸기 때문에 데이터프레임의 값을 열로 변형하는 pivot trasform은 부하가 많이 컸다. 그러던 중 데이터프레임을 여러개로 분할하여 따로따로 pivot을 시도해보면 어떨까라는 생각에 나는 노가다를 하기 시작했다. 근데 이렇게 해도 메모리 에러가 발생했다. 진짜 죽고싶었다. 그러던 중 read_csv에 chunksize라는 인자가 있다는 것을 알게되었다. 데이터프레임에서 원하는 컬럼만 불러올 수 있듯이, 데이터셋의 샘플을 특정 몇개로 쪼개서(chunk) 불러와 모아두는 하나의 생성자(generator)를 만들 수 있다. 코드는 다음과 같다. impor..

최근 연구실을 옮기면서 새로운 환경에서 작업을 하게되었는데, 딥러닝 학습 환경을 만들기 위해 새로운 가상환경을 만들어야 했다. 절차가 그리 까다롭지 않아서 외우고 있었는데 사람인지라 까먹게되서 그냥 여기다 정리하고 필요할 때 마다 보려고 정리한다. 가상환경 관련 명령어는 다음과 같다. 아나콘다 명령 프롬프트를 열어 사용할 수 있다. # 가상환경 목록 확인 conda info --envs # 가상환경 삭제 conda remove -n 가상환경이름 --all # 가상환경 복사 conda create -n 새로운 가상환경 이름 --clone 복제 할 가상환경 # 가상환경 활성화 conda activate 가상환경 이름 # 가상환경 내의 패키지 확인 conda list # 가상환경 내에 패키지 설치 conda ..

1. What is Multimodal Learning? 멀티모달 러닝이란 인간의 "5가지 감각기관"과 같이 multiple modalities로부터 다양한 정보를 처리하고 연결시키는 모델을 만들어서, 인간의 인지적 학습방법과 같이 세계를 이해하는 학습 방법이다. 인간의 5가지 감각기관이라 하면 시각, 후각, 미각, 촉각, 청각 등이 있겠지만 머신러닝에 실제로 구현하고자 하는 모달은 시각(사진, 동영상, 글), 청각(음성)에 해당할 수 있다. 즉 multimodal learning에서 다루고자 하는 modal은 아래와 같다. Verbal(written or spoken, words, syntax,....) Vocal(sounds, para-verbal, prosody, vocal expressions,...

요약: 기존의 ViT, ViViT를 활용할 때 있어서, 패치의 높은 연산량 문제를 TokenLearner module이라는 효율적으로 해결할 수 있는 토큰 학습 방법을 제안하였음 이 논문을 이해하기 위해서는 아래 3가지 동향을 알고 있어야 한다. 기존에 텍스트 시퀀스나 시계열적 데이터를 처리했던 Transformer모델을 이미지에 적용하는 방법을 제안한 것이 ViT고, 비디오에 적용하는 방법을 제안한 것이 ViViT이다. 논문에서는 이러한 Transformer 기반의 모델을 비전 분야에 적용할 경우 만날 수 있는 문제를 다음과 같이 정의하면서 시작했다. Introduction 1) Main Challenge in Vision Transformers - Patch calculation quantity 논문..

나는 지난 9월부터 12월까지 빅콘테스트 데이터분석 리그 퓨처스 부문으로 참가하였다. 우리팀은 전국 대학생 산업공학도 모임인 FIELD의 멤버들로, 모두 산업공학을 전공하고 있는 학부생으로 구성되었다. 대회의 문제는 '앱 사용성 데이터를 통한 대출신청 예측분석'이었고, 가명화된 고객의 정보, 대출 상품의 정보, 앱 로그 데이터를 바탕으로 이 사람이 대출 상품을 신청할 것인지 아닌지를 예측하는 분류 문제였다. 지난 9월부터 우리는 정말 고생이 많았다. 대출에 대해 아는 것이 전혀 없었고 제공된 데이터셋도 3가지여서 혼란스러웠다. 또한 한 사람이 여러 대출 상품을 신청할 수 있고, 이에 따라 데이터셋의 불균형이 심했고, 데이터의 용량이 더욱 크게 만들었다. 따라서 우리는 해결해야할 과제를 1. 데이터 불균형..

트위터 피드 글이나 stack overflow 제목 등과 같은 Short text를 가지고 토픽 모델링을 할 때 만날 수 있는 문제는 데이터 분석 시 데이터의 수가 부족할 때 만날 수 있는 문제와 비슷하다. 논문에서 저자는 전통적인 토픽 모델들이 short text에서 좋은 성능을 기대할 수 없는 이유는 short text에서 단어의 발생이 희소하기 때문이라고 말하고 있다. 논문에서 제안한 모델 Attention-based Autoencoder Topic Model, 줄여서 AATM은 1) Phrase(구문) model, 2) Attention based Auto-Encoder, 3) Ranking model로 구성되어 있다. 그림 1은 모델의 전체 구조이다. 1) Phrase model Phrase m..