데알못정을

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (48)

데알못정을

파이썬 pivot table 생성 시 Memory error 해결하는 방법

정말 미치겠고 미치겠다. 데이터프레임의 크기도 줄여보고 구글링해서 하라는거 다 해봤는데 안되서 정말 쩔쩔 맸다. 데이터셋의 크기가 2백만개가 넘어 매우 컸기 때문에 데이터프레임의 값을 열로 변형하는 pivot trasform은 부하가 많이 컸다. 그러던 중 데이터프레임을 여러개로 분할하여 따로따로 pivot을 시도해보면 어떨까라는 생각에 나는 노가다를 하기 시작했다. 근데 이렇게 해도 메모리 에러가 발생했다. 진짜 죽고싶었다. 그러던 중 read_csv에 chunksize라는 인자가 있다는 것을 알게되었다. 데이터프레임에서 원하는 컬럼만 불러올 수 있듯이, 데이터셋의 샘플을 특정 몇개로 쪼개서(chunk) 불러와 모아두는 하나의 생성자(generator)를 만들 수 있다. 코드는 다음과 같다. impor..

Coding 2023. 7. 6. 14:47

내가 자꾸 까먹어서 올리는 주피터 노트북 가상 환경 만드는 법

최근 연구실을 옮기면서 새로운 환경에서 작업을 하게되었는데, 딥러닝 학습 환경을 만들기 위해 새로운 가상환경을 만들어야 했다. 절차가 그리 까다롭지 않아서 외우고 있었는데 사람인지라 까먹게되서 그냥 여기다 정리하고 필요할 때 마다 보려고 정리한다. 가상환경 관련 명령어는 다음과 같다. 아나콘다 명령 프롬프트를 열어 사용할 수 있다. # 가상환경 목록 확인 conda info --envs # 가상환경 삭제 conda remove -n 가상환경이름 --all # 가상환경 복사 conda create -n 새로운 가상환경 이름 --clone 복제 할 가상환경 # 가상환경 활성화 conda activate 가상환경 이름 # 가상환경 내의 패키지 확인 conda list # 가상환경 내에 패키지 설치 conda ..

Coding 2023. 7. 2. 16:52

Multimodal machine learning

1. What is Multimodal Learning? 멀티모달 러닝이란 인간의 "5가지 감각기관"과 같이 multiple modalities로부터 다양한 정보를 처리하고 연결시키는 모델을 만들어서, 인간의 인지적 학습방법과 같이 세계를 이해하는 학습 방법이다. 인간의 5가지 감각기관이라 하면 시각, 후각, 미각, 촉각, 청각 등이 있겠지만 머신러닝에 실제로 구현하고자 하는 모달은 시각(사진, 동영상, 글), 청각(음성)에 해당할 수 있다. 즉 multimodal learning에서 다루고자 하는 modal은 아래와 같다. Verbal(written or spoken, words, syntax,....) Vocal(sounds, para-verbal, prosody, vocal expressions,...

Research 2023. 2. 22. 17:34

[Review] TokenLearner: What Can 8 Learned Tokens Do for Images and Videos

요약: 기존의 ViT, ViViT를 활용할 때 있어서, 패치의 높은 연산량 문제를 TokenLearner module이라는 효율적으로 해결할 수 있는 토큰 학습 방법을 제안하였음 이 논문을 이해하기 위해서는 아래 3가지 동향을 알고 있어야 한다. 기존에 텍스트 시퀀스나 시계열적 데이터를 처리했던 Transformer모델을 이미지에 적용하는 방법을 제안한 것이 ViT고, 비디오에 적용하는 방법을 제안한 것이 ViViT이다. 논문에서는 이러한 Transformer 기반의 모델을 비전 분야에 적용할 경우 만날 수 있는 문제를 다음과 같이 정의하면서 시작했다. Introduction 1) Main Challenge in Vision Transformers - Patch calculation quantity 논문..

Paper Review 2023. 1. 18. 13:17

2022 빅콘테스트 수상 후기

나는 지난 9월부터 12월까지 빅콘테스트 데이터분석 리그 퓨처스 부문으로 참가하였다. 우리팀은 전국 대학생 산업공학도 모임인 FIELD의 멤버들로, 모두 산업공학을 전공하고 있는 학부생으로 구성되었다. 대회의 문제는 '앱 사용성 데이터를 통한 대출신청 예측분석'이었고, 가명화된 고객의 정보, 대출 상품의 정보, 앱 로그 데이터를 바탕으로 이 사람이 대출 상품을 신청할 것인지 아닌지를 예측하는 분류 문제였다. 지난 9월부터 우리는 정말 고생이 많았다. 대출에 대해 아는 것이 전혀 없었고 제공된 데이터셋도 3가지여서 혼란스러웠다. 또한 한 사람이 여러 대출 상품을 신청할 수 있고, 이에 따라 데이터셋의 불균형이 심했고, 데이터의 용량이 더욱 크게 만들었다. 따라서 우리는 해결해야할 과제를 1. 데이터 불균형..

Certificate and Awards 2023. 1. 9. 12:05

[Review]Attention-based Auto encoder Topic Model for Short Text

트위터 피드 글이나 stack overflow 제목 등과 같은 Short text를 가지고 토픽 모델링을 할 때 만날 수 있는 문제는 데이터 분석 시 데이터의 수가 부족할 때 만날 수 있는 문제와 비슷하다. 논문에서 저자는 전통적인 토픽 모델들이 short text에서 좋은 성능을 기대할 수 없는 이유는 short text에서 단어의 발생이 희소하기 때문이라고 말하고 있다. 논문에서 제안한 모델 Attention-based Autoencoder Topic Model, 줄여서 AATM은 1) Phrase(구문) model, 2) Attention based Auto-Encoder, 3) Ranking model로 구성되어 있다. 그림 1은 모델의 전체 구조이다. 1) Phrase model Phrase m..

Paper Review 2022. 12. 22. 20:30

이전 Prev 1 2 3 4 5 6 7 8 Next 다음

목록전체 글 (48)

데알못정을

티스토리툴바