일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ed boarding
- queueing theory
- first pg on this rank that detected no heartbeat of its watchdog.
- 리뷰
- ERD
- pre-trained llm
- m/m/s
- nccl 설치
- 대기행렬
- 불규칙적 샘플링
- Time Series
- Transformer
- 분산 학습
- moirai
- pytorch
- timesfm
- operation management
- 딥러닝
- gru-d
- multi gpu
- 의료정보
- irregularly sampled time series
- 토픽모델링
- 패혈증 관련 급성 호흡곤란 증후군
- nccl 업데이트
- length of stay
- nccl 업그레이드
- NTMs
- timellm
- GaN
- Today
- Total
데알못정을
Topic Modeling 이란? 본문
최근 SNS, 뉴스, 문헌 등을 포함한 비정형 데이터가 끊임없이 발생하고 있지만, 실시간으로 발생되는 이러한 유형을 가진 데이터의 특성상 더 이상 사람의 힘으로 문서, 단어 간 분석이 쉽지 않은 현실이다. 따라서, 현재는 머신러닝, 딥러닝 모델을 통해 데이터들의 주제 및 의미를 탐색하며, 트렌드, 요약, 번역 분야 등에 정량적인 의미를 찾을 수 있는 추세이다. 이러한 자연어 처리 분야에서 토픽 모델(Topic model)이란 문서 집합의 추상적인 “주제”를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 중 하나이다.
토픽 모델이 할 수 있는 기능은 그림 1처럼 주어진 문서의 집합(Corpus)에 있는 각각의 단어들이 어떠한 주제(Topic)에 속하는지 그 빈도를 보여줄 수 있다. 예를 들어, 문서의 집합(Corpus)이 있고, 3가지의 주제(Topic)가 있을 때 토픽 모델은 각 주제(Topic)에 대응하는 높은 빈도의 단어들을 할당할 수 있다. 또 다른 토픽 모델의 기능은 관점을 조금 달리하여 그림 2와 같이 문서 집합 내의 각 문서가 어떤 주제(Topic)를 많이 내포하고 있는지에 대한 문제를 풀 수 있다.
예를 들어 그림 2의 노란색 문서는 세 가지의 주제(Topic) 중 노란색 주제(Topic 1)에 대한 내용을 많이 내포하고 있음을 알 수 있다. 그러나 가운데에 있는 회색 문서의 경우에는 세 가지 주제(Topic 1, 2, 3)가 거의 동일한 비율로 내포됨을 알 수 있다. 이렇게 토픽 모델은 문서 집합(Corpus)내에 어떤 단어가 어떤 주제(Topic)에 빈번하게 등장하는지, 문서가 어떤 주제(Topic)들을 얼마만큼의 비중을 갖고 있는지에 대한 비율을 찾아낼 수 있다.
참고문헌
[1] https://github.com/pilsung-kang/Text-Analytics/tree/afb37231c284c057a8f345a73d7d13b37c97472d
[2] 김도현, “Unstructured Data Analysis”, 명지대학교, 2022
'Topic Modeling' 카테고리의 다른 글
Dirichlet Distribution & LDA(Latent Dirichlet Allocation) (1) | 2022.12.19 |
---|---|
pLSA(Probabilistic Latent Semantic Analysis) (1) | 2022.12.19 |
SVD(singular value decomposition) & LSA(Latent Semantic Analysis) (0) | 2022.12.19 |
Cosine Similarity & TF-IDF (0) | 2022.12.19 |