데알못정을

Topic Modeling 이란? 본문

Topic Modeling

Topic Modeling 이란?

쩡을이 2022. 12. 19. 10:48
728x90

 최근 SNS, 뉴스, 문헌 등을 포함한 비정형 데이터가 끊임없이 발생하고 있지만, 실시간으로 발생되는 이러한 유형을 가진 데이터의 특성상 더 이상 사람의 힘으로 문서, 단어 간 분석이 쉽지 않은 현실이다. 따라서, 현재는 머신러닝, 딥러닝 모델을 통해 데이터들의 주제 및 의미를 탐색하며, 트렌드, 요약, 번역 분야 등에 정량적인 의미를 찾을 수 있는 추세이다. 이러한 자연어 처리 분야에서 토픽 모델(Topic model)이란 문서 집합의 추상적인 주제를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 중 하나이다.

 

그림 1 Topic Model conceptual approach 1

 

 토픽 모델이 할 수 있는 기능은 그림 1처럼 주어진 문서의 집합(Corpus)에 있는 각각의 단어들이 어떠한 주제(Topic)에 속하는지 그 빈도를 보여줄 수 있다. 예를 들어, 문서의 집합(Corpus)이 있고, 3가지의 주제(Topic)가 있을 때 토픽 모델은 각 주제(Topic)에 대응하는 높은 빈도의 단어들을 할당할 수 있다. 또 다른 토픽 모델의 기능은 관점을 조금 달리하여 그림 2와 같이 문서 집합 내의 각 문서가 어떤 주제(Topic)를 많이 내포하고 있는지에 대한 문제를 풀 수 있다.

 

그림 2 Topic Model conceptual approach 2

 

 예를 들어 그림 2의 노란색 문서는 세 가지의 주제(Topic) 중 노란색 주제(Topic 1)에 대한 내용을 많이 내포하고 있음을 알 수 있다. 그러나 가운데에 있는 회색 문서의 경우에는 세 가지 주제(Topic 1, 2, 3)가 거의 동일한 비율로 내포됨을 알 수 있다. 이렇게 토픽 모델은 문서 집합(Corpus)내에 어떤 단어가 어떤 주제(Topic)에 빈번하게 등장하는지, 문서가 어떤 주제(Topic)들을 얼마만큼의 비중을 갖고 있는지에 대한 비율을 찾아낼 수 있다.

 

참고문헌

[1] https://github.com/pilsung-kang/Text-Analytics/tree/afb37231c284c057a8f345a73d7d13b37c97472d

[2] 김도현, “Unstructured Data Analysis”, 명지대학교, 2022

728x90
Comments