'Topic Modeling' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Tags more

Archives

Today

Total

관리 메뉴

목록Topic Modeling (5)

데알못정을

Dirichlet Distribution & LDA(Latent Dirichlet Allocation)

1) Beta Distribution & Dirichlet Distribution - Beta distribution: 두 매개변수 $\alpha$,$\beta$에 따라 [0,1] 구간에서 정의되는 연속 확률분포이다. 베타분포는 확률에 대한 확률분포로써 해석된다. 예를 들어 동전을 던졌을 때 앞면이 8번, 뒷면이 2번 나왔다면, 동전을 던졌을 때 앞면이 나올 확률이 0.5보다 클 확률은 다음과 같이 계산된다. - Dirichlet distribution: 디리클레 분포는 베타분포의 확장판이라고 볼 수 있다. 베타분포는 0과 1 사이의 값을 가지는 단일 확률 변수의 분포이고, 디리클레 분포는 0과 1 사이의 값을 가지는 다변수의 확률 변수의 분포이다. 2) LDA(Latent Dirichlet Alloca..

Topic Modeling 2022. 12. 19. 18:24

pLSA(Probabilistic Latent Semantic Analysis)

1. pLSA(Probabilistic Latent Semantic Analysis) pLSA는 문서 내에 특정 용어가 등장한 확률을 기반으로 하여 구축한다. 하지만 한 문서 안에 특정 단어가 등장할 확률을 단순히 빈도에 기반해 계산한다면 문서상에 나타나지 않은 단어는 0인 확률값을 가지므로 적절하지 않다. 그래서 pLSA는 한 문서가 아닌 다른 문서들을 활용하여 확률을 추정한다. 이를 이뤄내기 위해 Latent Concept(=Topic)을 도입하여 문서와 단어의 확률을 계산한다. 이때, 토픽에 대한 사전정보 없이, 문서-단어 동시 발생행렬만을 이용한다. pLSA의 관점은 그림 1과 같다. 왼쪽의 초록색 노드들은 각 document이다. 그림에서 볼 수 있듯, 총 8개의 문서를 갖고있다고 가정하자. 우..

Topic Modeling 2022. 12. 19. 15:25

SVD(singular value decomposition) & LSA(Latent Semantic Analysis)

1. 특이값 분해(Singulart Value Decomposition, SVD) 특이값 분해(Singular Value Decomposition, SVD)란 실수 벡터 공간에서 A가 m $\times$ n 행렬일 때, 다음과 같이 3개의 행렬의 곱으로 분해(decomposition)하는 것을 말한다. $$A=U\sum_{}^{}V^T$$ 여기서 각 3개의 행렬은 다음과 같은 조건을 만족한다. $$U: m\times m 직교행렬$$ $$V: n\times n 직교행렬$$ $$\sum : m\times n 직사각대각행렬$$ 직교행렬(orthogonal matrix)이란 자신과 자신의 전치 행렬(transposed matrix)의 곱 또는 이를 반대로 곱한 결과가 단위행렬(identity matrix)이 되..

Topic Modeling 2022. 12. 19. 14:04

Cosine Similarity & TF-IDF

단어들을 단순히 출현 횟수를 나타내는 정수나 특정 단어의 존재 여부를 나타내는 이진 ‘비트 벡터’ 형태로만 표현하는 것이 아니라 주어진 응용에 의미가 있는 어떤 연속된 값들로 바꾸는 것은 중요하다. 전자의 방식으로 단어를 벡터로 표현하게 되면 너무 sparse한 벡터(0 또는 1)를 사용하기 때문에 단어가 담은 정보를 많이 손실할 수 있다. 따라서 후자의 방식으로 단어를 표현할 필요가 있다. 그 이유는 단어를 연속 공간에서 표현하면 좀 더 다양한 수학적 도구들(유사도 등)로 단어 표현들을 다룰 수 있기 때문이다. 1. 코사인 유사도(Cosine Similarity) 벡터란 선형대수의 기본적인 구성요소이다. 벡터는 순서가 있는 수치 목록인데, 이 수치들은 벡터 공간에서 그 벡터의 위치를 말해 주는 좌표 성..

Topic Modeling 2022. 12. 19. 11:37

Topic Modeling 이란?

최근 SNS, 뉴스, 문헌 등을 포함한 비정형 데이터가 끊임없이 발생하고 있지만, 실시간으로 발생되는 이러한 유형을 가진 데이터의 특성상 더 이상 사람의 힘으로 문서, 단어 간 분석이 쉽지 않은 현실이다. 따라서, 현재는 머신러닝, 딥러닝 모델을 통해 데이터들의 주제 및 의미를 탐색하며, 트렌드, 요약, 번역 분야 등에 정량적인 의미를 찾을 수 있는 추세이다. 이러한 자연어 처리 분야에서 토픽 모델(Topic model)이란 문서 집합의 추상적인 “주제”를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 중 하나이다. 토픽 모델이 할 수 있는 기능은 그림 1처럼 주어진 문서의 집합(Corpus)에 있는 각각의 단어들이 어떠한 주제(Topi..

Topic Modeling 2022. 12. 19. 10:48

이전 Prev 1 Next 다음

목록Topic Modeling (5)

데알못정을

티스토리툴바