Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- nccl 업데이트
- queueing theory
- m/m/s
- 불규칙적 샘플링
- NTMs
- 리뷰
- ed boarding
- nccl 업그레이드
- 대기행렬
- 딥러닝
- moirai
- timellm
- ERD
- multi gpu
- Transformer
- operation management
- Time Series
- first pg on this rank that detected no heartbeat of its watchdog.
- GaN
- nccl 설치
- pytorch
- 분산 학습
- pre-trained llm
- 의료정보
- length of stay
- 토픽모델링
- gru-d
- timesfm
- 패혈증 관련 급성 호흡곤란 증후군
- irregularly sampled time series
Archives
- Today
- Total
목록nlp (1)
데알못정을
Cosine Similarity & TF-IDF
단어들을 단순히 출현 횟수를 나타내는 정수나 특정 단어의 존재 여부를 나타내는 이진 ‘비트 벡터’ 형태로만 표현하는 것이 아니라 주어진 응용에 의미가 있는 어떤 연속된 값들로 바꾸는 것은 중요하다. 전자의 방식으로 단어를 벡터로 표현하게 되면 너무 sparse한 벡터(0 또는 1)를 사용하기 때문에 단어가 담은 정보를 많이 손실할 수 있다. 따라서 후자의 방식으로 단어를 표현할 필요가 있다. 그 이유는 단어를 연속 공간에서 표현하면 좀 더 다양한 수학적 도구들(유사도 등)로 단어 표현들을 다룰 수 있기 때문이다. 1. 코사인 유사도(Cosine Similarity) 벡터란 선형대수의 기본적인 구성요소이다. 벡터는 순서가 있는 수치 목록인데, 이 수치들은 벡터 공간에서 그 벡터의 위치를 말해 주는 좌표 성..
Topic Modeling
2022. 12. 19. 11:37