임베딩에서 벡터를 사용하는 이유

임베딩(Embedding)은 단어·문장·아이템 등 이산적(discrete) 데이터 요소를 연속적(continuous)인 고차원 공간상의 점으로 대응(mapping)하는 기법이다. 이때 벡터를 사용하는 이유는 다음과 같다.

1. 연속 공간 표현의 유연성

이산적 토큰(token)에는 순서나 거리 개념이 없으나, 벡터 공간에서는 유클리드 거리·코사인 유사도 등을 통해 **유사성(similarity)**을 연산으로 직접 측정할 수 있다.

고차원 희소 표현(one-hot) 대신, 수백~수천 차원의 연속 벡터를 사용함으로써 정보의 **밀집 표현(dense representation)**이 가능하다.

벡터 간 덧셈·뺄셈·스케일링 같은 선형 대수 연산으로 **의미 결합(compositionality)**이 가능하다.

딥러닝 모델은 입력층부터 출력층까지 행렬곱(matrix multiplication) 기반으로 작동하므로, 임베딩 벡터를 가중치 행렬로 매핑(mapping)하고 역전파(backpropagation)로 학습하기에 적합하다.

벡터 공간에 배치된 임베딩은 **전이학습(transfer learning)**이 가능하도록 만든다.

임베딩에서 벡터를 사용하는 핵심 이유는

이러한 특성 덕분에 벡터 임베딩은 자연어 처리, 추천 시스템, 컴퓨터 비전 등 다양한 분야에서 기초적인 표현 학습 수단으로 자리 잡고 있다.