임베딩(Embedding) 핸드북

핵심 요약: 임베딩은 데이터를 연속적인 벡터 공간에 매핑하여 기계가 이해할 수 있는 형태로 변환하는 기법으로, 자연어 처리·컴퓨터 비전·추천 시스템 등 다양한 분야에서 데이터의 유사성, 관계성, 패턴을 효과적으로 파악하고 활용하기 위해 반드시 사용된다.

1. 임베딩의 탄생 배경

임베딩 기법은 대규모 비정형 데이터(텍스트, 이미지, 오디오 등)의 고차원·희소성 문제를 해결하고자 발전해왔다.

고차원 희소 표현의 한계: 전통적인 원-핫(one-hot) 벡터는 차원이 데이터 사전 크기만큼 커지고, 단어 간 의미적 유사성을 반영하지 못함.
분포 가설(distributional hypothesis): “의미가 유사한 단어는 주변 문맥이 유사하다”는 언어학적 관찰을 기반으로, 단어와 의미 관계를 벡터로 압축하려는 시도에서 출발.
효율성 및 일반화: 저차원 연속 벡터를 통해 모델 학습 속도와 메모리 사용을 획기적으로 개선하고, 데이터 희소성 문제를 완화하여 전이 학습(transfer learning)이 가능해짐.

임베딩은 주로 신경망 기반 학습을 통해 얻어지며, 다음과 같은 구성요소로 이루어진다.

구성요소	역할 및 특징
임베딩 레이어	학습 가능한 가중치 행렬. 입력 인덱스를 벡터 차원으로 변환하는 역할.
차원 수(dimension)	벡터 공간의 크기. 일반적으로 50~1,024 차원 사용, 차원 수가 클수록 표현력↑, 과적합 위험↑.
컨텍스트 윈도우	임베딩 학습 시 주변 단어 범위 설정. 윈도우 크기 조절 통해 지역·전역 의미 정보 균형 조정 가능.
유사도 측정	학습된 임베딩 간 유클리드 거리 또는 코사인 유사도로 의미적 관계 파악.

Word2Vec (Mikolov et al.)
- CBOW와 Skip-gram 방식으로 주변 단어를 예측하며 학습.
- 경량·고속 학습, 단어 간 유사도 및 유추(‘king–man+woman≈queen’)에 탁월.
GloVe (Global Vectors)
- 전체 말뭉치 통계 기반 동시발생 행렬(co-occurrence) 분해.
- 전역 통계와 로컬 문맥을 모두 반영.
FastText
- 서브워드(subword) 단위를 활용해 OOV(Out-Of-Vocabulary) 문제 완화.
- 문자 n-그램을 더해 희소 단어 표현력 강화.
Contextual Embedding (ELMo, BERT 등)
- 단어의 문맥별 의미 차이를 반영해 문장 단위로 동적 임베딩 생성.
- 트랜스포머 구조 기반, 양방향 언어 모델링 적용.

임베딩은 기계 학습 전반에 걸쳐 데이터의 의미 구조를 효율적으로 압축하고 성능과 확장성을 동시에 달성하는 핵심 구성 요소로, 미래 AI 발전의 중추적 역할을 지속할 것이다.