다른 분야에서의 인코딩 핸드북 확장

핵심 요약: 인코딩은 컴퓨팅을 넘어 생명공학, 통신공학, 언어학, 보안 등 다양한 분야에서 정보의 표현·전달·처리 방식을 결정짓는 근간 기술이다. 각 분야별 특성과 목적에 맞춰 인코딩 기법을 이해하면, 시스템 설계·분석·최적화에서 혁신적 성과를 얻을 수 있다.

1. 통신공학의 인코딩

1.1 소스 인코딩(Source Coding)

  • 목적: 원본 데이터의 중복 제거·압축
  • 대표 기법:
    • 허프만 부호화(Huffman Coding): 빈도 기반 가변 길이 부호[†]
    • 산술 부호화(Arithmetic Coding): 실수 구간 분할 방식
    • LZW(Lempel–Ziv–Welch): 사전 기반 실시간 압축

1.2 채널 인코딩(Channel Coding)

  • 목적: 잡음 환경에서 오류 검출·정정
  • 대표 기법:
    • 해밍 코드(Hamming Code): 단일 비트 오류 정정
    • 순환 중복 검사(CRC): 오류 검출을 위한 다항식 잉여
    • 컨볼루션 코드(Convolutional Code) + Viterbi 디코더
    • LDPC(Low-Density Parity-Check), 터보 코드: 고성능 FEC(전진 오류 정정)

2. 생명정보학의 인코딩

2.1 유전체 인코딩(Genome Encoding)

  • DNA 서열 부호화: 4개 염기(A, C, G, T)를 2비트 단위로 매핑
  • 압축 인코딩: Run-Length Encoding(RLE), Burrows–Wheeler 변환(BWT) 활용
  • 응용: 차세대 염기서열 분석(NGS) 데이터 저장·검색 최적화

2.2 단백질 구조 인코딩

  • 이진 프로필 인코딩: 아미노산 특성(소수성·전하 등) 기반 벡터화
  • PSI-BLAST 프로필 임베딩: 진화적 보존정보 압축 표현

3. 언어·문서 처리의 인코딩

3.1 형태소·어휘 인코딩(NLP Feature Encoding)

  • Bag-of-Words: 단어 출현 빈도 벡터
  • TF–IDF: 문서 중요도 가중 벡터
  • Word Embedding: Word2Vec, GloVe, FastText 등 연속 실수 임베딩
  • Subword 인코딩: BPE(Byte Pair Encoding), SentencePiece

3.2 음성·음향 인코딩

  • PCM(Pulse Code Modulation): 아날로그→디지털 표본화·양자화
  • 코덱 기반 인코딩: LPC, CELP, MELP 등 음성 부호화 모델
  • 스펙트로그램 인코딩: STFT로 시간-주파수 특성 추출 후 벡터화

4. 보안·암호화의 인코딩

  • 기밀성 인코딩(Encryption): 대칭키(AES, ChaCha20), 공개키(RSA, ECC)
  • 무결성 인코딩: HMAC, 디지털 서명(DSA, ECDSA)
  • 인증·권한 부여: JWT(JSON Web Token) Base64URL 인코딩
  • 블록체인 트랜잭션: RLP(Recursive Length Prefix) 인코딩, CBOR

5. 물리신호·센서 인코딩

  • Analog-to-Digital Encoding: ΣΔ(시그마-델타) 변조, 플래시 ADC
  • 펄스 부호 변조(PCM) 변형: DPCM, ADPCM
  • 압전·광학 센서 데이터: 센싱값 → I²C/SPI 패킷 직렬화

6. 기타 인코딩 활용 예시

분야적용 사례
바코드·QR코드숫자·문자 → 흑백 패턴 2차원·1차원 코드
지리정보(GIS)좌표 압축·양자화 → 벡터 타일(GeoJSON, Protobuf)
금융·거래FIX 프로토콜 메시지 필드 인덱싱·델리미터 직렬화
로보틱스·임베디드센서 퓨전 데이터 직렬화(CAN, ROS 메시지)

: 통신공학 인코딩 기법에 대한 개괄은 여러 논문·표준 문서 기반.