2025-09-11 23:29

  • 상관관계는 두 변수가 함께 변하는 경향을 나타내는 통계적 척도이지만 인과관계를 의미하지는 않는다.

  • 피어슨 상관계수는 선형 관계를, 스피어만 상관계수는 순위 관계를 측정하며, 값은 -1과 1 사이이다.

  • 상관관계를 해석할 때는 제3변수의 존재, 우연의 일치, 인과관계의 역전 가능성을 항상 염두에 두어야 한다.

상관관계 완벽 정복 핸드북 A to Z

들어가며 상관관계란 무엇인가

데이터가 넘쳐나는 세상, 우리는 데이터 속에서 의미 있는 관계를 찾아내려 끊임없이 노력한다. “아이스크림 판매량이 늘면 상어 공격 횟수도 늘어난다”는 흥미로운 사실을 들어본 적 있는가? 이처럼 두 변수가 함께 움직이는 경향, 이것이 바로 **상관관계(Correlation)**의 핵심이다. 하지만 이 둘 사이에 정말 인과관계가 있을까? 아이스크림을 못 먹게 하면 상어의 공격성도 줄어들까?

상관관계는 통계학의 가장 기본적이면서도 가장 오해받기 쉬운 개념 중 하나다. 두 변수가 어떤 관계를 맺고 있는지 알려주는 강력한 도구이지만, 섣부른 판단은 잘못된 결론으로 이어지기 십상이다. 이 핸드북은 상관관계의 개념이 왜 필요하게 되었는지, 그 구조는 어떻게 이루어져 있으며, 어떻게 올바르게 사용하고 해석할 수 있는지에 대한 모든 것을 담았다. 상관관계의 세계를 탐험하며 데이터 리터러시를 한 단계 끌어올려 보자.

1. 상관관계의 탄생 배경 왜 필요하게 되었나

19세기 후반, 과학자들은 유전, 인류학, 심리학 등 다양한 분야에서 변수들 사이의 관계를 측정할 방법이 필요했다. 특히 ‘인간의 특성은 어떻게 유전되는가?‘와 같은 질문에 답하기 위해서는 정량적인 분석 도구가 절실했다.

이때 영국의 통계학자 **프랜시스 골턴(Francis Galton)**은 부모와 자식의 키 사이의 관계를 연구하며 ‘회귀(Regression)‘라는 개념을 처음 제시했다. 그는 부모의 키가 평균보다 크더라도 자식의 키는 부모만큼 극단적으로 크지 않고 평균에 가까워지는 경향, 즉 ‘평균으로의 회귀’를 발견했다.

골턴의 연구에 영감을 받은 그의 제자 **칼 피어슨(Karl Pearson)**은 이 관계의 강도를 측정하는 수학적 공식을 개발했다. 이것이 바로 오늘날 가장 널리 사용되는 **피어슨 상관계수(Pearson Correlation Coefficient)**다. 이로써 연구자들은 두 변수가 얼마나 긴밀하게 연관되어 있는지 객관적인 수치로 표현할 수 있게 되었고, 과학적 분석의 새로운 장이 열렸다.

상관관계는 복잡한 현상 속에서 패턴을 발견하고, 미래를 예측하며, 가설을 검증하는 데 필수적인 도구로 자리 잡았다.

2. 상관관계의 구조 무엇으로 이루어져 있나

상관관계는 크게 **방향(Direction)**과 **강도(Strength)**라는 두 가지 요소로 구성된다. 이 두 가지를 종합하여 두 변수 간의 관계를 파악한다.

2.1 방향 양의 상관, 음의 상관, 무상관

  • 양의 상관관계 (Positive Correlation): 한 변수가 증가할 때 다른 변수도 함께 증가하는 경향. 예를 들어, 공부 시간이 늘어날수록 성적이 오르는 경향.

  • 음의 상관관계 (Negative Correlation): 한 변수가 증가할 때 다른 변수는 감소하는 경향. 예를 들어, 운동량이 많아질수록 체지방률이 낮아지는 경향.

  • 무상관 (Zero Correlation): 두 변수 사이에 뚜렷한 관계가 없는 상태. 예를 들어, 한 사람의 신발 사이즈와 IQ 점수.

2.2 강도 관계의 긴밀함

상관관계의 강도는 **상관계수(Correlation Coefficient)**라는 값으로 표현되며, 보통 r로 표기한다. 이 값은 항상 -1과 +1 사이에 위치한다.

  • +1에 가까울수록: 매우 강한 양의 상관관계

  • -1에 가까울수록: 매우 강한 음의 상관관계

  • 0에 가까울수록: 상관관계가 거의 없거나 없음

일반적으로 상관계수의 절댓값을 기준으로 강도를 해석하며, 그 기준은 분야마다 조금씩 다를 수 있다.

상관계수 (r)의 절댓값해석
0.0 - 0.2거의 없음
0.2 - 0.4약한 상관관계
0.4 - 0.7뚜렷한 상관관계
0.7 - 1.0강한 상관관계

이러한 방향과 강도를 시각적으로 가장 잘 보여주는 것이 **산점도(Scatter Plot)**다. 산점도에서 점들이 우상향하는 직선에 가깝게 모여있으면 강한 양의 상관, 우하향하는 직선에 가깝게 모여있으면 강한 음의 상관, 뚜렷한 패턴 없이 흩어져 있으면 무상관으로 해석할 수 있다.

3. 상관관계의 종류와 사용법 어떻게 활용하는가

상관관계를 측정하는 방법은 데이터의 특성에 따라 달라진다. 가장 대표적인 두 가지 방법은 피어슨 상관계수와 스피어만 상관계수다.

3.1 피어슨 상관계수 (Pearson Correlation Coefficient)

  • 언제 사용하나?: 두 변수가 모두 연속형 변수이고, 둘 사이의 관계가 **선형(Linear)**일 때 사용한다. 또한, 데이터가 정규분포를 따른다고 가정한다.

  • 특징: 가장 널리 사용되는 상관계수. 두 변수가 함께 변하는 정도(공분산)를 각 변수의 표준편차의 곱으로 나누어 계산한다. 선형적인 관계의 강도를 측정하는 데 최적화되어 있다.

  • 사용 예시:

    • 키와 몸무게의 관계

    • 온도와 아이스크림 판매량의 관계

    • 광고비와 매출액의 관계

3.2 스피어만 상관계수 (Spearman Correlation Coefficient)

  • 언제 사용하나?:

    1. 두 변수 사이의 관계가 **비선형(Non-linear)**이지만, 한쪽이 증가할 때 다른 쪽도 단조롭게 증가하거나 감소하는 단조(Monotonic) 관계일 때.

    2. 데이터가 **순위(Ordinal)**로 측정되었을 때.

    3. 데이터에 이상치(Outlier)가 있어 피어슨 상관계수가 왜곡될 우려가 있을 때.

  • 특징: 실제 데이터 값 대신, 값의 **순위(Rank)**를 매겨 그 순위들 사이의 피어슨 상관계수를 계산한다. 이 때문에 선형성이 깨지더라도 단조 관계만 유지되면 높은 상관계수를 나타낼 수 있다.

  • 사용 예시:

    • 학급 석차와 시험 만족도의 관계 (만족도는 ‘매우 불만’, ‘보통’, ‘매우 만족’ 등 순위 척도)

    • 소득 수준과 행복 지수의 관계 (소득이 일정 수준을 넘어가면 행복 지수 증가율이 둔화되는 비선형 관계)

4. 심화: 상관관계 해석의 함정과 주의사항

상관관계 분석에서 가장 중요한 부분은 바로 ‘해석’이다. “상관관계는 인과관계가 아니다(Correlation is not causation)“라는 통계학의 제1 원칙을 항상 명심해야 한다.

4.1 제3의 변수 (숨겨진 변수)

두 변수 A와 B 사이에 높은 상관관계가 나타나더라도, 이는 사실 제3의 변수 C가 A와 B 모두에게 영향을 미치기 때문일 수 있다.

  • 예시: 아이스크림 판매량(A)과 상어 공격 횟수(B)

    • 상관관계: 여름철에 아이스크림 판매량과 상어 공격 횟수는 강한 양의 상관관계를 보인다.

    • 숨겨진 변수: ‘기온’ 혹은 ‘계절’(C)이다. 더운 날씨 때문에 사람들이 아이스크림을 많이 사 먹고, 동시에 바다에서 수영을 많이 하므로 상어와 마주칠 확률이 높아지는 것이다.

    • 결론: 아이스크림 판매가 상어 공격의 원인이 아니다.

4.2 우연의 일치

서로 아무런 관련이 없는 두 변수가 우연히 비슷한 패턴을 보이는 경우다. 데이터의 양이 방대해질수록 이런 우연한 상관관계는 얼마든지 나타날 수 있다.

  • 예시: 미국 메인주의 이혼율과 1인당 마가린 소비량

    • 상관관계: 두 변수는 수년간 거의 완벽에 가까운 상관관계를 보였다.

    • 결론: 둘 사이에는 어떠한 논리적, 인과적 연결고리도 없다. 순수한 우연의 일치다.

4.3 인과관계의 역전

A가 B의 원인이라고 생각했지만, 실제로는 B가 A의 원인일 수 있다.

  • 예시: 행복한 사람일수록 친구가 많다.

    • 해석 1 (A→B): 행복한 감정(A)이 사람들을 더 사교적으로 만들어 친구(B)를 많이 사귀게 한다.

    • 해석 2 (B→A): 많은 친구(B)와 교류하는 것이 사람을 더 행복하게(A) 만든다.

    • 결론: 어느 쪽이 원인인지, 혹은 둘 다 서로에게 영향을 미치는지 상관관계 분석만으로는 알 수 없다.

5. 결론: 데이터를 현명하게 바라보는 눈

상관관계는 데이터 속의 숨은 이야기를 찾아내는 첫걸음이다. 두 변수가 어떤 관계를 맺고 있는지, 얼마나 긴밀하게 연결되어 있는지를 알려주는 유용한 신호다. 하지만 그 신호를 해석하는 것은 결국 우리의 몫이다.

상관관계를 발견했다면, 그것을 인과관계로 단정하기 전에 항상 “왜?”라는 질문을 던져야 한다. 숨어있는 다른 요인은 없는지, 혹시 우연은 아닌지, 관계의 방향이 바뀐 것은 아닌지 끊임없이 의심하고 탐구해야 한다.

이 핸드북을 통해 상관관계의 개념을 정확히 이해하고, 그 한계를 명확히 인식함으로써 데이터를 더 깊고 현명하게 바라보는 눈을 갖추게 되었기를 바란다. 상관관계는 결론이 아니라, 더 깊은 탐구를 위한 시작점이다.