2025-09-19 21:12

  • 평균은 단순히 값을 더해 나누는 것을 넘어, 데이터의 중심을 파악하고 불확실성을 줄이는 핵심 도구다.

  • 산술 평균 외에도 중앙값, 최빈값, 기하 평균, 조화 평균 등 다양한 종류가 있으며, 데이터의 성격과 목적에 맞게 사용해야 한다.

  • 평균은 강력하지만, 데이터의 분포나 특이값(outlier)에 따라 현실을 왜곡할 수 있으므로 항상 비판적으로 해석하는 자세가 필요하다.

평균의 모든 것 당신이 몰랐던 평균의 비밀

우리는 평균의 시대에 살고 있다. “올해 평균 기온”, “나의 평균 시험 점수”, “우리나라 직장인 평균 연봉” 등, 하루에도 몇 번씩 ‘평균’이라는 단어를 접한다. 평균은 복잡하고 방대한 데이터를 단 하나의 숫자로 요약하여 우리가 세상을 쉽게 이해하도록 돕는 강력한 도구다.

하지만 이 편리함 뒤에는 무서운 함정이 숨어있다. 만약 당신이 평균의 진짜 의미를 모른 채 숫자만 맹신한다면, 데이터가 말하는 진실을 놓치거나 완전히 잘못된 결정을 내릴 수도 있다. 이 핸드북은 당신을 단순한 평균 계산자에서 데이터의 의미를 꿰뚫어 보는 ‘평균 해석가’로 만들어 줄 것이다. 평균이 왜 태어났는지부터, 상황에 맞는 평균을 골라 쓰는 법, 그리고 평균의 함정을 피하는 방법까지, 평균에 대한 모든 것을 파헤쳐 본다.

1. 평균, 왜 만들어졌을까? (평균의 탄생 배경)

평균이라는 개념은 처음부터 수학 교과서에 등장하기 위해 만들어진 것이 아니다. 불확실성으로 가득한 현실 세계의 문제를 해결하려는 인류의 절박한 필요 속에서 탄생했다.

바다 위에서 시작된 개념: 위험 분담의 지혜

평균의 가장 오래된 뿌리는 고대 해상 무역으로 거슬러 올라간다. 거친 바다를 항해하는 상선들은 언제나 폭풍우를 만나거나 해적을 만날 위험에 처해 있었다. 만약 배를 가볍게 하기 위해 특정 상인의 짐을 바다에 버려야 하는 상황이 생긴다면, 그 손실은 오롯이 짐 주인의 몫이 되어야 할까?

고대 로마 시대의 ‘렉스 로디아 데 야크투(Lex Rhodia de Jactu)’ 법은 그렇지 않다고 답했다. 이 법은 공동의 안전을 위해 희생된 손실(Jactu)은 배에 타고 있던 모든 상인과 선주가 함께 나누어 부담해야 한다고 규정했다. 여기서 손실을 ‘평균 내어’ 공평하게 분담한다는 개념, 즉 ‘Average’의 어원이 탄생했다. 즉, 평균의 시작은 ‘위험을 평평하게 만드는’ 사회적 합의이자 지혜였다.

별을 관찰하던 천문학자들: 오차를 줄이기 위한 노력

시간이 흘러 17세기, 과학의 시대가 열리면서 평균은 새로운 임무를 부여받는다. 천문학자들은 행성의 위치나 별의 움직임을 관측했지만, 인간의 눈이나 장비의 한계로 인해 측정값은 매번 미세하게 달라졌다. 여러 개의 측정값 중에서 과연 어떤 것이 진짜 값에 가장 가까울까?

덴마크의 천문학자 티코 브라헤 같은 선구자들은 여러 번의 측정값을 기록한 뒤, 그 값들의 중간쯤 되는 값을 ‘가장 신뢰할 만한 값’으로 여기기 시작했다. 이후 수학자 가우스는 이러한 ‘측정 오차’가 정규분포를 따른다는 것을 증명하고, 여러 측정값의 **산술 평균(Arithmetic Mean)**이 오차를 최소화하는 가장 좋은 추정치임을 수학적으로 확립했다. 이로써 평균은 불확실한 측정값들 속에서 가장 합리적인 단 하나의 진실을 찾아내는 과학적 도구로 자리매김하게 된다.

이처럼 평균은 단순히 숫자를 나누는 행위가 아니라, 위험을 분산하고, 불확실성을 줄이며, 데이터의 중심에 있는 진실을 찾으려는 인류의 오랜 노력의 산물인 것이다.

2. 평균의 종류와 구조 (대표값 삼총사)

우리가 흔히 ‘평균’이라고 부르는 것은 대부분 ‘산술 평균’이다. 하지만 데이터의 중심을 나타내는 대표값에는 여러 종류가 있으며, 각각의 특징과 쓰임새가 다르다. 데이터의 성격을 파악하고 올바른 대표값을 사용하는 것이 중요하다.

가장 익숙한 얼굴, 산술 평균 (Mean)

  • 정의: 모든 데이터 값을 더한 후, 데이터의 개수로 나눈 값.

  • 특징: 데이터의 모든 정보를 사용하기 때문에 가장 일반적으로 쓰인다. 저울의 무게중심처럼 데이터 전체의 균형을 맞추는 지점이라고 생각할 수 있다.

  • 치명적 약점: 특이값(Outlier), 즉 극단적으로 크거나 작은 값에 매우 민감하다. 예를 들어, 10명의 연봉이 모두 5천만 원인데, 한 명의 연봉이 10억인 그룹이 있다고 하자. 이 그룹의 산술 평균 연봉은 약 1억 3천 6백만 원이 된다. 이 숫자가 과연 그룹 전체를 잘 대표한다고 말할 수 있을까?

순서가 중요해, 중앙값 (Median)

  • 정의: 모든 데이터를 크기순으로 나열했을 때, 정확히 가운데에 위치하는 값. 데이터의 개수가 짝수일 경우, 가운데 두 값의 평균을 사용한다.

  • 특징: 데이터의 값 자체가 아닌 ‘순서’를 이용하기 때문에 특이값에 거의 영향을 받지 않는다. ‘강건하다(Robust)‘라고 표현하기도 한다.

  • 언제 사용할까?: 소득, 자산, 주택 가격처럼 일부 극단적인 값이 전체 분포를 왜곡할 수 있는 데이터를 다룰 때 매우 유용하다. 우리나라 가계 소득을 발표할 때 ‘평균 소득’ 대신 ‘중위 소득(Median Income)‘을 주로 사용하는 이유가 바로 이것이다.

가장 인기 있는 값, 최빈값 (Mode)

  • 정의: 데이터 중에서 가장 빈번하게 나타나는 값.

  • 특징: 유일하게 수치형 데이터가 아닌 범주형 데이터에도 사용할 수 있다. 예를 들어, 가장 많이 팔린 옷 사이즈나, 설문조사에서 가장 많이 나온 답변 등을 찾을 때 사용한다.

  • 주의할 점: 최빈값은 존재하지 않을 수도 있고(모든 값이 한 번씩만 나옴), 여러 개가 존재할 수도 있다. 또한, 데이터의 중심 경향을 제대로 나타내지 못하는 경우도 많다.

한눈에 비교하기

구분산술 평균 (Mean)중앙값 (Median)최빈값 (Mode)
정의모든 값의 합 / 값의 개수데이터를 순서대로 나열했을 때 중앙에 위치하는 값가장 빈번하게 나타나는 값
사용 시점데이터가 대칭적으로 분포할 때 (예: 시험 점수)데이터가 한쪽으로 치우쳤거나 특이값이 있을 때 (예: 연봉)범주형 데이터를 분석하거나 가장 인기 있는 값을 찾을 때 (예: 선호 색상)
특이값 민감도매우 민감함영향을 거의 받지 않음 (강건함)전혀 영향을 받지 않음

3. 상황별 맞춤 평균 사용법 (고급 평균 도구)

산술 평균, 중앙값, 최빈값만 알고 있어도 많은 상황에 대처할 수 있다. 하지만 진정한 데이터 전문가가 되려면 몇 가지 특수한 평균을 더 알아야 한다.

성장률과 투자 수익률에는, 기하 평균 (Geometric Mean)

-50% 성장 후 +50% 성장했다면 평균 성장률은 0%일까? 산술 평균으로는 그렇다. (-50 + 50) / 2 = 0. 하지만 실제로는 다르다. 100만 원이 -50% 성장하면 50만 원이 되고, 여기서 +50% 성장하면 75만 원이 된다. 결과적으로 원금 대비 -25% 손실이다.

이처럼 여러 값들이 서로 곱셈이나 비율로 연결될 때, 산술 평균은 왜곡을 발생시킨다. 이때 사용하는 것이 기하 평균이다.

  • 계산법: n개의 값을 모두 곱한 후, n제곱근을 씌운다.

  • 언제 사용할까?: 다년간의 평균 경제 성장률, 평균 물가 상승률, 펀드의 평균 수익률 등 ‘복리’ 개념이 적용되는 모든 변화율의 평균을 계산할 때 반드시 사용해야 한다.

평균 속도를 계산할 때는, 조화 평균 (Harmonic Mean)

시속 100km로 서울에서 부산까지 간 후, 시속 60km로 다시 서울로 돌아왔다. 왕복 평균 속도는 얼마일까? 많은 사람이 산술 평균인 시속 80km (100 + 60) / 2라고 착각한다.

하지만 평균 속도는 ‘총 이동 거리 / 총 걸린 시간’으로 구해야 한다. 거리를 L이라 하면, 갈 때 걸린 시간은 L/100, 올 때 걸린 시간은 L/60이다. 총 이동 거리는 2L, 총 걸린 시간은 (L/100 + L/60)이므로, 평균 속도는 2L / (L/100 + L/60) = 시속 75km가 된다.

이처럼 속도, 비율, 밀도 등 단위 당 수치(‘per’의 개념)들의 평균을 구할 때는 조화 평균을 사용해야 정확하다.

  • 계산법: 값들의 역수를 산술 평균 낸 후, 그 결과값을 다시 역수 취한다.

  • 언제 사용할까?: 평균 속도, 투자에서 ‘분할 매수(Dollar Cost Averaging)‘의 평균 매입 단가 등을 계산할 때 사용된다.

4. 평균의 함정과 진실 (비판적 사고)

평균은 세상을 이해하는 강력한 렌즈지만, 이 렌즈는 종종 세상을 흐릿하게 만들거나 왜곡해서 보여주기도 한다.

‘평균적인 사람’은 존재하지 않는다

19세기 벨기에의 통계학자 아돌프 케틀레는 ‘평균적인 인간(l’homme moyen)‘이라는 개념을 만들었다. 그는 사회의 모든 것을 측정하여 평균을 내면 가장 이상적인 인간상이 나올 것이라 믿었다. 하지만 이는 위험한 생각이다.

2차 세계대전 이후 미 공군은 ‘평균적인 조종사’의 신체 치수에 맞춰 조종석을 설계했다. 그 결과, 수많은 조종사들이 불편함을 겪고 사고가 잇따랐다. 4,000명이 넘는 조종사들의 신체 치수를 분석한 결과, 10가지 핵심 치수에서 모두 평균에 속하는 조종사는 단 한 명도 없었다. 평균에 맞춰 설계된 조종석은 사실상 ‘아무에게도 맞지 않는’ 조종석이었던 것이다.

이는 평균이 ‘실재’가 아닌 ‘통계적 허상’임을 보여주는 대표적인 사례다. 우리는 평균을 기준으로 삼을 수는 있지만, 평균이 집단의 모든 개체를 대표한다고 생각해선 안 된다.

데이터 분포의 중요성: 앤스콤 콰르텟

영국의 통계학자 프랜시스 앤스콤은 평균의 맹점을 보여주는 유명한 예시를 만들었다. 위 그림의 네 가지 데이터 그룹은 놀랍게도 산술 평균, 분산, 상관계수 등 대부분의 통계 수치가 거의 동일하다. 숫자만 본다면 이 네 그룹은 같은 데이터라고 착각하기 쉽다.

하지만 시각화하는 순간, 각 데이터가 완전히 다른 이야기(선형, 비선형, 수직선, 특이값)를 하고 있음을 명확히 알 수 있다. 이는 우리에게 중요한 교훈을 준다. “숫자만 보지 말고, 반드시 데이터를 시각화하라.” 평균이라는 요약된 숫자 뒤에 숨어있는 데이터의 진짜 모습을 봐야 한다.

숨겨진 변수를 찾아라: 심슨의 역설

때로는 전체 데이터의 평균에서 나타나는 경향이, 데이터를 하위 그룹으로 나누었을 때 정반대로 뒤집히는 기이한 현상이 발생한다. 이를 **심슨의 역설(Simpson’s Paradox)**이라고 한다.

예를 들어, 한 대학교의 전체 합격률을 보니 남성 합격률이 여성 합격률보다 높게 나왔다고 하자. 이를 보고 ‘이 대학은 성차별을 한다’고 결론 내릴 수 있을까? 하지만 각 학과별로 합격률을 뜯어보니, 모든 학과에서 여성의 합격률이 남성보다 높거나 같았다.

어떻게 이런 일이 가능할까? 여성 지원자들이 주로 합격률이 낮은 인기 학과(예: 의대, 공대)에 많이 지원했고, 남성 지원자들은 상대적으로 합격률이 높은 학과에 많이 지원했기 때문이다. 여기서 ‘학과’라는 숨겨진 변수를 고려하지 않고 전체 평균만 보면 완전히 잘못된 결론에 도달하게 된다.

결론: 평균을 지배하는 자가 데이터를 지배한다

우리는 평균이라는 개념의 탄생부터 다양한 종류와 활용법, 그리고 치명적인 함정까지 긴 여정을 함께했다. 이제 당신은 평균이 단순히 ‘더해서 나누는 것’이 아님을 안다. 평균은 위험을 분산하려는 사회적 지혜이자, 오차 속에서 진실을 찾으려는 과학적 도구이며, 때로는 현실을 왜곡하는 위험한 마법이 될 수도 있다.

데이터가 폭발하는 시대, 평균을 올바르게 이해하고 사용하는 능력은 선택이 아닌 필수다. 앞으로 어떤 평균값을 마주하든, 이 세 가지를 항상 기억하라.

  1. 이 평균은 어떤 종류의 평균인가? (산술, 중앙값, 기하…)

  2. 이 평균값에서 제외된 정보는 무엇인가? (데이터 분포, 특이값…)

  3. 이 평균을 통해 전달하려는 의도는 무엇인가? (숨겨진 변수, 의도적 왜곡…)

이 질문을 던질 수 있을 때, 당신은 더 이상 숫자에 휘둘리지 않고 데이터 뒤에 숨겨진 진실을 꿰뚫어 보는 지혜를 갖게 될 것이다. 평균을 지배하는 자가 데이터를, 나아가 세상을 지배한다.