2025-09-28 18:37
정규분포
핵심 파라미터: 평균]과 표준편차]
N(μ, σ²)
- 평균 (μ, mu)
- 역할:
- 분포의 중심, 즉 ‘대칭축’의 위치를 결정한다.
- 의미:
- 데이터가 어디에 집중되어 있는지를 나타내는 값이다.
- 곡선의 가장 높은 지점(최빈값)이며, 데이터를 순서대로 나열했을 때 정확히 중앙에 위치하는 값(중앙값)이기도 하다.
- 평균이 변하면 곡선 전체가 좌우로 평행 이동한다.
- 역할:
- 표준편차 (σ, sigma)
- 역할:
- 분포의 ‘퍼짐 정도’를 결정한다.
- 의미:
- 데이터가 평균으로부터 얼마나 멀리 흩어져 있는지를 나타낸다.
- 표준편차가 작으면 (σ가 작다): 데이터가 평균 주위에 빽빽하게 모여 있어, 곡선은 키가 크고 뾰족한 모양이 된다.
- 표준편차가 크면 (σ가 크다): 데이터가 넓게 퍼져 있어, 곡선은 키가 작고 펑퍼짐한 모양이 된다.
- 데이터가 평균으로부터 얼마나 멀리 흩어져 있는지를 나타낸다.
- 역할:
-
평균 ± 1 표준편차 (μ ± 1σ) 범위 안에 전체 데이터의 약 **68%**가 존재한다.
-
평균 ± 2 표준편차 (μ ± 2σ) 범위 안에 전체 데이터의 약 **95%**가 존재한다.
-
평균 ± 3 표준편차 (μ ± 3σ) 범위 안에 전체 데이터의 약 **99.7%**가 존재한다.
중심 극한 정리 (CLT)
“모집단의 분포 형태와 관계없이, 표본의 크기(n)가 충분히 크다면(보통 n ≥ 30), 표본 평균들의 분포는 근사적으로 정규분포를 따른다.”
- 원래 데이터(모집단)가 정규분포가 아니더라도, 심지어 매우 이상한 모양의 분포일지라도,
- 거기서 뽑은 ‘표본 평균’들의 분포는 표본 크기만 크다면 아름다운 종 모양 곡선을 그린다는 의미이다.