Correlation
How two variables move together · 상관관계
1. What Is Correlation?
Correlation measures how strongly two variables move together. The standard measure is the Pearson correlation coefficient r, a single number between −1 and +1. Near +1, the two variables rise together along a line; near −1, one falls as the other rises; near 0, there is no linear relationship.
As rules of thumb, |r| ≈ 0.7 is strong, ≈ 0.3 modest, and below ≈ 0.1 essentially noise — but always pair r with a scatter plot, since very different patterns can share the same r.
상관관계는 두 변수가 함께 움직이는 정도를 측정합니다. 표준 지표는 피어슨 상관계수 r로, −1과 +1 사이의 한 값입니다. +1에 가까우면 두 변수가 직선을 따라 함께 증가, −1에 가까우면 하나가 오를 때 다른 하나가 감소, 0에 가까우면 선형 관계가 없습니다. 대략 |r|≈0.7은 강함, ≈0.3은 보통, 0.1 미만은 잡음 수준이지만, 같은 r도 매우 다른 패턴일 수 있으므로 항상 산점도와 함께 봅니다.
2. The Pearson r Formula & a Worked Example
The coefficient is r = Σ(xᵢ−x̄)(yᵢ−ȳ) / √(Σ(xᵢ−x̄)² · Σ(yᵢ−ȳ)²).
Worked example. Five points: x = 1,2,3,4,5 and y = 1,3,2,5,4.
- Means: x̄ = 3, ȳ = 3.
- x-deviations: −2,−1,0,1,2; y-deviations: −2,0,−1,2,1.
- Σ(dx·dy) = 4 + 0 + 0 + 2 + 2 = 8.
- Σdx² = 10, Σdy² = 10, so √(10·10) = 10.
- r = 8 / 10 = 0.8.
An r of 0.8 is a strong positive correlation.
상관계수는 r = Σ(xᵢ−x̄)(yᵢ−ȳ) / √(Σ(xᵢ−x̄)²·Σ(yᵢ−ȳ)²)입니다. 예: x=1,2,3,4,5, y=1,3,2,5,4 → 평균 x̄=3, ȳ=3, 편차 곱의 합 8, Σdx²=10, Σdy²=10, √(10·10)=10, r = 8/10 = 0.8. r=0.8은 강한 양의 상관입니다.
3. Correlation Is Not Causation
The single most repeated warning in statistics: correlation does not imply causation. Ice-cream sales and drowning deaths are strongly correlated, yet neither causes the other — both rise in summer, a confounding variable (hot weather).
Before reading a correlation as cause, rule out confounders, reverse causation, and selection effects. Only a randomized experiment or careful causal-inference design can turn a correlation into a credible causal claim.
통계에서 가장 자주 강조되는 경고: 상관관계는 인과관계가 아니다. 아이스크림 판매와 익사 사고는 강하게 상관되지만 서로의 원인이 아니며, 둘 다 더위라는 교란변수 때문에 여름에 늘어납니다. 상관을 인과로 읽기 전에 교란변수·역인과·선택 효과를 배제해야 하며, 무작위 실험이나 정교한 인과추론 설계만이 상관을 신뢰할 만한 인과 주장으로 바꿀 수 있습니다.
4. Key Properties & Common Mistakes
- Bounded −1 to +1. A computed r outside this range means an arithmetic error.
- Linear only. Pearson r misses curved relationships; a U-shape can give r ≈ 0 despite a perfect pattern.
- Outlier-sensitive. One stray point can swing r; rank-based Spearman is a robust alternative.
- Not causation. A strong r is evidence of association, never proof of cause.
r은 −1과 +1 사이로 한정되며, 이 범위를 벗어나면 계산 오류입니다. 피어슨 r은 선형 관계만 보므로 U자형 같은 곡선 관계는 완벽해도 r≈0이 나올 수 있습니다. 이상치에 민감해 한 점이 r을 크게 바꾸므로 순위 기반 스피어만이 강건한 대안입니다. 강한 r은 연관의 증거일 뿐 인과의 증명이 아닙니다.
5. Frequently Asked Questions
What is the Pearson correlation coefficient? A number r between −1 and +1 measuring the strength and direction of the linear relationship between two variables.
What does r = 0.8 mean? A strong positive linear correlation — as one variable increases, the other tends to increase along a line.
Does a high correlation prove causation? No. Correlation can arise from confounders, reverse causation, or coincidence; only experiments establish causation.
피어슨 상관계수 r은 −1과 +1 사이의 값으로 두 변수의 선형 관계의 강도와 방향을 나타냅니다. r=0.8은 강한 양의 선형 상관으로, 한 변수가 늘면 다른 변수도 직선을 따라 느는 경향입니다. 높은 상관이 인과를 증명하지는 않습니다 — 교란변수·역인과·우연 때문일 수 있고, 인과는 실험으로만 확립됩니다.
Ready to practice? Drill correlation and more on C:Stat, or review the full statistics reference and related pages: standard deviation, variance, and mean.