Correlation

How two variables move together · 상관관계

1. What Is Correlation?

상관관계란?

Correlation measures how strongly two variables move together. The standard measure is the Pearson correlation coefficient r, a single number between −1 and +1. Near +1, the two variables rise together along a line; near −1, one falls as the other rises; near 0, there is no linear relationship.

As rules of thumb, |r| ≈ 0.7 is strong, ≈ 0.3 modest, and below ≈ 0.1 essentially noise — but always pair r with a scatter plot, since very different patterns can share the same r.

상관관계는 두 변수가 함께 움직이는 정도를 측정합니다. 표준 지표는 피어슨 상관계수 r로, −1과 +1 사이의 한 값입니다. +1에 가까우면 두 변수가 직선을 따라 함께 증가, −1에 가까우면 하나가 오를 때 다른 하나가 감소, 0에 가까우면 선형 관계가 없습니다. 대략 |r|≈0.7은 강함, ≈0.3은 보통, 0.1 미만은 잡음 수준이지만, 같은 r도 매우 다른 패턴일 수 있으므로 항상 산점도와 함께 봅니다.

2. The Pearson r Formula & a Worked Example

피어슨 r 공식과 예제

The coefficient is r = Σ(xᵢ−x̄)(yᵢ−ȳ) / √(Σ(xᵢ−x̄)² · Σ(yᵢ−ȳ)²).

Worked example. Five points: x = 1,2,3,4,5 and y = 1,3,2,5,4.

An r of 0.8 is a strong positive correlation.

r = 8/10 = 0.8

상관계수는 r = Σ(xᵢ−x̄)(yᵢ−ȳ) / √(Σ(xᵢ−x̄)²·Σ(yᵢ−ȳ)²)입니다. 예: x=1,2,3,4,5, y=1,3,2,5,4 → 평균 x̄=3, ȳ=3, 편차 곱의 합 8, Σdx²=10, Σdy²=10, √(10·10)=10, r = 8/10 = 0.8. r=0.8은 강한 양의 상관입니다.

3. Correlation Is Not Causation

상관관계는 인과관계가 아니다

The single most repeated warning in statistics: correlation does not imply causation. Ice-cream sales and drowning deaths are strongly correlated, yet neither causes the other — both rise in summer, a confounding variable (hot weather).

Before reading a correlation as cause, rule out confounders, reverse causation, and selection effects. Only a randomized experiment or careful causal-inference design can turn a correlation into a credible causal claim.

통계에서 가장 자주 강조되는 경고: 상관관계는 인과관계가 아니다. 아이스크림 판매와 익사 사고는 강하게 상관되지만 서로의 원인이 아니며, 둘 다 더위라는 교란변수 때문에 여름에 늘어납니다. 상관을 인과로 읽기 전에 교란변수·역인과·선택 효과를 배제해야 하며, 무작위 실험이나 정교한 인과추론 설계만이 상관을 신뢰할 만한 인과 주장으로 바꿀 수 있습니다.

4. Key Properties & Common Mistakes

주요 성질과 흔한 실수

r은 −1과 +1 사이로 한정되며, 이 범위를 벗어나면 계산 오류입니다. 피어슨 r은 선형 관계만 보므로 U자형 같은 곡선 관계는 완벽해도 r≈0이 나올 수 있습니다. 이상치에 민감해 한 점이 r을 크게 바꾸므로 순위 기반 스피어만이 강건한 대안입니다. 강한 r은 연관의 증거일 뿐 인과의 증명이 아닙니다.

5. Frequently Asked Questions

자주 묻는 질문

What is the Pearson correlation coefficient? A number r between −1 and +1 measuring the strength and direction of the linear relationship between two variables.

What does r = 0.8 mean? A strong positive linear correlation — as one variable increases, the other tends to increase along a line.

Does a high correlation prove causation? No. Correlation can arise from confounders, reverse causation, or coincidence; only experiments establish causation.

피어슨 상관계수 r은 −1과 +1 사이의 값으로 두 변수의 선형 관계의 강도와 방향을 나타냅니다. r=0.8은 강한 양의 선형 상관으로, 한 변수가 늘면 다른 변수도 직선을 따라 느는 경향입니다. 높은 상관이 인과를 증명하지는 않습니다 — 교란변수·역인과·우연 때문일 수 있고, 인과는 실험으로만 확립됩니다.

Ready to practice? Drill correlation and more on C:Stat, or review the full statistics reference and related pages: standard deviation, variance, and mean.

실전 연습은 C:Stat에서, 전체 개념은 통계 레퍼런스표준편차, 분산, 평균 문서에서 이어집니다.

Practice statistics problems → C:Stat