1학년 1학기/통계

[유니와이즈]11강. 분산과 공분산

seungyeonworld 2025. 2. 5. 22:47

4.2 분산과 공분산

 

* 확률변수의 분산 : 확률변수 X가 평균(기대값) µ 에서 얼마나 퍼져 있는지를 나타내는 값

 

  - 데이터가 평균을 중심으로 얼마나 흩어져 있는지를 측정하는 척도

  -  X : 확률변수

  - µ = E(X) = 확률변수의 기대값(평균)

  - ( X - µ) : 편차 (개별값이 평균에서 얼마나 떨어져 있는지를 나타냄

  - ( X - µ)² : 편차를 제곱하여 평균을 계산 (음수값 방지 및 편차의 크기 강조)

  - 확률변수 X의 분산 δ² = E(X²) - µ² 을 만족한다.

 

★이산형 확률분포의 분산                                                                                                                                  

 

 


★연속형 확률분포의 분산                                                                                                                                       

 

 

** 공분산

 

  - 두 변수간의 관게(연관성)을 측정하는 통계량

  - 한 변수가 증가할 때 다른 변수가 어떻게 변화하는지를 나타내는 값

  - 확률변수 X와 Y의 값이 확률적으로 어떻게 결합되어 있는가를 나타내는 지표

  - X와 Y가 통계적으로 독립이면, 공분산 = 0 (딘, 역은 성립하지 않음)

  -  X의 값이 클 때 Y의 값이 크고, X의 값이 작을 때 Y의 값이 작으면 (X - μX)(Y - μY)는 양의 값

  - X의 값이 클 때 Y의 값이 작거나 X의 값이 작을 때 Y의 값이 크면 (X - μX)(Y - μY)는 음의 값

 

 

** 이산형일때 공분산 구하는 방법

 

 

★주변확률밀도함수                                                                                                                                        

 

 

** 상관계수 

 

  - 두 변수 간의 관계 (상관성)을 측정하는 값

  - 측정 단위와 무관 (공분산은 측정단위에 따라 달라짐)

  - 한 변수가 변할 때 다른 변수가 어떻게 변하는지를 나타내는 척도

  - 상관계수 r은 항상 -1이상~ 1이하의 값을 가짐

  - 값이 클수록 두 변수간의 관계가 강함

  - 양수(+)이면 한 변수가 증가할 때 다른 변수도 증가하는 경향이 있음

  - 음수(-)이면 한 변수가 증가할 때 다른 변수는 감소하는 경향이 있음

  - 공분산 σXY\sigma_{XY}가 0이면 상관계수 값도 0

 

** 상관계수공식

 

 

 

★공분산 vs 상관계수 (상관계수가 더 직관적!)