6. 공분산과 상관계수

확률 변수가 하나 일 때는 분산을 쉽게 계산할 수 있다. (이전 포스팅 참조)

그럼 다변수 확률분포의 분산은 어떻게 계산할까?

공분산: 다변수 확률분포의 분산.

분산과 공분산의 차이점: 공분산의 경우 데이터의 위치에 따라 부호가 음수가 될 수 있음.
- 부호: 양수/음수에 따라 데이터가 어느 방향을 가지는지 알 수 있음.

상관계수: 공분산에서 '크기'보다 '상관성'(방향성, 부호)만 집중해서 볼 때 이용.

두 확률 변수 X와 Y의 공분산은 Cov[X, Y]로 정의된다.

두 확률변수 X와 Y의 상관계수는 ρ[X, Y]로 정의된다.

공분산 행렬(Covariance Matrix)

기계학습에서는 다변수 확률변수를 가정하는 경우가 많음.
예: 얼굴 데이터를 3차원의 벡터로 표현 가능. x = [얼굴 길이, 코 길이, 입술 두께]. N개의 데이터를 행렬로 표현하면 전체 데이터 X는 다음과 같다.

공분산 행렬은 대칭행렬이다.
N개의 데이터가 있고, 각 데이터는 d개의 특징이 있을 때 공분산 행렬은 아래와 같다.
- 대각 성분(diagonal): 각 확률변수의 분산.
- 비대각 성분(off-diagonal): 두 확률변수의 공분산.

독립사건: 두 사건 A와 B가 동시에 일어날 때, 한 사건의 결과가 다른 사건에 영향을 주지 않는 경우. (3번 포스팅 참조)

딥러닝의 모든 것, 기초부터 실습까지