본문 바로가기
Part1. 딥러닝 시작 전/Chapter 1. 통계

5. 평균/기댓값/분산/표준편차

by 썸mer 2023. 7. 5.

 

 

아주 기본적인 통계 용어를 알아보겠다.

 

 

 

평균: 일반적으로 산술평균을 의미. 총 n개의 데이터가 있을 때, 산술 평균 A는 다음과 같다. 

  • A = (a1 + a2 +... an) / n
  • 데이터의 분포가 대칭적인 경우 효과적. ex) 정규분포

 

중앙값: 주어진 값들을 크기 순으로 정렬했을 때, 가장 중앙에 위치하는 값. 

  • 데이터의 분포가 한쪽으로 치우쳤을 때, 이상치(outlier)가 존재할 때 효과적.

 


 

 

기댓값: 각 사건에 대해 확률 변수와 확률 값을 곱한 것을 모두 더한 값. 산술 평균과 유사.

  • E[X] = ∑i {(i 번째 사건이 발생할 확률) * (i 번째 사건에 대한 확률 변수)} = ∑i {P(Xi) * Xi}
  • X가 연속확률 변수라면, 확률분포 함수 f를 이용해서 E[X]를 계산 가능.

연속확률변수에서 기댓값

  • 평균과 기댓값은 유사하지만, 사용되는 상황이 다름.
    • 기댓값: 새로운 데이터가 관측되었을 때, 그 데이터가 확률적으로 어떤 값을 가질지를 예측할 때 이용.
    • 평균: 이미 주어진 값에 대해 통계적인 특성을 분석할 때 이용. 
  • 예: 1000원짜리 복권이 있을 때, 기대 이익(수익-비용)은?
    • 1/10 * (5000 - 1000) + 1/10 * (1000 - 1000) + 6/10 * (0 - 1000) = -200

 

 


 

 

분산: 데이터가 얼마나 흩어져있는지를 나타내는 척도.

  • 평균과 관측치에 대한 편차의 제곱의 평균.
    • 편차: 관측값 - 평균
    • 편차는 평균과의 차이이기 때문에, 편차들의 전체 합은 0 편차의 제곱의 합을 계산하기.
  • N개의 데이터의 평균이 µ 일 때 분산은 아래와 같다.

  • 분산이 작다: 각 데이터가 평균에 근접한다는 의미.
  • 분산이 크다: 각 데이터가 평균에 멀리 있다는 의미.

 

 

 

표준편차: 분산의 양의 제곱근.

  • 분산은 편차의 제곱이기 때문에 값이 너무 큰 경향이 있음 분산에 양의 제곱근을 하여 표준화하기.

 

 

 

 


 

 

 

 

 

지금까지 아주 기본적인 통계 개념을 알아보았고,

다음 시간에는 확률 변수가 여러 개일 때 분산을

어떻게 계산할 수 있는지 알아보겠다!