Biased data(편향된 데이터)
- 실제 데이터를 반영하지 못하고 편향된 데이터.
- 예: 한 해외 얼굴 데이터 세트는 대부분 서양인 얼굴로 구성되어 있다.
- 문제: 이 데이터 세트로 학습하여, 한국인을 대상으로 하는 서비스를 만들면 의도하지 않은 결과를 얻을 수 있다.
데이터 분포
- 편향(bias): 모델이 예측한 값과 실제 정답이 떨어진 정도.
- 분산(variance): 모델이 예측한 값들이 흩어진 정도.
오차(Error, loss)
- 실제 정답과 모델이 예측한 값의 차이. 오차 계산 함수는 다양하고 대표적으로 평균 제곱 오차 함수가 있다.
- 평균 제곱 오차(Mean Squared Error): 각 데이터가 (입력 x, 정답 y)로 구성될 때, MSE 공식은 다음과 같다.
- 예를 들어 딥러닝 모델에서 MSE는 다음과 같이 계산된다.
- MSE = (78 - 81)^2 = 9
이번 포스팅은 짧게 마무리하겠다!
다음은 최소 제곱법과 추세선에 대해 알아보겠다.
'Part1. 딥러닝 시작 전 > Chapter 1. 통계' 카테고리의 다른 글
9. 최소 제곱법과 추세선 (0) | 2023.07.07 |
---|---|
7. 최대 가능도 추정 (0) | 2023.07.06 |
6. 공분산과 상관계수 (0) | 2023.07.05 |
5. 평균/기댓값/분산/표준편차 (0) | 2023.07.05 |
4. 조건부 확률과 베이즈 정리 (0) | 2023.07.04 |