Part1. 딥러닝 시작 전/Chapter 1. 통계9 9. 최소 제곱법과 추세선 선형 회귀(Linear Regression) 주어진 데이터를 학습하여 가장 합리적인 선형 함수를 찾아내는 문제. 하나의 스칼라(실수)를 예측할 수 있다. 가설 함수(선형 함수 모델): f(x) = Wx + b 선형 회귀에서 학습: 모델(W, b)을 수정하면서 가장 합리적인 식을 찾는 것. 비용(손실, loss)을 최소화 작은 모델이 합리적인 모델. x는 scalar 혹은 벡터가 가능함. 최소제곱법(Least Square Method) 평균제곱오차(MSE)를 이용해 비용을 최소화하는 방법이다. m개의 데이터가 있을 때 cost는 아래와 같고, cost를 최소화하는 W, b를 찾는 것이 목표. 경사하강법 최소제곱을 얻는 방법 중 하나. Cost 함수를 W로 미분(기울기)했을 때 절댓값이 최소 → cost가 .. 2023. 7. 7. 8. 편향과 오차 Biased data(편향된 데이터) 실제 데이터를 반영하지 못하고 편향된 데이터. 예: 한 해외 얼굴 데이터 세트는 대부분 서양인 얼굴로 구성되어 있다. 문제: 이 데이터 세트로 학습하여, 한국인을 대상으로 하는 서비스를 만들면 의도하지 않은 결과를 얻을 수 있다. 데이터 분포 편향(bias): 모델이 예측한 값과 실제 정답이 떨어진 정도. 분산(variance): 모델이 예측한 값들이 흩어진 정도. 오차(Error, loss) 실제 정답과 모델이 예측한 값의 차이. 오차 계산 함수는 다양하고 대표적으로 평균 제곱 오차 함수가 있다. 평균 제곱 오차(Mean Squared Error): 각 데이터가 (입력 x, 정답 y)로 구성될 때, MSE 공식은 다음과 같다. 예를 들어 딥러닝 모델에서 MSE는 다.. 2023. 7. 6. 7. 최대 가능도 추정 최대 가능도 추정(Maximum Likelihood Estimation) 이론적으로 가장 가능성이 높은 모수(parameter)를 찾는 방법. 모든 추정 방법 중 가장 널리 사용되는 방법 중 하나. 여러 가지 확률 분포 X에 대한 확률 함수를 p(x; θ)라고 표현하자. p(x; θ): 주어진 θ에서 확률변수 x가 나올 확률을 알려주는 함수. ; 뒤에 나오는 것이 모수임. x: 확률 분포가 가질 수 있는 실수 값. x, θ는 스칼라 혹은 벡터. 가능도 함수 L(θ; x) = p(x; θ) 가능도 함수는 확률 밀도 함수에서 모수를 변수로 간주하는 것. 추정하고자 하는 확률 분포에 따라 가능도 함수를 다르게 정의 가능. (모수가 다르기 때문) 베르누이 확률 분포의 경우: θ = µ 정규 분포의 경우: θ =.. 2023. 7. 6. 6. 공분산과 상관계수 확률 변수가 하나 일 때는 분산을 쉽게 계산할 수 있다. (이전 포스팅 참조) 그럼 다변수 확률분포의 분산은 어떻게 계산할까? 공분산: 다변수 확률분포의 분산. N개의 데이터가 2개의 확률변수 X, Y에 연관되어 있다고 할 때 공분산은 아래와 같다. µx는 x의 평균, µy는 y의 평균. 크기: 분산과 같이, 데이터가 평균으로부터 얼마나 떨어져 있는지를 나타냄. 기하학적 해석: 공분산은 평균값의 위치와 표본 위치 사이의 사각형 면적의 합. 분산과 공분산의 차이점: 공분산의 경우 데이터의 위치에 따라 부호가 음수가 될 수 있음. 부호: 양수/음수에 따라 데이터가 어느 방향을 가지는지 알 수 있음. 상관계수: 공분산에서 '크기'보다 '상관성'(방향성, 부호)만 집중해서 볼 때 이용. 정규화(크기 특징을 없앰.. 2023. 7. 5. 이전 1 2 3 다음