본문 바로가기

Basic Statistics/#Statistic

[통계] 선형회귀 가설과 비용 함수

(출처) inflearn 모두를 위한 딥러닝 - 기본적인 머신러닝과 딥러닝 강좌, Sung Kim

 

Predicting exam score: regression

→ 학생의 공부시간 대비 성적을 supervised learning하는 경우

trainig data

  • Score 범위 : 0~100점 
  • 회귀분석을 통해 학습(training)시킴
  • Regression으로 모델 생성

☞ 회귀분석 모델을 적용해 학습된 X값 (공부한 시간)을 바탕으로 Y값 (예상 점수)를 예측함

 


 

Regression (data)

 

Linear Hypothesis 

: 많은 현상들이 linear 형태로 설명됨

  • 공부를 많이 할 수록 시험 점수가 높아짐
  • 집의 크기가 클 수록 가격이 올라감

 

학습

: 그래프 상에서 Training 데이터에 잘 맞는 선을 찾는 것

  • 2차원 상에 직선이므로 H(x) = Wx + b 의 일차방정식으로 정의됨 (H : Hypothesis)
  • 선의 모양은 W와 b값에 좌우됨
  • 수 많은 직선 중 가장 fit한 직선을 찾아야함
  • 위의 training 데이터에서는 방정식의 형태가 H(x) = 1 * X + 0 (H(x) = x)일 때 가장 fit함

 

좋은 가설을 가려내는 방법

- 실제 데이터와 가설이 나타내는 데이터 간의 차이가 작을 수록 좋은 가설

 


 

Cost function (= Loss function)

: 실제 데이터와 가설 상의 데이터 사이의 거리를 비교한 함수

H(x)-y → 양수, 음수 값을 모두 가지므로 (H(x) - y) ^2으로 표현해 부호 효과 상쇄

 


 

Cost function의 formal한 정리

: H(x) - y의 제곱 값의 평균값 

알파고는 300만 개의 training set을 가지고 학습

 


 

일반화

  • m = 학습 데이터의 개수
  • 매커니즘은 위의 작은 예시와 동일 

 

◐ H(x) = Wx + b을 위 공식에 대입하면 Cost  functionW와 b에 대해 쓰여짐

  • 이 공식의 challenge :  W와 b의 값을 최소화시키는 것 (차이를 최소화)
  • 이 작업을 "학습"이라고 부름

 


Goal: Minimize cost

 


 

I'm a Senior Student in Data Science ! 

데이터 사이언스를 공부하고 있는 4학년 학부생의 TIL 블로그입니다. 게시글이 도움 되셨다면 구독과 좋아요 :)