(출처) inflearn 모두를 위한 딥러닝 - 기본적인 머신러닝과 딥러닝 강좌, Sung Kim
Predicting exam score: regression
→ 학생의 공부시간 대비 성적을 supervised learning하는 경우
- Score 범위 : 0~100점
- 회귀분석을 통해 학습(training)시킴
- Regression으로 모델 생성
☞ 회귀분석 모델을 적용해 학습된 X값 (공부한 시간)을 바탕으로 Y값 (예상 점수)를 예측함
Regression (data)
▤ Linear Hypothesis
: 많은 현상들이 linear 형태로 설명됨
- 공부를 많이 할 수록 시험 점수가 높아짐
- 집의 크기가 클 수록 가격이 올라감
▤ 학습
: 그래프 상에서 Training 데이터에 잘 맞는 선을 찾는 것
- 2차원 상에 직선이므로 H(x) = Wx + b 의 일차방정식으로 정의됨 (H : Hypothesis)
- 선의 모양은 W와 b값에 좌우됨
- 수 많은 직선 중 가장 fit한 직선을 찾아야함
- 위의 training 데이터에서는 방정식의 형태가 H(x) = 1 * X + 0 (H(x) = x)일 때 가장 fit함
▤ 좋은 가설을 가려내는 방법
- 실제 데이터와 가설이 나타내는 데이터 간의 차이가 작을 수록 좋은 가설
Cost function (= Loss function)
: 실제 데이터와 가설 상의 데이터 사이의 거리를 비교한 함수
H(x)-y → 양수, 음수 값을 모두 가지므로 (H(x) - y) ^2으로 표현해 부호 효과 상쇄
Cost function의 formal한 정리
: H(x) - y의 제곱 값의 평균값
◐ 알파고는 300만 개의 training set을 가지고 학습
일반화
- m = 학습 데이터의 개수
- 매커니즘은 위의 작은 예시와 동일
◐ H(x) = Wx + b을 위 공식에 대입하면 Cost function은 W와 b에 대해 쓰여짐
- 이 공식의 challenge : W와 b의 값을 최소화시키는 것 (차이를 최소화)
- 이 작업을 "학습"이라고 부름
Goal: Minimize cost
I'm a Senior Student in Data Science !
데이터 사이언스를 공부하고 있는 4학년 학부생의 TIL 블로그입니다. 게시글이 도움 되셨다면 구독과 좋아요 :)
'Basic Statistics > #Statistic' 카테고리의 다른 글
[통계] 알고리즘의 복잡도 (2) - 알고리즘의 여러 차수 (0) | 2020.12.28 |
---|---|
[통계] 알고리즘의 복잡도 (1) (0) | 2020.12.27 |
[통계] 부동소수점과 오차 (0) | 2020.12.23 |
[통계] 선형회귀와 알고리즘 (0) | 2019.10.09 |