본문 바로가기

회귀분석

[분류] 군집 분석 - 여러 집단으로 개체 분류하기 활용 분야 상품 분류 패턴 인식 생물 연구 Clustering positive group과 negative 그룹 (키가 크고 몸무게가 적게 나가는 사람들) 군집을 나눠주지만 각각의 특성은 직접 labeling해야 함 유형 분석 (Classification) Clustering 방법과는 달리 군집을 나누는 기준까지 알 수 있음 마케팅 영역에서 고객 Segmentaion에 사용됨 ▶ 신한카드 code9 에서 고객 특성과 패턴에 따른 혜택 레이블링을 진행함 회귀분석 (Regression) 변화를 수치적으로 계산할 때 유용함 연관성 분석 eg. 기저귀와 맥주의 관계 연관어 추천 서비스 등에 활용됨 신경망 분석(Neural) 인간의 두뇌가 작동하는 방식을 본 떠 분석하는 방법 딥러닝 ▶ neural network.. 더보기
[통계] 선형회귀와 알고리즘 (출처) edwith 모두를 위한 딥러닝, Sung, Kim H(x) = W * x (b = 0) ▣ 비용함수의 정의에 따라, W = 1, cost(W) = 1/3 *{(1*1-1)^2 + (2*1-2)^2 + (3*1-3)^2} = 0 W = 0, cost(W) = 1/3 *{(0*1-1)^2 + (0*2-2)^2 + (0*3-3)^2} = 14/3 =4.67 W = 2, cost(W) = 1/3 *{(2*1-1)^2 + (2*2-2)^2 + (2*3-3)^2} = 14/3 =4.67 Gradient descent algorithm : 경사를 따라 내려가는 알고리즘 비용함수, 머신러닝 최소화 문제에 사용 W,b의 함수에 적용시켜 최소값을 산출 다수의 값을 포함하는 Cost function도 최소화 가능.. 더보기
[통계] 선형회귀 가설과 비용 함수 (출처) inflearn 모두를 위한 딥러닝 - 기본적인 머신러닝과 딥러닝 강좌, Sung Kim Predicting exam score: regression → 학생의 공부시간 대비 성적을 supervised learning하는 경우 Score 범위 : 0~100점 회귀분석을 통해 학습(training)시킴 Regression으로 모델 생성 ☞ 회귀분석 모델을 적용해 학습된 X값 (공부한 시간)을 바탕으로 Y값 (예상 점수)를 예측함 Regression (data) ▤ Linear Hypothesis : 많은 현상들이 linear 형태로 설명됨 공부를 많이 할 수록 시험 점수가 높아짐 집의 크기가 클 수록 가격이 올라감 ▤ 학습 : 그래프 상에서 Training 데이터에 잘 맞는 선을 찾는 것 2차원 .. 더보기
[Framework] Tensorflow로 선형회귀 구현하기 (출처) inflearn 모두를 위한 딥러닝, Sung kim 이론 (이전 포스팅 참고) 2019/10/03 - [bigdata/#Machine Learning] - Linear Regression의 Hypothesis와 cost 설명 Lab 2 ▤ 텐서플로우 구동 매커니즘 그래프 Build하기 Session 생성 후 Run Return/ Update의 실행 결과 출력 1. Bulid graph using TF operations #X and Y data x_train = [1, 2, 3] #전 포스트에서 다룬 간단한 그래프 y_train = [1, 2, 3] W = tf.Variable(tf.random_normal([1]), name = 'weight') #W와 b의 값을 정의 b = tf.Varia.. 더보기
[ML] 머신러닝/딥러닝 - 모두를 위한 딥러닝 (1) (출처) inflearn 모두를 위한 딥러닝 - 기본적인 머신러닝과 딥러닝 강좌, Sung Kim OT. 수업 소개와 개요 수강 대상 머신러닝이 궁금한 사람 수학, 컴퓨터에 대한 백그라운드가 약한 사람들도 가능 (y = ax + b 정도의 이해도) 머신러닝은 알고리즘이 잘 구현되어있는 툴을 사용하기 때문에 쉽게 활용 가능 텐서플로우, 파이썬을 활용하고 싶은 사람 수업으로 얻을 수 있는 것 머신러닝에 대한 기본적인 이해 딥러닝을 이해하기 위한 기본적인 알고리즘 (회기분석, 로지스틱 회귀분석) 텐서플로우, 파이썬을 활용하여 문제해결 수업 형식 10분 가량의 렉처 텐서플로우를 활용해 프로그래밍하는 법을 익히는 랩 참고사이트 (앤드류 응 교수의 머신러닝 수업) http://class.coursera.org/ml.. 더보기
[ML] 머신러닝/딥러닝 - 모두를 위한 딥러닝 (2) (출처) inflearn 모두를 위한 딥러닝 - 기본적인 머신러닝과 딥러닝 강좌, Sung Kim 섹션 1. 기본적인 Machine Learning 의 용어와 개념 설명 ML : 일종의 프로그램 스팸 필터 개발자들이 일일이 스팸메일을 가려내기 힘듦 Automatic driving 마찬가지로 적용해야 하는 룰이 너무 많음 ▶ Arthur Samuel 프로그램이 자동적으로 배우도록 하는 아이디어를 냄 Learning : Supervised learning 레이블이 정해져있는 데이터(training set)으로 학습하는 방법 ▶ 일반적인 머신러닝의 형태 ▶ 이미지 레이블링, 이메일 스팸 필터, 시험 성적 예측 등에 사용할 수 있음 Training data Set : 결과값이 이미 정해져있는 Y값을 예측할 수 .. 더보기
[EDA] 데이터 분석에 필요한 개념들 데이터의 종류 범주형데이터 : 성별, 국가 등 카테고리를 나눌 수 있는 데이터순서데이터 : 1. 2등처럼 순차적으로 순번을 메길 수 있는 데이터연속형데이터 : 시간, 키, 몸무게 등 연속적으로 변하는 아날로그 데이터 ▶2와 3은 숫자형 데이터라고도 합니다. Regression과 Anova의 차이 : 독립변수의 형태에 따라 구분할 수 있습니다. Regression : 연속형변수 ☞ dummy variable로 바꿀 수 있습니다. Anova: 분산분석 ☞ t -test로 분석할 수 있는 범주형데이터입니다.   데이터 수집 : 프로젝트 중 데이터수집이 불가능해서 지연되는 경우가 많으니 이전에 가능성 및 수집주기 등을 따져보고 시작해야 합니다. aggregation : 일단위 > 월단위 > 연단위 나이퀴스트의 .. 더보기