본문 바로가기

인공지능

[하둡] 하둡으로 데이터 다루기 (1) Chapter 1. 파이썬 정규표현식 다시보기 # Chapter 1. 파이썬 정규표현식 다시보기 !pip install regex > Requirement already satisfied: regex in c:\users\leejiwon\anaconda3\lib\site-packages (2020.7.14) import regex import re # Task 1. 유효한 이메일일까? email_validator = re.compile('[a-z]+') print(email_validator.match('schoolfaiBellevue')) > email_validator = re.compile("[a-z]") print(email_validator.match('schoolfaiBellevue')) > .. 더보기
[분류] 군집 분석 - 여러 집단으로 개체 분류하기 활용 분야 상품 분류 패턴 인식 생물 연구 Clustering positive group과 negative 그룹 (키가 크고 몸무게가 적게 나가는 사람들) 군집을 나눠주지만 각각의 특성은 직접 labeling해야 함 유형 분석 (Classification) Clustering 방법과는 달리 군집을 나누는 기준까지 알 수 있음 마케팅 영역에서 고객 Segmentaion에 사용됨 ▶ 신한카드 code9 에서 고객 특성과 패턴에 따른 혜택 레이블링을 진행함 회귀분석 (Regression) 변화를 수치적으로 계산할 때 유용함 연관성 분석 eg. 기저귀와 맥주의 관계 연관어 추천 서비스 등에 활용됨 신경망 분석(Neural) 인간의 두뇌가 작동하는 방식을 본 떠 분석하는 방법 딥러닝 ▶ neural network.. 더보기
[통계] 선형회귀와 알고리즘 (출처) edwith 모두를 위한 딥러닝, Sung, Kim H(x) = W * x (b = 0) ▣ 비용함수의 정의에 따라, W = 1, cost(W) = 1/3 *{(1*1-1)^2 + (2*1-2)^2 + (3*1-3)^2} = 0 W = 0, cost(W) = 1/3 *{(0*1-1)^2 + (0*2-2)^2 + (0*3-3)^2} = 14/3 =4.67 W = 2, cost(W) = 1/3 *{(2*1-1)^2 + (2*2-2)^2 + (2*3-3)^2} = 14/3 =4.67 Gradient descent algorithm : 경사를 따라 내려가는 알고리즘 비용함수, 머신러닝 최소화 문제에 사용 W,b의 함수에 적용시켜 최소값을 산출 다수의 값을 포함하는 Cost function도 최소화 가능.. 더보기
[통계] 선형회귀 가설과 비용 함수 (출처) inflearn 모두를 위한 딥러닝 - 기본적인 머신러닝과 딥러닝 강좌, Sung Kim Predicting exam score: regression → 학생의 공부시간 대비 성적을 supervised learning하는 경우 Score 범위 : 0~100점 회귀분석을 통해 학습(training)시킴 Regression으로 모델 생성 ☞ 회귀분석 모델을 적용해 학습된 X값 (공부한 시간)을 바탕으로 Y값 (예상 점수)를 예측함 Regression (data) ▤ Linear Hypothesis : 많은 현상들이 linear 형태로 설명됨 공부를 많이 할 수록 시험 점수가 높아짐 집의 크기가 클 수록 가격이 올라감 ▤ 학습 : 그래프 상에서 Training 데이터에 잘 맞는 선을 찾는 것 2차원 .. 더보기