본문 바로가기

데이터사이언스

[하둡] 하둡으로 데이터 다루기 (1) Chapter 1. 파이썬 정규표현식 다시보기 # Chapter 1. 파이썬 정규표현식 다시보기 !pip install regex > Requirement already satisfied: regex in c:\users\leejiwon\anaconda3\lib\site-packages (2020.7.14) import regex import re # Task 1. 유효한 이메일일까? email_validator = re.compile('[a-z]+') print(email_validator.match('schoolfaiBellevue')) > email_validator = re.compile("[a-z]") print(email_validator.match('schoolfaiBellevue')) > .. 더보기
[퀀트] R을 활용한 퀀트 투자 포트폴리오 만들기 (2) Chapter 2 크롤링을 위한 기본 지식 2.1 인코딩의 이해와 R에서 UTF-8 설정하기 2.1.1 인간과 컴퓨터 간 번역의 시작, ASCII 인코딩: 인간언어를 컴퓨터 언어(0, 1)로 디코딩: 인코딩의 반대 번역의 시초는 ASCII(American Standard Code for Information Interchange) 0~127까지의 숫자에 단어 및 특수문자를 부여한 체계로 영어 알파벳만을 지원함 2.1.2 한글 인코딩 방식의 종류 ‘알’이라는 글자를 ‘알’로 표현하는 완성형, ‘ㅇ+ㅏ+ㄹ’로 표현하는 조합형 1) EUC-KR 현대 한글에서 많이 쓰이는 문자엠나 번호를 붙임 모든 자모 조합을 표현하기 부족 2) CP949 EUC-KR을 보완하기 위해 MS가 개발 더 많은 한글을 표현할 수 있.. 더보기
[퀀트] R을 활용한 퀀트 투자 포트폴리오 만들기 (1) https://hyunyulhenry.github.io/quant_cookbook/ R을 이용한 퀀트 투자 포트폴리오 만들기 본 페이지는 R을 이용한 퀀트 투자 포트폴리오 만들기의 웹사이트 입니다. 책의 수정 사항이 있을시 즉시 반영할 예정이며, 책에서 다루지 못했던 추가적인 내용도 지속적으로 업데이트 할 예정 hyunyulhenry.github.io Chapter 1. 퀀트 투자의 심장: 데이터와 프로그래밍 데이터 사이언티스트가 하는 업무와 매우 비슷함 import -> tidy -> (transfrom -> visualize -> modeling) -> communicate 1.1 데이터 구하기 해외 금융 데이터는 Quandl, tiingo에서 비교적 저렴하게 구할 수 있음 국내 데이터는 야후 fin.. 더보기
[분류] 군집 분석 - 여러 집단으로 개체 분류하기 활용 분야 상품 분류 패턴 인식 생물 연구 Clustering positive group과 negative 그룹 (키가 크고 몸무게가 적게 나가는 사람들) 군집을 나눠주지만 각각의 특성은 직접 labeling해야 함 유형 분석 (Classification) Clustering 방법과는 달리 군집을 나누는 기준까지 알 수 있음 마케팅 영역에서 고객 Segmentaion에 사용됨 ▶ 신한카드 code9 에서 고객 특성과 패턴에 따른 혜택 레이블링을 진행함 회귀분석 (Regression) 변화를 수치적으로 계산할 때 유용함 연관성 분석 eg. 기저귀와 맥주의 관계 연관어 추천 서비스 등에 활용됨 신경망 분석(Neural) 인간의 두뇌가 작동하는 방식을 본 떠 분석하는 방법 딥러닝 ▶ neural network.. 더보기
[UDA] 비정형데이터-군집화 연결이 많은 개체들끼리 묶어줌 UCINET에서 행렬 위치를 바꿔서 재조합할 수 있음 유튜브에서 설명한 트위터 사례와 같은 맥락 R로도 가능한 작업, 직관적인 표현을 위해 UCINET 사용 유튜브에서 다뤄지는 network community detection과는 살짝 개념이 다름 위 분석에서는 빨간 부분도 community, 이 분석에서는 파란 core 부분만 유의미함 UCINET에서 페짓-바탕화면에 저장 - 파일 열기 페짓은 연결망이 2개 (비즈니스, 애트리빗?) core 분석을 하면 ucinet에서 노드의 색을 바꿔서 분류별 다르게 보여줄 수 있음 degree centrality에 따라 사이즈를 달리할 수 있음 분석 후 matrix 뒤에 붙어온 정보를 활용할 수도 있음 (어떤 카테고리 중심으로 할 것인.. 더보기
[통계] 선형회귀 가설과 비용 함수 (출처) inflearn 모두를 위한 딥러닝 - 기본적인 머신러닝과 딥러닝 강좌, Sung Kim Predicting exam score: regression → 학생의 공부시간 대비 성적을 supervised learning하는 경우 Score 범위 : 0~100점 회귀분석을 통해 학습(training)시킴 Regression으로 모델 생성 ☞ 회귀분석 모델을 적용해 학습된 X값 (공부한 시간)을 바탕으로 Y값 (예상 점수)를 예측함 Regression (data) ▤ Linear Hypothesis : 많은 현상들이 linear 형태로 설명됨 공부를 많이 할 수록 시험 점수가 높아짐 집의 크기가 클 수록 가격이 올라감 ▤ 학습 : 그래프 상에서 Training 데이터에 잘 맞는 선을 찾는 것 2차원 .. 더보기
[EDA] 사회연결망 분석 지표 실습 : 내부 연결망이 확고한지, 외부 연결망이 확고한지를 확인하는 방법 E-I Index 값이 -1에 가까울 수록 자신이 속한 그룹에 대한 연결이 강함 Cross activity 그룹간 교류하는 정도를 파악하는 지표 네트워크 수준을 개인 수준과 집단 수준에서 비교할 수 있음 이를 위해 개인이 속한 집단과 그 집단 간의 관계가 뚜렷해야 함 개인의 원래 가지고 태어난 속성(attribute)이 아닌 네트워크 내에서 정의한 개인의 속성일 수도 있음 R에서는 활용할 수 있는 툴이 없음 Transitivity ▤ 지인의 지인끼리 알고 있을 가능성이 높은 것 3자면 관계 ▶ 닫혀있는 관계에서 가능성이 가장 높음 집단 간의 결속력이 높은 집단 ▶ 초기에는 삼각형이었던 집단이 점점 노드와 결속력을 높여가는 단계 Cl.. 더보기
[EDA] 데이터 전처리 및 탐색 Data Dirty missing data ▶ 불완전한 데이터 결측치, 정보가 없는 데이터 outlier ▶잘못된 정보 에러나 이상치 → 연봉 중 음수의 값을 갖는 경우 일관성 결여 ▶ 코드나 이름에 일관성이 없는 데이터 → 미국과 한국의 나이 체제 Age = “42”, Birthday = “03/07/2010” Was rating “1, 2, 3”, now rating “A, B, C” discrepancy between duplicate records 데이터 처리 (Data Preprocessing) : 수집한 데이터를 분석하기 좋게 변환하는 모든 작업 분석 목적에 맞는지 데이터의 품질을 확인하고 필요하면 품질을 높이는 작업 데이터 품질이란 신뢰성을 의미하며 정확성과 적시성 (최신성)이 보장되어야 함.. 더보기