본문 바로가기

전체 글

[EDA] 데이터 전처리 및 탐색 Data Dirty missing data ▶ 불완전한 데이터 결측치, 정보가 없는 데이터 outlier ▶잘못된 정보 에러나 이상치 → 연봉 중 음수의 값을 갖는 경우 일관성 결여 ▶ 코드나 이름에 일관성이 없는 데이터 → 미국과 한국의 나이 체제 Age = “42”, Birthday = “03/07/2010” Was rating “1, 2, 3”, now rating “A, B, C” discrepancy between duplicate records 데이터 처리 (Data Preprocessing) : 수집한 데이터를 분석하기 좋게 변환하는 모든 작업 분석 목적에 맞는지 데이터의 품질을 확인하고 필요하면 품질을 높이는 작업 데이터 품질이란 신뢰성을 의미하며 정확성과 적시성 (최신성)이 보장되어야 함.. 더보기
[ML] 머신러닝/딥러닝 - 모두를 위한 딥러닝 (2) (출처) inflearn 모두를 위한 딥러닝 - 기본적인 머신러닝과 딥러닝 강좌, Sung Kim 섹션 1. 기본적인 Machine Learning 의 용어와 개념 설명 ML : 일종의 프로그램 스팸 필터 개발자들이 일일이 스팸메일을 가려내기 힘듦 Automatic driving 마찬가지로 적용해야 하는 룰이 너무 많음 ▶ Arthur Samuel 프로그램이 자동적으로 배우도록 하는 아이디어를 냄 Learning : Supervised learning 레이블이 정해져있는 데이터(training set)으로 학습하는 방법 ▶ 일반적인 머신러닝의 형태 ▶ 이미지 레이블링, 이메일 스팸 필터, 시험 성적 예측 등에 사용할 수 있음 Training data Set : 결과값이 이미 정해져있는 Y값을 예측할 수 .. 더보기
[Cert] 컴퓨터 시스템의 구조 VRAMVGA 카드와 같은 비디오 회로에 사용하기 위해 설계된 칩데이터를 기억하는 핀과 읽는 핀이 따로 구분되어 있음주기억 장치의 구성각각의 저장소를 통해 입출력 장치로 데이터를 옮김연산 장치와 데이터를 주고 받음보조기억장치가 보조적 기능 수행주기억 장치의 종류와 특성ROM: Read Only Memory"기억되는 방식을 바꿀 수 없음, 비휘발성 기억장치"EPROM: PROM을 개량한 것으로 전기나 자외선을 이용하여 내용 변경이 가능한 메모리 "반복사용이 가능한 특수한 ROM"RAM: Random Access Memory"컴퓨터 재부팅시 사라지는 휘발성 메모리"사용자가 작성한 문장이나 프로그램이 기억되는 기억장소개발자들은 직접 메모리를 쌓고 특정 위치를 지정하기도 함정적 RAM : 전원이 공급되는 한 내.. 더보기
[UDA] 비정형데이터분석 Social Network Analysis : 구조가 위치와 역할을 만든다는 분석이론 ▶ Meditz가문에 반역을 꾀할 가능성이 가장 높은 가문은 어느 곳인가? (사진 참고) 사람들의 mindmap이 다르다는 것 ▶ 거리가 멀 수록 도달하는데 시간이 많이 걸림 단어들을 통한 개념 map을 만들 수도 있음 항상 위치, 구조, 역할이 함께 작동한다는 것이 중요 초등학생의 또래 친구 집단의 변화 : 개인의 역할이나 위치가 변한 것이 아닌 전체적인 구조가 변한 것 집단 구조의 변화가 아닌 개인의 구조와 역할의 변화 ☞ 친한 친구들이 옆에 있는 짝이 아닌 학원을 같이 다니는 친구들끼리 친해지는 현상을 보일 수 있음 동일한 unit 내에서 상이한 네트워크를 구분함 ☞ 캐빈 베이컨의 법칙 : 미국 할리우드의 허브 중.. 더보기
[EDA] 데이터 분석에 필요한 개념들 데이터의 종류 범주형데이터 : 성별, 국가 등 카테고리를 나눌 수 있는 데이터순서데이터 : 1. 2등처럼 순차적으로 순번을 메길 수 있는 데이터연속형데이터 : 시간, 키, 몸무게 등 연속적으로 변하는 아날로그 데이터 ▶2와 3은 숫자형 데이터라고도 합니다. Regression과 Anova의 차이 : 독립변수의 형태에 따라 구분할 수 있습니다. Regression : 연속형변수 ☞ dummy variable로 바꿀 수 있습니다. Anova: 분산분석 ☞ t -test로 분석할 수 있는 범주형데이터입니다.   데이터 수집 : 프로젝트 중 데이터수집이 불가능해서 지연되는 경우가 많으니 이전에 가능성 및 수집주기 등을 따져보고 시작해야 합니다. aggregation : 일단위 > 월단위 > 연단위 나이퀴스트의 .. 더보기
[시각화] Plot Scatter plot: 추세만 보고 싶을 때 유용각각의 그래프가 보여주고자 하는 목적을 확실히 정하고 데이터 처리에 들어가야 합니다. 데이터 뭉개기 : 범주로 묶어 넣기사회학 범주형 분석, 심리학 분석 : 개인에 집중함 ☞ data의 track이 다름      Examples  회사에서 부당한 일을 당했을 때 70년대생, 90년대생의 대처 차이에 대한 설문조사와 같이 그룹별로 차이를 보일 수 있습니다. 답변 중 "더욱 충성한다" 항목은 90년대생 비율이 70년대생 보다 현저히 낮았으며, 70년대생은 동시에 이직을 고민하는 비율도 높았음을 알 수 있습니다. 성별 대학교 입학률이 40:60으로 나타나게 된 사회, 구조적 원인과 같은 근원적인 근거 찾기에도 활용됩니다. 갈색 홍채를 갖고 있는 사람이 빨간색의.. 더보기