본문 바로가기

Exploratory Data Analysis/#Theory

[분류] 군집 분석 - 여러 집단으로 개체 분류하기 활용 분야 상품 분류 패턴 인식 생물 연구 Clustering positive group과 negative 그룹 (키가 크고 몸무게가 적게 나가는 사람들) 군집을 나눠주지만 각각의 특성은 직접 labeling해야 함 유형 분석 (Classification) Clustering 방법과는 달리 군집을 나누는 기준까지 알 수 있음 마케팅 영역에서 고객 Segmentaion에 사용됨 ▶ 신한카드 code9 에서 고객 특성과 패턴에 따른 혜택 레이블링을 진행함 회귀분석 (Regression) 변화를 수치적으로 계산할 때 유용함 연관성 분석 eg. 기저귀와 맥주의 관계 연관어 추천 서비스 등에 활용됨 신경망 분석(Neural) 인간의 두뇌가 작동하는 방식을 본 떠 분석하는 방법 딥러닝 ▶ neural network.. 더보기
[UDA] 비정형데이터-군집화 연결이 많은 개체들끼리 묶어줌 UCINET에서 행렬 위치를 바꿔서 재조합할 수 있음 유튜브에서 설명한 트위터 사례와 같은 맥락 R로도 가능한 작업, 직관적인 표현을 위해 UCINET 사용 유튜브에서 다뤄지는 network community detection과는 살짝 개념이 다름 위 분석에서는 빨간 부분도 community, 이 분석에서는 파란 core 부분만 유의미함 UCINET에서 페짓-바탕화면에 저장 - 파일 열기 페짓은 연결망이 2개 (비즈니스, 애트리빗?) core 분석을 하면 ucinet에서 노드의 색을 바꿔서 분류별 다르게 보여줄 수 있음 degree centrality에 따라 사이즈를 달리할 수 있음 분석 후 matrix 뒤에 붙어온 정보를 활용할 수도 있음 (어떤 카테고리 중심으로 할 것인.. 더보기
[EDA] 사회연결망 분석 지표 실습 : 내부 연결망이 확고한지, 외부 연결망이 확고한지를 확인하는 방법 E-I Index 값이 -1에 가까울 수록 자신이 속한 그룹에 대한 연결이 강함 Cross activity 그룹간 교류하는 정도를 파악하는 지표 네트워크 수준을 개인 수준과 집단 수준에서 비교할 수 있음 이를 위해 개인이 속한 집단과 그 집단 간의 관계가 뚜렷해야 함 개인의 원래 가지고 태어난 속성(attribute)이 아닌 네트워크 내에서 정의한 개인의 속성일 수도 있음 R에서는 활용할 수 있는 툴이 없음 Transitivity ▤ 지인의 지인끼리 알고 있을 가능성이 높은 것 3자면 관계 ▶ 닫혀있는 관계에서 가능성이 가장 높음 집단 간의 결속력이 높은 집단 ▶ 초기에는 삼각형이었던 집단이 점점 노드와 결속력을 높여가는 단계 Cl.. 더보기
[EDA] 사회연결망분석: 주요 개념 및 자료 Degree Centrality (방향 중앙성) Indegree와 outdegree로 구별됨 simple count, standardized Closeness Centrality (인접중앙성) : 한 결점이 다른 한 결점에 도달하는 최소단계를 연결망의 모든 결점으로부터 구해 합산 한 결점이 다른 결점에 도달하는 최소 경로거리 모든 다른 결점에 대해 계산해서 합산 = Farness로 표기되어 풀력되며 작은 숫자일수록 경로거리가 짧음 직관적 이해를 위해 역수를 취함 =1/Farness Closeness가 높을수록 중앙성이 높아짐 표준화는 인접성/ 논리적으로 가능한 최소 인접성 Betweenness Centrality (사이중앙성) 연결망 내의 한 점을 제외한 논리적으로 연결가능한 연결의 수를 센다 > (n-.. 더보기
[EDA] 데이터 전처리 및 탐색 Data Dirty missing data ▶ 불완전한 데이터 결측치, 정보가 없는 데이터 outlier ▶잘못된 정보 에러나 이상치 → 연봉 중 음수의 값을 갖는 경우 일관성 결여 ▶ 코드나 이름에 일관성이 없는 데이터 → 미국과 한국의 나이 체제 Age = “42”, Birthday = “03/07/2010” Was rating “1, 2, 3”, now rating “A, B, C” discrepancy between duplicate records 데이터 처리 (Data Preprocessing) : 수집한 데이터를 분석하기 좋게 변환하는 모든 작업 분석 목적에 맞는지 데이터의 품질을 확인하고 필요하면 품질을 높이는 작업 데이터 품질이란 신뢰성을 의미하며 정확성과 적시성 (최신성)이 보장되어야 함.. 더보기
[UDA] 비정형데이터분석 Social Network Analysis : 구조가 위치와 역할을 만든다는 분석이론 ▶ Meditz가문에 반역을 꾀할 가능성이 가장 높은 가문은 어느 곳인가? (사진 참고) 사람들의 mindmap이 다르다는 것 ▶ 거리가 멀 수록 도달하는데 시간이 많이 걸림 단어들을 통한 개념 map을 만들 수도 있음 항상 위치, 구조, 역할이 함께 작동한다는 것이 중요 초등학생의 또래 친구 집단의 변화 : 개인의 역할이나 위치가 변한 것이 아닌 전체적인 구조가 변한 것 집단 구조의 변화가 아닌 개인의 구조와 역할의 변화 ☞ 친한 친구들이 옆에 있는 짝이 아닌 학원을 같이 다니는 친구들끼리 친해지는 현상을 보일 수 있음 동일한 unit 내에서 상이한 네트워크를 구분함 ☞ 캐빈 베이컨의 법칙 : 미국 할리우드의 허브 중.. 더보기
[EDA] 데이터 분석에 필요한 개념들 데이터의 종류 범주형데이터 : 성별, 국가 등 카테고리를 나눌 수 있는 데이터순서데이터 : 1. 2등처럼 순차적으로 순번을 메길 수 있는 데이터연속형데이터 : 시간, 키, 몸무게 등 연속적으로 변하는 아날로그 데이터 ▶2와 3은 숫자형 데이터라고도 합니다. Regression과 Anova의 차이 : 독립변수의 형태에 따라 구분할 수 있습니다. Regression : 연속형변수 ☞ dummy variable로 바꿀 수 있습니다. Anova: 분산분석 ☞ t -test로 분석할 수 있는 범주형데이터입니다.   데이터 수집 : 프로젝트 중 데이터수집이 불가능해서 지연되는 경우가 많으니 이전에 가능성 및 수집주기 등을 따져보고 시작해야 합니다. aggregation : 일단위 > 월단위 > 연단위 나이퀴스트의 .. 더보기