탐색 썸네일형 리스트형 [EDA] 데이터 전처리 및 탐색 Data Dirty missing data ▶ 불완전한 데이터 결측치, 정보가 없는 데이터 outlier ▶잘못된 정보 에러나 이상치 → 연봉 중 음수의 값을 갖는 경우 일관성 결여 ▶ 코드나 이름에 일관성이 없는 데이터 → 미국과 한국의 나이 체제 Age = “42”, Birthday = “03/07/2010” Was rating “1, 2, 3”, now rating “A, B, C” discrepancy between duplicate records 데이터 처리 (Data Preprocessing) : 수집한 데이터를 분석하기 좋게 변환하는 모든 작업 분석 목적에 맞는지 데이터의 품질을 확인하고 필요하면 품질을 높이는 작업 데이터 품질이란 신뢰성을 의미하며 정확성과 적시성 (최신성)이 보장되어야 함.. 더보기 이전 1 다음