Scatter plot
: 추세만 보고 싶을 때 유용
각각의 그래프가 보여주고자 하는 목적을 확실히 정하고 데이터 처리에 들어가야 합니다.
데이터 뭉개기 : 범주로 묶어 넣기
사회학 범주형 분석, 심리학 분석 : 개인에 집중함 ☞ data의 track이 다름
Examples
- 회사에서 부당한 일을 당했을 때 70년대생, 90년대생의 대처 차이에 대한 설문조사와 같이 그룹별로 차이를 보일 수 있습니다. 답변 중 "더욱 충성한다" 항목은 90년대생 비율이 70년대생 보다 현저히 낮았으며, 70년대생은 동시에 이직을 고민하는 비율도 높았음을 알 수 있습니다.
- 성별 대학교 입학률이 40:60으로 나타나게 된 사회, 구조적 원인과 같은 근원적인 근거 찾기에도 활용됩니다.
- 갈색 홍채를 갖고 있는 사람이 빨간색의 홍채를 갖고 있는 사람보다 검은 머리를 가질 수 있는 확률이 더 높다는 연구결과 또한 신체의 구조적인 원인 분석에 해당합니다.
이 그래프에서는 row를 column으로 바꾸면 어떻게 바뀔지 생각해볼 수 있습니다.
카이 스퀘어 : 기댓값보다 실제 관찰된 값이 더 많을 경우 적용할 수 있습니다.
catholic 양봉형 : 범주형 데이터임을 바로 알 수 있습니다.
어떤 변수끼리 선형관계인지, 어떤 변수로 인해 음수로 넘어갈 수 있는지 파악할 수 있는 plot ☞ 산점도
평균값 등의 수치 데이터 없이도 파악할 수 있는 방법 ☞ 익숙해지면 automatic하게 들어가게 될 것
Summary
- 국가마다 차이가 있지만 majority에도 차이가 있다는 것을 알려주고 싶다면 box plot을 사용하는 것이 좋습니다.
- 처음에 차이가 있다는 것을 보여주고 싶다면 최대한 차이를 많이 보여줄 수 있는 그래프를 사용하고 그 이후에 세부적인 차이점을 설명할 수 있는 그래프를 사용합니다. ☞ 산점도
- 내가 선택한 집중요소에 어울리는 그래프를 선택할 줄 알아야 합니다.
I'm a Senior Student in Data Science !
데이터 사이언스를 공부하고 있는 4학년 학부생의 TIL 블로그입니다. 게시글이 도움 되셨다면 구독과 좋아요 :)
'Data Visualization' 카테고리의 다른 글
[강의 소개] 서울스마트캠퍼스 "도시문제 분석을 위한 데이터 시각화 및 탐색" -중급 (0) | 2020.11.08 |
---|