본문 바로가기

Data Visualization

[시각화] Plot

Scatter plot

: 추세만 보고 싶을 때 유용


각각의 그래프가 보여주고자 하는 목적을 확실히 정하고 데이터 처리에 들어가야 합니다.

 

데이터 뭉개기 : 범주로 묶어 넣기

사회학 범주형 분석, 심리학 분석 : 개인에 집중함  data의 track이 다름 

 

 

 

 

 


Examples

 

  1.  회사에서 부당한 일을 당했을 때 70년대생, 90년대생의 대처 차이에 대한 설문조사와 같이 그룹별로 차이를 보일 수 있습니다. 답변 중 "더욱 충성한다" 항목은 90년대생 비율이 70년대생 보다 현저히 낮았으며, 70년대생은 동시에 이직을 고민하는 비율도 높았음을 알 수 있습니다. 
  2. 성별 대학교 입학률이 40:60으로 나타나게 된 사회, 구조적 원인과 같은 근원적인 근거 찾기에도 활용됩니다. 
  3. 갈색 홍채를 갖고 있는 사람이 빨간색의 홍채를 갖고 있는 사람보다 검은 머리를 가질 수 있는 확률이 더 높다는 연구결과 또한 신체의 구조적인 원인 분석에 해당합니다. 

이 그래프에서는 row를 column으로 바꾸면 어떻게 바뀔지 생각해볼 수 있습니다. 

 

카이 스퀘어 : 기댓값보다 실제 관찰된 값이 더 많을 경우 적용할 수 있습니다. 

 

catholic 양봉형 : 범주형 데이터임을 바로 알 수 있습니다. 

 

 

 

 

 

 


 

어떤 변수끼리 선형관계인지, 어떤 변수로 인해 음수로 넘어갈 수 있는지 파악할 수 있는 plot ☞ 산점도 

 

평균값 등의 수치 데이터 없이도 파악할 수 있는 방법  익숙해지면 automatic하게 들어가게 될 것

 

 

 

 

 

 

 

 

 

 

 


Summary

 

  • 국가마다 차이가 있지만 majority에도 차이가 있다는 것을 알려주고 싶다면 box plot을 사용하는 것이 좋습니다. 
  • 처음에 차이가 있다는 것을 보여주고 싶다면 최대한 차이를 많이 보여줄 수 있는 그래프를 사용하고 그 이후에 세부적인 차이점을 설명할 수 있는 그래프를 사용합니다.  산점도
  • 내가 선택한 집중요소에 어울리는 그래프를 선택할 줄 알아야 합니다. 

 

I'm a Senior Student in Data Science ! 

데이터 사이언스를 공부하고 있는 4학년 학부생의 TIL 블로그입니다. 게시글이 도움 되셨다면 구독과 좋아요 :)