본문 바로가기

data

[Data Pipeline] Apache Airflow 기반의 데이터 파이프라인 (2) 목차1. Apache Airflow 살펴보기Airflow 소개파이썬 코드로 유연한 파이프라인 정의Airflow를 사용하면 파이프라인이나, 워크플로우 태스크를 방향성 비순환 그래프(DAG)로 정의할 수 있다. 더불어, Airflow는 파이썬 스크립트로 DAG의 구조를 정의하고 구성하는데, 일반적으로 DAG 파일 안에는 주어진 DAG에 대한 태스크 집합과 태스크 간의 의존성을 기술하고, Airflow는 이 DAG의 구조를 식별하기 위해 코드를 Parsing 한다. 이 외에도, DAG 파일 안에는 Airflow의 실행 방법과 시간 등을 정의한 추가 메타데이터가 포함될 수 있다.Airflow DAG를 Python 코드로 정의함으로써 추후 외부의 데이터베이스, 빅데이터 기술 및 클라우드 서비스를 포함한 시스템에서.. 더보기
[Data Pipeline] Apache Airflow 기반의 데이터 파이프라인 (1) 목차1. Apache Airflow 살펴보기데이터 파이프라인 소개일반적인 데이터 파이프라인은 원하는 결과를 얻기 위해 실행되는 여러 태스크 또는 동작으로 구성된다.예를 들어, 다음 주 날씨를 알려주는 쇼핑몰의 날씨 대시보드를 구축하는 시퀀스에서, 다음의 태스크가 수행되어야 한다.다른 시스템의 날씨 API를 통해 일기 예보 데이터를 가져온다.서비스 목적에 맞도록 데이터를 정제하거나 변환(ex. 온도를 화씨에서 섭씨로 변환) 한다.변환된 데이터를 날씨 대시보드로 전송한다.위의 3가지 서로 다른 태스크는 프로세스 실행 시 정해진 순서대로 진행되어야 한다.데이터 파이프라인 그래프태스크 간 의존성을 명확하게 확인하기 위해 데이터 파이프라인을 그래프로 표현할 수 있다. 태스크는 노드로, 태스크 간 의존성은 노드 간.. 더보기
[Python] 모듈과 그래픽 객체 목표 다양한 기능을 불러서 사용하기 위한 모듈 기능을 이해 다양한 그래픽 객체를 생성하고 변형시켜 애니메이션 만들기 모듈 math 모듈 : sin, cos, tan 등 수학 함수를 제공 random 모듈 : 난수, 무작위 섞기 등의 함수들을 제공 sys, os : 운영체제와 관련된 함수들을 제공 urllib : 인터넷 관련 함수들을 제공 cs1robots : 휴보에 관련된 함수들을 제공 cs1graphics : 그래픽과 관련된 함수들을 제공 cs1media : 사진의 처리와 관련된 함수들을 제공 ☞ 모듈의 정보는 help 함수를 통해 볼 수 있음 help("cs1media") help("cs1media.picture_tool") 모듈 들여오기 ▒ 모듈을 사용하려면 import 키워드 사용 import m.. 더보기
[Python] 지역 변수와 전역 변수 목표 함수에서 사용하는 지역변수, 전역변수의 차이를 이해 전역변수와 지역변수의 장단점을 이해하여 프로그램을 모듈러하게 짜는 방법에 대해 이해 In [1]: def quadratic(a, b, c, x): ...: quad_term = a * x ** 2 ...: lin_term = b * x ...: return quad_term + lin_term + c # quad_term과 lin_term은 quadratic 함수 안에서만 사용할 수 있음 #지역변수 ☞ quadratic 함수 안에서 사용하는 지역변수 a, b, c, x, quad_term, lin_term의 값은 qaudratic함수를 부를 때 넘겨주는 인자에 의해 결정됨 ☞ 지역 변수는 함수 안에서만 사용할 수 있는 변수 모듈화된 프로그램 : 소.. 더보기
[UDA] 비정형데이터분석 Social Network Analysis : 구조가 위치와 역할을 만든다는 분석이론 ▶ Meditz가문에 반역을 꾀할 가능성이 가장 높은 가문은 어느 곳인가? (사진 참고) 사람들의 mindmap이 다르다는 것 ▶ 거리가 멀 수록 도달하는데 시간이 많이 걸림 단어들을 통한 개념 map을 만들 수도 있음 항상 위치, 구조, 역할이 함께 작동한다는 것이 중요 초등학생의 또래 친구 집단의 변화 : 개인의 역할이나 위치가 변한 것이 아닌 전체적인 구조가 변한 것 집단 구조의 변화가 아닌 개인의 구조와 역할의 변화 ☞ 친한 친구들이 옆에 있는 짝이 아닌 학원을 같이 다니는 친구들끼리 친해지는 현상을 보일 수 있음 동일한 unit 내에서 상이한 네트워크를 구분함 ☞ 캐빈 베이컨의 법칙 : 미국 할리우드의 허브 중.. 더보기
[시각화] Plot Scatter plot: 추세만 보고 싶을 때 유용각각의 그래프가 보여주고자 하는 목적을 확실히 정하고 데이터 처리에 들어가야 합니다. 데이터 뭉개기 : 범주로 묶어 넣기사회학 범주형 분석, 심리학 분석 : 개인에 집중함 ☞ data의 track이 다름      Examples  회사에서 부당한 일을 당했을 때 70년대생, 90년대생의 대처 차이에 대한 설문조사와 같이 그룹별로 차이를 보일 수 있습니다. 답변 중 "더욱 충성한다" 항목은 90년대생 비율이 70년대생 보다 현저히 낮았으며, 70년대생은 동시에 이직을 고민하는 비율도 높았음을 알 수 있습니다. 성별 대학교 입학률이 40:60으로 나타나게 된 사회, 구조적 원인과 같은 근원적인 근거 찾기에도 활용됩니다. 갈색 홍채를 갖고 있는 사람이 빨간색의.. 더보기