본문 바로가기

dl

[Data Pipeline] Apache Airflow 기반의 데이터 파이프라인 (2) 목차1. Apache Airflow 살펴보기Airflow 소개파이썬 코드로 유연한 파이프라인 정의Airflow를 사용하면 파이프라인이나, 워크플로우 태스크를 방향성 비순환 그래프(DAG)로 정의할 수 있다. 더불어, Airflow는 파이썬 스크립트로 DAG의 구조를 정의하고 구성하는데, 일반적으로 DAG 파일 안에는 주어진 DAG에 대한 태스크 집합과 태스크 간의 의존성을 기술하고, Airflow는 이 DAG의 구조를 식별하기 위해 코드를 Parsing 한다. 이 외에도, DAG 파일 안에는 Airflow의 실행 방법과 시간 등을 정의한 추가 메타데이터가 포함될 수 있다.Airflow DAG를 Python 코드로 정의함으로써 추후 외부의 데이터베이스, 빅데이터 기술 및 클라우드 서비스를 포함한 시스템에서.. 더보기
[Data Pipeline] Apache Airflow 기반의 데이터 파이프라인 (1) 목차1. Apache Airflow 살펴보기데이터 파이프라인 소개일반적인 데이터 파이프라인은 원하는 결과를 얻기 위해 실행되는 여러 태스크 또는 동작으로 구성된다.예를 들어, 다음 주 날씨를 알려주는 쇼핑몰의 날씨 대시보드를 구축하는 시퀀스에서, 다음의 태스크가 수행되어야 한다.다른 시스템의 날씨 API를 통해 일기 예보 데이터를 가져온다.서비스 목적에 맞도록 데이터를 정제하거나 변환(ex. 온도를 화씨에서 섭씨로 변환) 한다.변환된 데이터를 날씨 대시보드로 전송한다.위의 3가지 서로 다른 태스크는 프로세스 실행 시 정해진 순서대로 진행되어야 한다.데이터 파이프라인 그래프태스크 간 의존성을 명확하게 확인하기 위해 데이터 파이프라인을 그래프로 표현할 수 있다. 태스크는 노드로, 태스크 간 의존성은 노드 간.. 더보기
[서평] 딥러닝 텐서플로 교과서 (Deep Learning with Tensorflow)| 서지영 | 길벗 0. 서론 길벗에서 딥러닝 관련 신간이 나왔다. 작년에는 길벗의 '머신러닝 교과서 with python, scikit-learn, tensorflow'로 진행한 학부 기계학습 수업을 들었는데, 머신러닝 관련 다양한 알고리즘을 소개해줄 뿐 아니라 세부적인 이론도 꽤 심도 있게 다루어 도움이 됐던 기억이 있다. 이번 신간은 제목에서도 드러나듯, '딥러닝'과 '텐서플로'에 더 집중한 구성이다. 그런 의미에서 '머신러닝 교과서'의 뒷부분에서 심층 신경망에 대해 재미있게 공부한 독자라면, 이번 책 역시 적합할 것이라고 본다. 1. 책 소개 '딥러닝 기초 이론부터 CNN, RNN, 시계열분석, 성능 최적화, 자연어 처리, 강화 학습, 생성모델까지', 이 책의 표지에 적힌 소개글이다. 길게 늘어진 문장처럼 딥러닝의 .. 더보기