본문 바로가기

ML

[Data Pipeline] Apache Airflow 기반의 데이터 파이프라인 (2) 목차1. Apache Airflow 살펴보기Airflow 소개파이썬 코드로 유연한 파이프라인 정의Airflow를 사용하면 파이프라인이나, 워크플로우 태스크를 방향성 비순환 그래프(DAG)로 정의할 수 있다. 더불어, Airflow는 파이썬 스크립트로 DAG의 구조를 정의하고 구성하는데, 일반적으로 DAG 파일 안에는 주어진 DAG에 대한 태스크 집합과 태스크 간의 의존성을 기술하고, Airflow는 이 DAG의 구조를 식별하기 위해 코드를 Parsing 한다. 이 외에도, DAG 파일 안에는 Airflow의 실행 방법과 시간 등을 정의한 추가 메타데이터가 포함될 수 있다.Airflow DAG를 Python 코드로 정의함으로써 추후 외부의 데이터베이스, 빅데이터 기술 및 클라우드 서비스를 포함한 시스템에서.. 더보기
[Data Pipeline] Apache Airflow 기반의 데이터 파이프라인 (1) 목차1. Apache Airflow 살펴보기데이터 파이프라인 소개일반적인 데이터 파이프라인은 원하는 결과를 얻기 위해 실행되는 여러 태스크 또는 동작으로 구성된다.예를 들어, 다음 주 날씨를 알려주는 쇼핑몰의 날씨 대시보드를 구축하는 시퀀스에서, 다음의 태스크가 수행되어야 한다.다른 시스템의 날씨 API를 통해 일기 예보 데이터를 가져온다.서비스 목적에 맞도록 데이터를 정제하거나 변환(ex. 온도를 화씨에서 섭씨로 변환) 한다.변환된 데이터를 날씨 대시보드로 전송한다.위의 3가지 서로 다른 태스크는 프로세스 실행 시 정해진 순서대로 진행되어야 한다.데이터 파이프라인 그래프태스크 간 의존성을 명확하게 확인하기 위해 데이터 파이프라인을 그래프로 표현할 수 있다. 태스크는 노드로, 태스크 간 의존성은 노드 간.. 더보기
[Paper Review] Improving Neural Architecture Search Image Classifiers via Ensemble Learning (1) 세 번째 논문 리뷰! 오늘은 앙상블 모델을 활용해 모델의 성능을 높이는 예제를 다룬 논문을 읽어보았다. 이번 리뷰는 원문을 번역해 이해했기 때문에 약간의 오류(?)가 있을 수 있다. 원문은 아래 링크에 첨부한다. https://arxiv.org/abs/1903.06236 Improving Neural Architecture Search Image Classifiers via Ensemble Learning Finding the best neural network architecture requires significant time, resources, and human expertise. These challenges are partially addressed by neural architecture s.. 더보기
[서평] 딥러닝 텐서플로 교과서 (Deep Learning with Tensorflow)| 서지영 | 길벗 0. 서론 길벗에서 딥러닝 관련 신간이 나왔다. 작년에는 길벗의 '머신러닝 교과서 with python, scikit-learn, tensorflow'로 진행한 학부 기계학습 수업을 들었는데, 머신러닝 관련 다양한 알고리즘을 소개해줄 뿐 아니라 세부적인 이론도 꽤 심도 있게 다루어 도움이 됐던 기억이 있다. 이번 신간은 제목에서도 드러나듯, '딥러닝'과 '텐서플로'에 더 집중한 구성이다. 그런 의미에서 '머신러닝 교과서'의 뒷부분에서 심층 신경망에 대해 재미있게 공부한 독자라면, 이번 책 역시 적합할 것이라고 본다. 1. 책 소개 '딥러닝 기초 이론부터 CNN, RNN, 시계열분석, 성능 최적화, 자연어 처리, 강화 학습, 생성모델까지', 이 책의 표지에 적힌 소개글이다. 길게 늘어진 문장처럼 딥러닝의 .. 더보기
[Paper Review] Indoor Behavior Recognition Using Convolutional LSTM 두 번째 논문 리뷰! 이번 논문은 지난 번에 읽은 논문에 이어 Convolutional LSTM 알고리즘과 실내 환경 데이터를 활용한 특징 추출을 다루고 있다. 마침 관심있는 대회에서 이 모델을 베이스라인으로 제공하길래 좀 더 집중해서 읽어볼 수 있었다. 원문 링크는 아래에 첨부한다. https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=DIKO0015063537&dbt=DIKO 목차 Abstract 사물 인터넷 환경에서 각종 센서들을 통해 얻은 환경에 대한 정보들은 사용자의 신체로부터 직접적으로 수집된다는 점에서 개인정보 침해 등 여러 불편함이 있을 수 있다. 이에 좀 더 간접적인 방법으로 사용자 주변 상황에 대한 정보를 수집해 행동 인식에 사용.. 더보기
[Paper Review] ConvLSTM, 시계열 기계학습을 이용한 예측 모델 이 카테고리에는 딥러닝 관련 논문을 읽고 간단하게나마 리뷰를 해보려고 한다. 처음 읽어본 논문은 시계열 자료를 활용한 해수면 온도 예측 딥러닝 모델이다. 본 포스팅은 아래 논문을 읽고 남긴 리뷰임을 밝힌다. https://doi.org/10.7780/kjrs.2020.36.5.3.7 목차 1. 서론 해수면 온도 예측이 주제인만큼 해수면 온도 상승의 파급력에 대해 설명한다. 해수면 온도는 해양-대기 순환 현상을 결정하는 중요한 변수이며, 다양한 요인들로 한반도 해역의 고수온 현상이 자주 발생하고 있다. 이에 따라 다양한 방법으로 해수면 온도 예측이 이루어지고 있는데, 대표적으로 수치모델과 자료중심(Data-driven) 모델을 사용한다. 수치모델에는 ROMS, NEMO와 같이 일사량, 해류 등의 입력자료로.. 더보기
[알고리즘] Leetcode #424 가장 긴 반복 문자 대체 (Python) ↓↓↓ 아래는 내 리트코드 계정 ↓↓↓ leetcode.com/Jiwon_Lee/ Jiwon Lee - LeetCode Profile Level up your coding skills and quickly land a job. This is the best place to expand your knowledge and get prepared for your next interview. leetcode.com 문제 설명 You are given a string s and an integer k. You can choose any character of the string and change it to any other uppercase English character. You can perform this.. 더보기