본문 바로가기

크롤링

[퀀트] R을 활용한 퀀트 투자 포트폴리오 만들기 (6) Chapter 6 금융 데이터 수집하기 (심화) 6.1 수정주가 크롤링 이번 챕터에서는 수정주가, 재무제표, 가치지표를 크롤링함 국내 중소형주나 종목의 수정주가를 크롤링하기 위해 네이버 금융판을 이용함 6.1.1 개별종목 주가 크롤링 네이버 금융의 차트 탭에서 사용하는 데이터를 url에서 확인 > 날짜별 수정주가 기준의 시가, 고가, 저가, 종가, 거래량 데이터를 받아옴 이때 다른 종목의 데이터를 받아오고 싶다면 url 주소의 symbol= 뒤 티커만 변경해주면 됨 library(stringr) # 이전 챕터에서 저장한 파일 불러오기 KOR_ticker = read.csv('data/KOR_ticker.csv', row.name = 1) print(KOR_ticker$'종목코드'[1]) (결과) 6자리 .. 더보기
[퀀트] R을 활용한 퀀트 투자 포트폴리오 만들기 (5) Chapter 5 금융 데이터 수집하기 (기본) 5.1 한국거래소의 산업별 현황 및 개별지표 크롤링 5.1.1 산업별 현황 크롤링 산업별 현황 페이지에서 OTP를 받고 이를 통해 데이터를 다운로드함 library(httr) library(rvest) library(readr) # 항목을 제출할 url gen_otp_url = 'http://marketdata.krx.co.kr/contents/COM/GenerateOTP.jspx' # f12 화면의 쿼리 내용을 리스트 형태로 입력 gen_otp_data = list( name = 'fileDown', filetype = 'csv', #기존 xls에서 변경 url = 'MKD/03/0303/03030103/mkd03030103', tp_cd = 'ALL',.. 더보기
[퀀트] R을 활용한 퀀트 투자 포트폴리오 만들기 (2) Chapter 2 크롤링을 위한 기본 지식 2.1 인코딩의 이해와 R에서 UTF-8 설정하기 2.1.1 인간과 컴퓨터 간 번역의 시작, ASCII 인코딩: 인간언어를 컴퓨터 언어(0, 1)로 디코딩: 인코딩의 반대 번역의 시초는 ASCII(American Standard Code for Information Interchange) 0~127까지의 숫자에 단어 및 특수문자를 부여한 체계로 영어 알파벳만을 지원함 2.1.2 한글 인코딩 방식의 종류 ‘알’이라는 글자를 ‘알’로 표현하는 완성형, ‘ㅇ+ㅏ+ㄹ’로 표현하는 조합형 1) EUC-KR 현대 한글에서 많이 쓰이는 문자엠나 번호를 붙임 모든 자모 조합을 표현하기 부족 2) CP949 EUC-KR을 보완하기 위해 MS가 개발 더 많은 한글을 표현할 수 있.. 더보기