본문 바로가기

Database/#Hadoop

[하둡] 하둡으로 데이터 다루기 (1)


Chapter 1. 파이썬 정규표현식 다시보기

# Chapter 1. 파이썬 정규표현식 다시보기
!pip install regex
> Requirement already satisfied: regex in c:\users\leejiwon\anaconda3\lib\site-packages (2020.7.14)

import regex
import re

# Task 1. 유효한 이메일일까?
email_validator = re.compile('[a-z]+')
print(email_validator.match('schoolfaiBellevue'))
> <re.Match object; span=(0, 9), match='schoolfai'>

email_validator = re.compile("[a-z]")
print(email_validator.match('schoolfaiBellevue'))
> <re.Match object; span=(0, 1), match='s'>

def valid_email(email):
    return bool(re.search("^[\w\.\+\-]+\@[\w]+\.[a-z]{2,3}$", email))

valid_email("test@theschool.ai")
> True

 

1. 메타 문자
- 특별한 의미를 가진 문자
2. \ + 문자 3. 집합

[] 문자집합

\ 특정 문자열 (ex. \d)

. 어떤 문자 (ex he.o)

^ 문자열 시작 (ex."^hello")

* 0개 이상 발생 (ex. "aix*")

+ 1개 이상 발생 (ex."aix+")

{} 지정된 수만큼 발생 ("al{2}")

| "혹은" ("falls | stays")

() 그룹

$ 문자열의 끝 ("worlds$")

\A 문자열의 처음에 오는 것 반환 ("\AThe")
\b (r"\bain", r"ain\b")
\B (r"\Bain", r"ain\B")
\d 문자열이 숫자(0-9)인 것을 반환
\D 문자열이 숫자를 포함하지 않는 것 반환
\s 문자열이 공백 하나를 포함하는 것 반환
\S 문자열이 공백 하나를 포함하지 않는 것 반환
\w 문자열이 어떤 단어 문자들을 포함하는 것 반환 (a-Z까지의 문자, 0-9까지의 숫자, 밑줄_문자)
\W 문자열이 어떠한 단어 문자들도 포함하지 않는 것 반환
\Z  특정 문자들이 문자열의 끝에 오는 것을 반환 ("Machine\Z")
. 줄바꿈 문자 or 줄 종료자를 제외한 하나의 문자를 찾음
\0 NULL 문자를 찾음
\n 줄바꿈 문자를 찾음
\f 폼 피드 문자를 찾음
\r 캐리지 리턴 문자를 찾음
\t 탭 문자를 찾음
\v 수직 탭 문자를 찾음
\xxx 8진수 xxx로 명시된 문자를 찾음
\xdd 16진수 dd로 명시된 문자를 찾음
\uxxxx 16진수 xxxx로 명시된 유니코드 문자를 찾음

[arn] 지정된 문자 중 하나가 존재하는 것 반환

[a-n] a와 n 사이 알파벳 순서로 소문자와 일치하는 것 반환

[^arn] a, r, n을 제외한 어떤 문자 반환

[0123] 0, 1, 2, 3이 존재하는 것 반환

[0-9] 0-9 사이의 숫자 중 일치하는 것 반환

[0-5][0-9] 00에서 59까지 두 개의 숫자 중 일치하는 것 반환

[a-zA-Z] a에서 z까지 알파벳 순서로 소문자 또는 대문자 중 일치하는 것 반환

[+] +, *, ., |, (), $, {}와 같이 특별한 의미를 갖지 않는 문자 중 +문자에 대해 일치하는 것을 반환


edwith, <DataLit: 데이터 다루기> 강좌로 공부한 내용입니다.

 

I'm a Senior Student in Data Science ! 

데이터 사이언스를 공부하고 있는 4학년 학부생의 TIL 블로그입니다. 게시글이 도움 되셨다면 구독과 좋아요 :)

 

'Database > #Hadoop' 카테고리의 다른 글

[하둡] 하둡으로 데이터 다루기 (2)  (0) 2020.08.04