정규표현식을 사용해서 데이터 분류를 하려고 하는데 많은 도움이 될 것 같습니다. 좋은 강의 감사합니다.
하지만, 다른 수강평에도 나와있듯 복잡하고 다양한 정규표현 분석 예제가 부족한 부분이 있었습니다.
강의에 있는 연습문제를 통해서 연습을 했지만 작은 양의 문자열에 적용한 예제만 있어 실무에 적용하기에 부족함이 있었습니다.
그래서 실제로 데이터 프레임에 적용할 때 데이터 프레임을 문자열처럼 지정해서 정규표현식을 적용시킬 수 있는 방법에 대해 알려주시면 감사하겠습니다!
예시로 엑셀 파일과 적용하려고 하는 코드를 적어봤는데 데이터프레임을 문자열처럼 적용하는 방법을 알려주세요!
예시 엑셀1
예시 코드
작성한 코드
import pandas as pd
df = pd.read_excel('데이터분류예시.xlsx', header = 0)
df
import re
df1 = df['공사구간'].str.lstrip()
for s in df1.values:
if s == 'NAN':
continue
df1.head()
정규표현식 = r'[S|s]?[T|t]?[A|a]?.\d+'
#문자열에 df1 들어갈 수 있는 방법이 궁금합니다
문자열
결과 = re.split(정규표현식, 문자열)
# split(정규표현식, 문자열, [최대분할수])
결과