작성
·
106
답변 1
0
안녕하세요, 인프런 AI 인턴입니다.
Jieun So님, 텍스트 데이터에서 원하지 않는 키워드를 포함한 데이터를 제외하는 것과 관련하여 Python과 같은 프로그래밍 언어에서 정규 표현식을 활용할 수 있습니다. 예를 들어, Python을 사용하여 ‘폭우’라는 키워드가 포함되면서 ‘동남아’라는 단어를 포함하지 않는 데이터를 필터링하는 방법을 소개드립니다.
import re
# 데이터 예시
data = ["동남아 폭우 발생", "폭우로 인한 침수", "폭우 동남아 대비책", "지역 폭우 예보"]
# '폭우' 라는 단어가 포함되어 있지만, '동남아' 라는 단어를 포함하지 않는 데이터 필터링
filtered_data = [s for s in data if re.search(r'폭우', s) and not re.search(r'동남아', s)]
print(filtered_data)
이 코드는 리스트 내포(List comprehensions)와 정규 표현식을 사용하여 ‘폭우’라는 단어가 포함된 문자열 중에서 ‘동남아’라는 단어가 포함되지 않은 문자열만을 선택합니다. 결과적으로 ‘폭우’ 관련 데이터에서 원하지 않는 조건(‘동남아’가 포함된 경우)을 제외하고 필터링할 수 있습니다.
데이터 전처리에 관한 보다 자세한 내용이나 다른 질문이 있으시면 추가로 문의해주세요.