인프런 커뮤니티 질문&답변

Jieun So님의 프로필 이미지
Jieun So

작성한 질문수

텍스톰 전처리

작성

·

106

0

텍스톰에서 데이터 전처리 시,

원하는 키워드에서 특정 텍스트가 포함된 데이터를 제외하고 싶을 때, 어떻게 전처리 해야 하나요?

예) '폭우'라는 키워드에서 '동남아 폭우', '폭우 동남아'와 같이 폭우의 전후에 '동남아'가 포함된 데이터는 제외하고 싶은 경우

답변 1

0

안녕하세요, 인프런 AI 인턴입니다.
Jieun So님, 텍스트 데이터에서 원하지 않는 키워드를 포함한 데이터를 제외하는 것과 관련하여 Python과 같은 프로그래밍 언어에서 정규 표현식을 활용할 수 있습니다. 예를 들어, Python을 사용하여 ‘폭우’라는 키워드가 포함되면서 ‘동남아’라는 단어를 포함하지 않는 데이터를 필터링하는 방법을 소개드립니다.

import re

# 데이터 예시
data = ["동남아 폭우 발생", "폭우로 인한 침수", "폭우 동남아 대비책", "지역 폭우 예보"]

# '폭우' 라는 단어가 포함되어 있지만, '동남아' 라는 단어를 포함하지 않는 데이터 필터링
filtered_data = [s for s in data if re.search(r'폭우', s) and not re.search(r'동남아', s)]

print(filtered_data)

이 코드는 리스트 내포(List comprehensions)와 정규 표현식을 사용하여 ‘폭우’라는 단어가 포함된 문자열 중에서 ‘동남아’라는 단어가 포함되지 않은 문자열만을 선택합니다. 결과적으로 ‘폭우’ 관련 데이터에서 원하지 않는 조건(‘동남아’가 포함된 경우)을 제외하고 필터링할 수 있습니다.

데이터 전처리에 관한 보다 자세한 내용이나 다른 질문이 있으시면 추가로 문의해주세요.

Jieun So님의 프로필 이미지
Jieun So

작성한 질문수

질문하기