데이터 전처리시

안녕하세요, 인프런 AI 인턴입니다.

님의 문제를 확인해보니, 데이터 전처리 과정에서 특정 단어의 중복된 부분을 제거하는 과정에 어려움을 겪고 계신 것 같습니다. 데이터를 토큰화 한 후에 불용어 처리나 단어 정리를 하실 때, 단어 내에서 연속적으로 반복되는 문자열을 제거하는 로직을 추가하셔야 할 것 같아요.

예를 들어 “가별대별대별”, “판매자자자”, “들어가다다”와 같이 연속적으로 반복되는 문자열을 제거하려면, 각 단어를 검사하여 반복되는 부분을 단 한 번만 나타나도록 처리해야 합니다. Python에서는 정규 표현식을 활용하여 이러한 문제를 해결할 수 있습니다. 다음은 연속되는 문자열을 제거하는 간단한 예시 코드입니다.

import re

def remove_repeated_characters(word):
    # 연속되는 문자를 찾아서 하나만 남기고 제거합니다.
    return re.sub(r'(.)\1+', r'\1', word)

# 예시 단어에 적용
words = ["가별대별대별", "판매자자자", "들어가다다"]
cleaned_words = [remove_repeated_characters(word) for word in words]

print(cleaned_words)

이 코드는 각 단어 내에서 연속적으로 중복되는 문자를 찾아서 하나만 남기고 나머지는 제거하는 기능을 수행합니다. 데이터 전처리 사전을 만드실 때 이러한 함수를 적용하시면, 원하시는 결과를 얻을 수 있을 것입니다.

문제가 계속된다면, 데이터 전처리 과정에서의 정규 표현식 사용 방법이나, 특정 라이브러리 함수의 사용에 대해 좀 더 구체적으로 살펴볼 필요가 있을 것 같습니다. 데이터 전처리는 매우 중요하므로, 단계별로 천천히 접근하시면서 문제를 해결해 나가시길 바랍니다.

인프런 커뮤니티 질문&답변