묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결예제로 배우는 딥러닝 자연어 처리 입문 NLP with TensorFlow - RNN부터 BERT까지
Bert 관련 문의
Bert 분류 모델을 생성 후에 해당 모델을 가지고 서비스를 하고 있습니다. 몇 가지 테스트하다 보니, 동일 input에 대해 해당 모델의 예측값이 계속 변하는거 같네요. transformer 모델은 모델이 생성된 이후에도 지속적으로 모델이 업데이트가 되게 되나요?혹시 업데이트를 못 하게 설정도 가능한지 문의드립니다.
-
미해결딥러닝을 활용한 자연어 처리 (NLP) 과정 (기초부터 ChatGPT/생성 모델까지)
030_IMDB_movie_reviews.ipynb 파일에서 사용하는 train sentences 와 test sentences는 왜 둘다 25000으로 갯수가 똑같나요?
안녕하세요. 수업 잘 듣고 있습니다. Sentiment analysis - IMDB - part1 수업자료에서 질문이 있습니다. 지금까지 머신러닝을 배워 일하다가 llm 모델을 사용하기 시작해서 수업을 듣고있는데, 보통 머신러닝에서는 training data의 비중이 test data보다 크잖아요. (0.75:0.25 / 0.8:0.2 등등). 그런데 이 파일에서 training sentence와 test sentence의 크기가 똑같던데, 대부분의 경우 같은건가요? 그렇다면 이유는 뭔가요?
-
미해결딥러닝을 활용한 자연어 처리 (NLP) 과정 (기초부터 ChatGPT/생성 모델까지)
Simple Chatbot 만들기 질문입니다.
안녕하세요, 'Simple Chatbot 만들기' 관련하여 진행하다가 문의드립니다.새롭게 최신 학습용 zip 파일을 다운받아서, 콜랩에서 해당 실습 파일 올리고, 바로 전체 셀 실행 테스트 해도,질문에 대한 답변이, 계속 같은 답변으로만 나오고 있는 증상입니다.sentencepiece 같은 모듈 설치시, 시간이 지나, 버전 차이로 인한 문제일까요?이상입니다.
-
미해결차량 번호판 인식 프로젝트와 TensorFlow로 배우는 딥러닝 영상인식 올인원
오토인코더 sigmoid
오토인코더 예시에서 ReLu대신에 sigmoid를 사용하는 이유는 무엇인가요?
-
미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
word2vec 질문
for review in train["review"]: sentences += KaggleWord2VecUtility.review_to_sentences(review, remove_stopwords=False) for review in unlabeled_train["review"]: sentences += KaggleWord2VecUtility.review_to_sentences(review, remove_stopwords=False)섹션2 word2vec에서는 다음과 같이 train data와 unlabeled train data를 합쳐서 사용하고 있습니다. 각각 일부를 출력했을때 서로 다른 데이터로 보입니다. 이 데이터들을 사용해서 word2vec을 만들어주는데 word2vec에서 사용하는 단어의 개수를 늘려주기 위함인가요?
-
미해결딥러닝을 활용한 자연어 처리 (NLP) 과정 (기초부터 ChatGPT/생성 모델까지)
트랜스포머 추론 단계에서 질문드립니다.
predictions, _ = self.transformer([encoder_input, output], training=False) # seq_len dimension에서 last token을 선택합니다. predictions = predictions[:, -1:, :] # (batch_size, 1, vocab_size) predicted_id = tf.argmax(predictions, axis=-1)트랜스포머 최종 결과값으로batch x seq_len x vocab_size 로 단어의 갯수만큼 확률 분포를 구하는 것을 이해했습니다.그리고 추론단계의 번역이므로 1개의 단어씩 output으로 뽑아야 한다는 것도 알겠는데요.위 코드에서 생성을 위해 seq_len dimension에서 last token을 선택하는 이유(predictions[:, -1:, :] 부분) 는 무엇인가요?
-
미해결딥러닝을 활용한 자연어 처리 (NLP) 과정 (기초부터 ChatGPT/생성 모델까지)
Decoder 전체(10) 부분에서 attn_weight output shape 관련 질문 드립니다.
sample_decoder = Decoder(num_layers=2, d_model=512, num_heads=8, dff=2048, target_vocab_size=8000, maximum_position_encoding=5000) x = tf.random.uniform((64, 26), dtype=tf.int64, minval=0, maxval=200) output, attn = sample_decoder(x, enc_output=sample_encoder_output, training=False, look_ahead_mask=None, padding_mask=None) output.shape, attn['decoder_layer2_block2'].shape위 코드 결과 output은 (TensorShape([64, 26, 512]), TensorShape([64, 8, 26, 62]))인데요.atten output size 64 x 8 x 26 x 62는batch x head num x seq_len x depth(=len_k) 의 사이즈일것 같은데요.depth의 경우, d_model(512) / num_head(8) = 64 가 되야하는게 아닌지요? 62인 이유가 궁금합니다.
-
미해결딥러닝을 활용한 자연어 처리 (NLP) 과정 (기초부터 ChatGPT/생성 모델까지)
트랜스포머 feed forward network 보다가 질문드립니다.
제가 아직 word embedding 이 NN으로 들어갈 때 어떻게 학습하는지 개념이 헷갈리는것 같습니다. 먼저 기초적인 질문이라 죄송합니다 ^^;;교재에서 Position-wise Feed Forward NN는 단어별로 별도로 적용된다고 설명해주셨는데요!예를 들어, 강의 교재의 10(=seq_len=단어의 갯수) x 512(=d model) 이 dff가 2048인 Position-wise Feed Forward NN에 input으로 들어오면,첫번째 단어(1x512 vector)가 feed forward nn에 들어와서 학습 후 동일한 nn에 두번째 단어(1x512 vector)가 들어와서 학습...열번째 단어도 동일한 과정으로 feed forward nn이 학습되는 개념이라고 이해하면 될까요?항상 상세한 답변에 감사드립니다.
-
미해결딥러닝을 활용한 자연어 처리 (NLP) 과정 (기초부터 ChatGPT/생성 모델까지)
LSTM Decoder 모델에서 train 모델과 inference 모델 관련 질문드립니다.
# decoder 는 [h, c] 를 initial state 로 사용 decoder_inputs_ = Input(shape=(max_len_kor,), name="Decoder_Input") # decoder word embedding 은 pre-trained vector 를 사용 않음 decoder_embedding = Embedding(num_words_kor, EMBEDDING_DIM) decoder_inputs_x = decoder_embedding(decoder_inputs_)Q 1-1. training state에서는 위와 같이 decoder input이 한 문장의 seq를 모두 input으로 넣어주는데, 이는 teacher forcing을 위해 매 step 마다 seq 데이터(한 문장 데이터)를 input으로 모두 사용하기 때문인 것인가요? decoder_inputs_single = Input(shape=(1,), name='Decoder_input') x = decoder_embedding(decoder_inputs_single)Q 1-2. inference state에서는 위와 같이 input size가 1인 이유는, 매번 step마다 하나의 단어(번역할 단어=최초 <sos>, 그 후부터 이전 step의 output)만 input으로 사용하기 때문인가요? Q2. LSTM encoder의 경우 encoder output, h, c를 최종 산출물로 리턴해주는데요. h와 c가 context vector로 decoder의 input으로 입력된다고 이해하였습니다. 그렇다면, 번역 모델에서 encoder output은 어떤 값을 갖고 있으며 어떤 용도로 사용될 수 있을까요? 감사합니다!
-
미해결딥러닝을 활용한 자연어 처리 (NLP) 과정 (기초부터 ChatGPT/생성 모델까지)
Decoder 의 Output Probablilities 계산하는 부분 RNN과 관련하여 질문드립니다.
RNN Decoder의 경우, time step 별로 해당 input 단어에 대한 vocab 사전의 확률분포가 나오면, argmax 하거나, beam searching 하여 output을 최종 산출한다는 것으로 이해했었습니다.강의에서 트랜스포머 Decoder의 경우도 개념은 똑같다고 하셨는데, 트랜스포머도 time step 이 있는건가요? 예를들어,'I love you' 를 '난 널 사랑해' 로 번역할 때,decoder에 attention계산과정 및 Feed Forward 계산과정을 거쳐 나온 최종 attetion vector (seq_len x d model 차원) 가 첫번째 단어 '난' 부터 시작해서 greedy 하게, 혹은 beam search 전략 통하여 확률분포를 구한다고 보면 될까요?
-
미해결딥러닝을 활용한 자연어 처리 (NLP) 과정 (기초부터 ChatGPT/생성 모델까지)
트랜스포머 Encoder Output이 Decoder Input으로 들어갈 때 관련 질문 드립니다.
Encoder의 Output은 attention vector (seq_len x d model) 하나가 나오는데, Decoder의 인풋으로 들어갈 땐 이를 encoder에서 배웠던 Q, K, V 로 나눈뒤, 이중에서 K, V 가 Decoder의 Encoder-Decoder attention layer에서의 K, V로 사용된다고 보면 될까요?
-
미해결딥러닝을 활용한 자연어 처리 (NLP) 과정 (기초부터 ChatGPT/생성 모델까지)
embedding이 뭔가요?
sentiment analysis 이론 강의까지 들었는데, embedding 의 기능만 설명하시고 embedding이 뭔지에 대한 설명이 없어서 이해하기 힘들어요. embedding이 뭔지 개념 설명좀 부탁드립니다
-
미해결딥러닝을 활용한 자연어 처리 (NLP) 과정 (기초부터 ChatGPT/생성 모델까지)
LSTM 모델에서 return_state를 False로 놨을때 출력되는 o,h,c
LSTM 모델에서 return_state를 False로 놨을때 출력되는 o,h,c에 대한 질문이 있습니다..o는 output, h는 hidden layer 맞나요? 그리고 c는 뭔가요?
-
미해결딥러닝을 활용한 자연어 처리 (NLP) 과정 (기초부터 ChatGPT/생성 모델까지)
감성 분석 실습 모델 만들때 질문 드립니다!
다시 한 번 좋은 강의 너무 감사합니다 :)회사에서 NLP로 업무가 바뀌며 열공하느라 질문이 많네요..^^; 030_IMDB_movie_reviews.ipynb 의 아래 코드에서model = Sequential([ Embedding(vocab_size+1, 64), Bidirectional(tf.keras.layers.LSTM(64)), Dense(64, activation='relu'), Dense(1, activation='sigmoid') ])embedding의 차원 64와 LSTM hidden size 64와 Dense의 64는 항상 같아야 되는게 맞나요? tf.keras.layers.LSTM(64))위 코드를 해석해보면, LSTM의 input에 대한 weight 개수가 64개 인데 Dense(64, activation='relu'),그 weight들을 fully connected 뉴런들로 덧붙여주겠다는 뜻으로 해석하면 될까요?
-
미해결딥러닝을 활용한 자연어 처리 (NLP) 과정 (기초부터 ChatGPT/생성 모델까지)
구글 코랩에서 sklearn version 확인하는 법?
안녕하세요, 강의에서 사용하시는 구글 코랩에서 sklearn 모듈의 버전을 확인하고 싶은데요, 보통 사용하는 sklearn.__version__ 이나 import 한 모듈 이것저것 시도해봐도 전부 AttributeError: type object 'CountVectorizer' has no attribute '__version__'나 NameError: name 'sklearn' is not defined 라는 오류가 뜹니다 (pd.__version__은 잘 작동) sklearn 버전은 어떻게 확인해야 하나요? 그리고 왜 sklearn은 정의되지 않았다는 오류가 뜨는건가요?
-
미해결딥러닝을 활용한 자연어 처리 (NLP) 과정 (기초부터 ChatGPT/생성 모델까지)
word embedding 훈련 예시 관련 질문 드립니다.
예를들어 skip-gram(window size 2) 에서I love king of Korea이라는 문장을 워드임베딩 하게 되면,'king', 'I love', 'of Korea' 5개의 단어 중 3차원(I love, king, of Korea) 의 벡터(ex. <0.3, 0.5, 0.1>) 가 되는건가요?차원은 어떻게 결정하는 것이고, 워드 임베딩 학습은 어떤식으로 진행되는지 예시를 설명해주실 수 있을까요?미리 감사합니다!
-
미해결딥러닝을 활용한 자연어 처리 (NLP) 과정 (기초부터 ChatGPT/생성 모델까지)
Beam-search 전략에서 joint probability를 만드는 문제 질문 드립니다.
안녕하세요.Beam-search 전략에서 joint probability를 만드는 문제 질문 드립니다.학습하면서 joint 확률분포를 여러 경우의 수에 대해 미리 모두 만들어놓는 개념이라고 보면 되나요?예를들어,"I love you so much" 를"난 널 매우 사랑해" 로 번역할 때 I가 나왔을 때, '그는 매우' 나 '철수는 사과를' 이 나올 확률보다는 '난 널' 이라고 나올 확률이 제일 높도록 학습하는 개념인가요?좋은 강의 감사합니다.
-
미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
질문 드립니다
윈도우 사용자인데,%time clean_train_reviews = apply_by_multiprocessing(\ train['review'], review_to_words, workers=4) ,이 코드가 노트북이랑 데스크탑 둘다 몇 십분을 기다려도 실행되지 않아서, 무엇이 문제인지 알고 싶어서 문의드렸습니다.구글코랩말고, 제 로컬 환경에서 실행하고 싶어서요, 만약에 해결책이 없다면 환불을 하고 싶어요....ㅠ
-
미해결[NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리
%time clean_train_reviews = apply_by_multiprocessing(\ train['review'], review_to_words, workers=4)
%time clean_train_reviews = apply_by_multiprocessing(\ train['review'], review_to_words, workers=4) , 이 코드가, 1시간 동안 계속 실행 중만 나오고, 진행이 되지 않습니다. 혹시 문제를 알 수 있을까요?
-
미해결예제로 배우는 딥러닝 자연어 처리 입문 NLP with TensorFlow - RNN부터 BERT까지
코랩에서 실행이 안됩니다
코랩에서 import gluonnlp as nlp을 실행하면자꾸 이렇게 뜨는데해결방법이 있을까요??