묻고 답해요
150만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
순위 정보를
불러오고 있어요
-
해결됨[파이토치] 실전 인공지능으로 이어지는 딥러닝 - 기초부터 논문 구현까지
data의 gpu처리 질문
cnn에서는 다음과 같이 dataloader로 부터 얻은 data를 gpu로 변경 했습니다. seq, target = data[0].to(device),data[1].to(device),하지만 RNN에서는 다음과 같이 cpu로 처리 합니다. 이유가 무엇 인가요?? seq, target = data
-
해결됨최신 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지
행렬 차원 수 질문
안녕하세요.'비전 트랜스포머-최신 모델' 강의 11:36 근처 슬라이드를 기준으로 질문드리겠습니다. (사실 그 이후부터 계속 지속적으로 차원 혼동이 있는 것 같아서, 하나를 기준삼아서 질문드리면 나머지가 저절로 해결될 것 같습니다.) p=(size of patch)로 정의를 하고 사진을 N개로 쪼갠다고 가정했을 때, 그것을 flatten시켜준 각각의 벡터들, (x_{p}^{i}, i=1,...,N)이라고 가정했을 때, 해당 벡터는 P^2*C 차원의 벡터들이 되는 거잖아요? 그렇다면, 그 N개의 벡터들을 concatenate하여 행렬 x_p를 구축했을 때, 그 차원은 (P^2*C) by N이 되어야 하는게 아닌가요? 이 이후부터 슬라이드에서는 가로와 세로가 뒤바뀌어 있는 것 같은데 뭐 실전에서는 transpose하면 되는 문제긴 하지만 나름대로 엄청나게 궁금해져서 질문을 드려봅니다. 설명을 해주신거나 그림을 그려주시는 것은 모두 x_{p}^{i}가 열벡터이고 concatenate를 하실 때 row-wise가 아니라 column-wise로 합치신 것 같아서 그렇게 생각이 들었습니다.
-
해결됨모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
autotrain로 fine tuning 후 embedding vector 구하는 방법이 있을까요?
안녕하세요. mistral 과 llama2를 사용해서 embedding vector를 통해 챗봇을 구현하고 있습니다. 기존 모델로 embedding vector를 구하면 답변 검색이 잘 되지 않아서 파인튜닝을 한 후에 embedding vector를 구하려고 합니다. 학습과정에서 알려주신 대로 mistral 과 llama2의 fine tuning을 완료 했습니다. fine tuning한 모델에서 generate는 잘 동작하나, embedding vector가 생성이 되질 않아 질문 드립니다. 기존 모델을 통한 임베딩 방식은 다음과 같습니다. seq_ids = tokenizer(text, return_tensors='pt')["input_ids"]embedding = model(seq_ids)["last_hidden_state"].mean(axis=[0,1]).detach().numpy()기존 원본 모델에서는 'last_hidden_state' 값을 통해서 계산하지만fine tuning한 모델에서는 'logits' 값만 존재 합니다. - 원본 모델 리턴값 : odict_keys(['last_hidden_state'])- fine tuning 모델 리턴값 : odict_keys(['logits']) 그래서 파인튜닝한 모델을 보면 Peft 와 Lora로 한번 레이어로 감싼 형태로 리턴되서 그럴꺼라 추측하는데요.기존 모델 MistralForCausalLM( (model): MistralModel( (embed_tokens): Embedding(46081, 4096, padding_idx=2) (layers): ModuleList( (0-31): 32 x MistralDecoderLayer( (self_attn): MistralAttention( (q_proj): Linear(in_features=4096, out_features=4096, bias=False) (k_proj): Linear(in_features=4096, out_features=1024, bias=False) (v_proj): Linear(in_features=4096, out_features=1024, bias=False) (o_proj): Linear(in_features=4096, out_features=4096, bias=False) (rotary_emb): MistralRotaryEmbedding() ) (mlp): MistralMLP( (gate_proj): Linear(in_features=4096, out_features=14336, bias=False) (up_proj): Linear(in_features=4096, out_features=14336, bias=False) (down_proj): Linear(in_features=14336, out_features=4096, bias=False) (act_fn): SiLUActivation() ) (input_layernorm): MistralRMSNorm() (post_attention_layernorm): MistralRMSNorm() ) ) (norm): MistralRMSNorm() ) (lm_head): Linear(in_features=4096, out_features=46081, bias=False) ) 파인튜닝한 모델 PeftModelForCausalLM( (base_model): LoraModel( (model): MistralForCausalLM( (model): MistralModel( (embed_tokens): Embedding(46081, 4096, padding_idx=2) (layers): ModuleList( (0-31): 32 x MistralDecoderLayer( (self_attn): MistralAttention( (q_proj): Linear4bit( in_features=4096, out_features=4096, bias=False (lora_dropout): ModuleDict( (default): Dropout(p=0.05, inplace=False) ) (lora_A): ModuleDict( (default): Linear(in_features=4096, out_features=16, bias=False) ) (lora_B): ModuleDict( (default): Linear(in_features=16, out_features=4096, bias=False) ) (lora_embedding_A): ParameterDict() (lora_embedding_B): ParameterDict() ) (k_proj): Linear4bit(in_features=4096, out_features=1024, bias=False) (v_proj): Linear4bit( in_features=4096, out_features=1024, bias=False (lora_dropout): ModuleDict( (default): Dropout(p=0.05, inplace=False) ) (lora_A): ModuleDict( (default): Linear(in_features=4096, out_features=16, bias=False) ) (lora_B): ModuleDict( (default): Linear(in_features=16, out_features=1024, bias=False) ) (lora_embedding_A): ParameterDict() (lora_embedding_B): ParameterDict() ) (o_proj): Linear4bit(in_features=4096, out_features=4096, bias=False) (rotary_emb): MistralRotaryEmbedding() ) (mlp): MistralMLP( (gate_proj): Linear4bit(in_features=4096, out_features=14336, bias=False) (up_proj): Linear4bit(in_features=4096, out_features=14336, bias=False) (down_proj): Linear4bit(in_features=14336, out_features=4096, bias=False) (act_fn): SiLUActivation() ) (input_layernorm): MistralRMSNorm() (post_attention_layernorm): MistralRMSNorm() ) ) (norm): MistralRMSNorm() ) (lm_head): Linear(in_features=4096, out_features=46081, bias=False) ) ) ) fine tuning을 한 모델에서는 embedding vector 를 구하는게 불가능한건가요? +추가 model.merge_and_unload() 를 써봤지만 소용없었습니다.
-
해결됨[파이토치] 실전 인공지능으로 이어지는 딥러닝 - 기초부터 논문 구현까지
nn.Linear(1024, 10) 관련 질문드립니다.
안녕하세요! 수업중 궁금한 부분이 있어 문의 드립니다. self.encoder = nn.Sequential( nn.Conv2d(1, k, 3, stride=2), # 흑백 이미지로 체널이 1개, 나머지는 임의로 설정 nn.ReLU(), nn.Conv2d(k, 2*k, 3, stride=2), nn.ReLU(), nn.Conv2d(2*k, 4*k, 3, stride=1), nn.ReLU(), Flatten(), nn.Linear(1024, 10), nn.ReLU() nn.Linear(1024, 10) 이 부분에서, MNIST의 경우 미리 계산하면 1024가 나온다고 말씀 주셨는데요, 어떻게 계산해야 하는건지 알 수 있을까요? 또한, 이 수치를 코드 작성자가 꼭 계산해서 넣어줘야 하는지도 궁금합니다! 크기(1024)를 코드로 출력해서 확인해 보는 방법이나, 저 부분에 1024 크기가 계산되어 들어가도록 코드를 작성할 수도 있을까요?
-
해결됨[파이토치] 실전 인공지능으로 이어지는 딥러닝 - 기초부터 논문 구현까지
학습과 평가시 Loss 함수가 다른 이유
학습 할때는 MSE를 쓰고 평가 할때는 RMSE를 쓰는 이유가 있을까요??
-
해결됨[파이토치] 실전 인공지능으로 이어지는 딥러닝 - 기초부터 논문 구현까지
전처리 관련해서 질문 있습니다.
Detection 모델 같은 경우에는 라벨에 좌표가 들어 있습니다.Transform을 통해서 crop이나 rotate 같은 행위를 했을때 좌표도 변경이 되어야 하는데요 이런경우에 대한 해결책도 torch가 제공을 해주나요?
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
autotrain advanced 질문
autotrain advanced 사용시 --use_peft 옵션을 사용하면 어떤 peft 방식을 사용하게 되는건가요?autotrain advanced 사용시 LoRA, Prefix Tunning 등 특정 방식으로 학습하도록 선택이 가능한가요?autotrain advanced에서 --use_peft 등 parameter 값들에 대한 사용법이나 정보를 어디서 얻을 수 있나요? document 페이지를 찾아보려고 하는데 내용이 잘 없는것같아서요.autotrain advanced는 유료인가요? 이런 페이지를 봤습니다. https://huggingface.co/docs/autotrain/cost
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
Part2 강의 주제 질문있습니다.
안녕하세요, 신규 오픈돈 part2 수강고민중인 학생입니다.혹시 해당 강의가 한국어 기반의 LLM 일까요? (예, 영어가 아닌 한국어 기반 RAG,document)
-
해결됨최신 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지
Self Attention 질문 있습니다.
1.q와 k를 내적 하는 이유가 궁금합니다. 이는 입력의 유사도 행렬을 얻기 위함으로 알고 있습니다. 그렇다면 q와 k가 아닌 q와 q의 트랜스포즈로 내적하면 안되는걸까요?음 ...업데이트 할때 q와 k가 비슷하게 학습되었다는 가정을 가지고 내적 한걸까요?2.그리고 Multi Head와 그냥 Self attention의 차이가 궁금합니다.별도의 파라미터로 학습되기때문에 하나일때보다 많은 관점이 녹아있다고 생각하면 될까요?3.다른 댓글에서 코드A@V가 리니어 라고 하셨는데요PPT에서는 SA(z)=Av와 [SA1(z)...]Umsa가 따로 있습니다. 코드에서는 A@V만 있는데 어떻게 연결지어서 봐야 할지 잘 모르겠습니다.
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
Llama2 학습시 일반 질문 답변
Llama2 학습시 일반 질문 답변 관련 해서 문의드립니다. 이번강의에서 Llama2를 파인튜닝하는것 으로 알고있는데,기본적으로 학습되어있는 모델을 추가 정보를 넣어준다는 개념으로 알고 있었습니다. 결과 테스트시, 20문장 외엔 어떠한 답변도 못하는것을 확인 했는데, 저희가 사용한 모델(TinyPixel/Llama-2-7B-bf16-sharded)이 정보도 가지고 있지않아서그런건가요? 기본적인 대화가 가능한 모델은 어떤게 있을까요?
-
미해결[Pytorch] 파이토치를 활용한 딥러닝 모델 구축
IMDBDataset 파일 다운로드가 안되는데 어떻게 받을 수 있을까요?
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 안녕하세요.IMDBDataset 파일 다운로드가 안되는데 어떻게 받을 수 있을까요? > !gdown https://drive.google.com/uc?id=1RFs-jV18dy9I3cWQ2M80kHfON-fDCerg ------------------------------------------- Access denied with the following error: Cannot retrieve the public link of the file. You may need to change the permission to 'Anyone with the link', or have had many accesses. You may still be able to access the file from the browser: https://drive.google.com/uc?id=1RFs-jV18dy9I3cWQ2M80kHfON-fDCerg
-
해결됨처음하는 딥러닝과 파이토치(Pytorch) 부트캠프 (쉽게! 기본부터 챗GPT 핵심 트랜스포머까지) [데이터분석/과학 Part3]
실제 캐글(Kaggle) 문제 풀고, 제출해보며, 성능 개선 기법 익히기5 강의에서 질문입니다
실제 캐글(Kaggle) 문제 풀고, 제출해보며, 성능 개선 기법 익히기5 강의에서 질문입니다.해당 강의 2:50 부분부터 Evaluation 코드에 관해 설명을 해주셨는데요,with torch.no_grad() 안쪽의 코드에서는 with torch.no_grad(): model.eval() ret = None for img, fileid in data_loader: img = img.to(device) pred = model(img) ids += list(fileid) # ex) [1, 2] + [3, 4] -> [1, 2, 3, 4] if ret is None: ret = pred.cpu().numpy() else: ret = np.vstack([ret, pred.cpu().numpy()]) return ret, ids pred.cpu().numpy()와 같이detach()를 따로 사용하지 않은 걸 볼 수 있었습니다. detach()의 사용에 관해서 찾아보니, with torch.no_grad() 블록은 역전파(gradient 계산)를 비활성화 하므로,pred는 gradient 계산과 관련이 없기에, detach()를 따로 호출하지 않고 numpy 배열로 변환할 수 있다 라는 내용을 찾을 수 있었습니다. 그 전에 수업 시간에 보여주신 코드에서는 model.eval() with torch.no_grad(): for x_minibatch in x_test_batch_list: y_minibatch_pred = model(x_minibatch) print(len(y_minibatch_pred), y_minibatch_pred.shape) y_pred_list.extend(y_minibatch_pred.squeeze().detach().tolist())이와 같이with torch.no_grad() 안에서도 detach()를 사용하신 코드들을 볼 수 있었는데요,Evaluation 단계에서 detach()의 사용이 필수적인 것인지 여쭙고 싶습니다!
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
에러 정보 문의드립니다.
colab무료 자원이 없어서, jupyter notebook환경에서 fine-turning을 진행하는데 CUDA Version: 12.2 에서 autotrain llm시libcusparse.so.11: cannot open shared object file: No such file or directory 에러가 발생하고 있습니다. 혹시 해결방법을 조언받을수 있을까요?
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
PEFT 실습 4에서 training시작할때 out of memory가 발생합니다.
PEFT 실습 4에서 training시작할때 out of memory가 발생합니다.
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
문제에 봉착했습니다!!도움 부탁드립니다.
openai.FineTuningJob.create(training_file="file-G8e3McuXFWVZnm1XSNB-----", model="gpt-3.5-turbo")위의 코드에 대해서 아래와 같이 메세지가 나오면서 실행이 안됩니다 ㅠㅜ { "name": "AttributeError", "message": "module 'openai' has no attribute 'FineTuningJob'", "stack": "--------------------------------------------------------------------------- AttributeError Traceback (most recent call last) /Users/loveyourself/dev/LLM/chatBot/worKBee/worKBee.ipynb 셀 3 line 1 ----> <a href='vscode-notebook-cell:/Users/loveyourself/dev/LLM/chatBot/worKBee/worKBee.ipynb#W3sZmlsZQ%3D%3D?line=0'>1</a> openai.FineTuningJob.create(training_file=\"file-G8e3McuXFWVZnm1XSNBtMrmA\", model=\"gpt-3.5-turbo\") AttributeError: module 'openai' has no attribute 'FineTuningJob'" } FineTuningJob 이 없다고 하는데 어떻게 해야하나요..
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
Korquad 데이터셋
강의잘듣고있습니다.Korquad데이터셋을 나만의 데이터로 만드는 쉬운 방법이 있나요? 하나하나 직접 작성해야되는건지 문의드립니다. 또한 나만의 데이터는 gpt를 통해서 학습 등이 어려워서 추가데이터를 만들때 사용을 못할 것 같은데 방법이 있는지 문의드립니다
-
해결됨처음하는 딥러닝과 파이토치(Pytorch) 부트캠프 (쉽게! 기본부터 챗GPT 핵심 트랜스포머까지) [데이터분석/과학 Part3]
실제 캐글 문제 풀고 제출해보며 성능 개선 기법 익히기8 강의에서 질문입니다
실제 캐글 문제 풀고 제출해보며 성능 개선 기법 익히기8 강의의 3:20 부분에서 궁금한 점이 있어 질문 올립니다. 해당 코드에서는 저장된 model_efficientnet-b7_without_scheduler_adam_1e5_epoch20.pth 모델을 load할 때, model_efficientb7 = deepcopy(model) PATH = '/content/drive/MyDrive/Colab Notebooks/Dataset/Dogs vs Cats/' model_efficientb7.load_state_dict(torch.load(PATH + 'model_efficientnet-b7_without_scheduler_adam_1e5_epoch20.pth'))다음과 같이 model의 뼈대를 다시 구성한 후, load_state_dict 메소드를 이용하여 가중치 값을 업데이트 하였습니다. 이때, model_efficientb7 = deepcopy(model) 와 같이 그냥 model 객체가 아닌, deepcopy(model)을 사용한 특별한 이유가 있는지 궁금합니다. deepcopy를 사용할 경우, 'model_efficientb7'과 'model' 객체는 서로 독립적인 객체로 유지된다는 점은 파악할 수 있었는데요,model_efficientb7에 적용되는 변화와는 별개로 model 객체 자체를 유지하려는 의도에서 사용한 것이라고 보면 되는지 여쭙고 싶습니다!
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
llama2 모델리뷰 슬라이드는 어디서 다운받을 수 있을까요?
llama2 모델리뷰 슬라이드는 어디서 다운받을 수 있을까요? 첨부파일에는 03 폴더가 없네요
-
해결됨강화학습 입문에서 Deep Q-learning/Policy Gradient까지
강의코드 110_basic_operations_for ... 코드 실행 시 문제
안녕하세요. 강사님. 강의 잘 들었습니다. 한번에 이해가 안되서 여러번 복습해야 할 것 같습니다. 다름이 아니고, 마지막 Deep Neural Network 이해를 돕기 위한 코드 자료에서 에러가 발생합니다.강의자료는 110_basic_operations_for_Function_Approximation 입니다. states_v 출력부터 에러가 나는데, 코드를 보면 앞에서 states_v를 선언하는 내용이 없습니다. 코드 내용 확인바랍니다. 감사합니다.
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
Gpt3.5 FineTuning 을 보고 문의 드립니다.
안녕하세요. 강의 잘 보고 있습니다.이렇게 좋은 강의를 제공해 주셔서 감사합니다. 2가지 케이스에 대한 문의 사항이 있습니다.이런 경우에는 어떻게 해야 하는건가요?가령 예를 들어서 gpt api 를 이용해서 사내 업무에 특화된 서비스를 개발하려고 합니다.첫번째 케이스는 회사의 업무를 만드는 케이스입니다.1. 가령 인사업무, 총무업무,회계업무 등의 다양한 업무가 있다면 이런것들은 인사,총무,회계 등의 형태로 모델을 다 다르게 만들고 질문의 영역이 들어올 때 이 문제가 인사인지, 총무인지,회계인지 등으로 먼저 파악을 하고 질문에 대해서 각각 모델을 지정해서 응답을 하도록 만들어야 하는지아니면 회사전체의 모든 업무를 담을 수 있는 하나의 모델을 만들고 거기에 fine tuning 을 시켜야 하는지요.?이 경우에 회사에서 사용하는 api 의 경우는 finetuning 된 모델을 사용하도록 지정을 해도 되나요? 그러니까 제가 fine tuning 한 모델을 지정을 하면 그것만 답변을 잘하고 다른것들은 답변을 잘 못하게 되나요?두번째 케이스는 개발업무를 assist 하는 케이스를 만들고 싶은데요 1. 이런 경우에 db 테이블 정보를 fine tuning 의 형태로 학습 시키는 것이 가능한가요?가령 주요 테이블 정보를 fine tuning 시키고 query 를 만들때 fine tuning 된 테이블 정보를 이용해서 query 를 만든다거나 하는 형태가 가능할까요? 바쁘실텐데 시간내셔 답변주시면 정말 많은 도움 될듯합니다. 감사합니다. ^^
주간 인기글
순위 정보를
불러오고 있어요