고스트 어텐션

모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기

Llama 2 모델 논문 리뷰 - Fine-tuning

작성

208

고스트 어텐션

한국어로 말해라, 아인슈타인처럼 말해라 와 같이 모델이 일관성을 유지해야 하는 말에 대해 자꾸 몇번 더 대화를 나누면 일관성을 잃어버려서 고스트 어텐션을 적용했다

고스트 어텐션은

인물: 아인슈타인

언어: 한국어

와같이 저장하는데 이걸 이용하는 방법은 잘 모르겠다 어디서 이용되는건지 모르겠습니다.

제가 생각했을때 이용될 수 있는 방법은

이런 파라미터를 이후에 오는 모든 파라미터앞에 붙인것 처럼 입력된다--> 이건 위에서 대조한 예시로 나온것 같은데 이러면 둘이 충돌이 일어날 상황이 생겨서 안한다고 한것 같고
인물, 언어 와 같은 카테고리를 적용한 것을 미리 파인튜닝 해둔 후 위의 프롬프트가 나오면 그 파인튜닝 된 것을 불러온다? --> 이건 너무 경우도 많고 복잡할 것 같습니다. 선생님이 간단하다고 해서 이것도 아닌것 같습니다.

고스트 어텐션이 실제로 gpts를 이용할때 프롬프트로 저장, 고정이 되어있는 부분을 말하는것 같은데 이걸 어떻게 이용하는지 궁금합니다

딥러닝 pytorch chatgpt llm llama

답변 2

AISchool

지식공유자

안녕하세요~. 반갑습니다.

먼저 제가 질문하신바를 정확히 이해한건지 헷갈리는데 프롬프트 입력시에 고스트 어텐션을 어떻게 사용할 수 있느냐에 대한 질문이신건가요?

고스트 어텐션은 저희(=Llama 2 모델 이용자)가 사용하는 것이 아니라 Meta의 Llama 2 모델 연구자들이 Llama 2 모델을 SFT(Supervised Fine-Tuning)으로 학습시킬때 멀티 턴에 걸친 일관성을 유지시키기 위해서 적용한 학습 테크닉입니다.

따라서 시스템 메세지처럼 저희가 입력해서 사용하는 것은 아니고 Llama 2 모델을 SFT할때 이미 적용되어진 기법입니다.

좋은 하루되세요.

감사합니다.

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

님의 질문에 대한 정확한 답변을 드리기 위해서는 먼저 고스트 어텐션(Ghost Attention)에 대한 개념을 명확히 해야 할 것 같아요. 하지만 정보 중에 고스트 어텐션에 대한 설명이나 어떻게 적용되는지에 대한 구체적인 설명이 포함되어 있지 않습니다. 고스트 어텐션은 특정 조건이나 상황을 모델에 고정시켜 일관된 출력을 유도하는 기법으로 보이는데, 이 기법을 어떻게 구현하고 이용하는지에 대한 자세한 정보가 필요할 것 같습니다.

고스트 어텐션에 대해 좀 더 구체적인 정보나 구현 방법을 알고 싶으시다면, 해당 개념을 다루는 논문 검색이나 자연어 처리나 기계 학습 관련 커뮤니티에서 직접 문의를 해보시는 것도 좋은 방법일 것입니다. 또한, 특정 기법을 모델에 적용하는 것이 복잡할 수 있으므로 마지막으로는 직접 실험을 해보며 최적의 방법을 찾는 것이 중요합니다.

고스트 어텐션이 어떻게 구현되고, 특히 Large Language Model(LM) 같은 더 큰 모델에서 어떻게 효과적으로 이용될 수 있는지 자세한 정보를 찾아보시는 것을 추천드립니다.

인프런 커뮤니티 질문&답변

고스트 어텐션