작성
·
73
0
선생님 안녕하세요, LLM 모델의 Tool calling 성능비교를 해봤는데요.
# 도구 호출이 필요한 LLM 호출을 수행
query = "스테이크와 어울리는 와인을 추천해주세요."
ai_msg = llm_with_tools.invoke(query)
아래 2개 LLM 모델로 성능비교를 해봤습니다. 그런데 (2) 모델의 경우 Content 와 tool_calls 모두 나오는데요. 그러면 (1), (2) 모델 중에 무엇이 더 좋은 성능인가요? 그리고 Content 와 tool_calls 동시에 나오는 경우는 왜 그런건가요?
(1) gpt-4o-2024-05-13
----------------------------------------------------------------------------------------------------
''
----------------------------------------------------------------------------------------------------
[{'args': {'query': 'best wine to pair with steak'},
'id': 'call_p7PJFCZUWXEwyCmK4nzLjx9g',
'name': 'search_web',
'type': 'tool_call'}]
----------------------------------------------------------------------------------------------------
(2) claude-3-7-sonnet-20250219
----------------------------------------------------------------------------------------------------
[{'text': '스테이크와 어울리는 와인에 대한 정보를 찾아보겠습니다.', 'type': 'text'},
{'id': 'toolu_01Uc2BwXXyW26n7L78zZ6wGf',
'input': {'query': '스테이크와 어울리는 와인 추천'},
'name': 'search_web',
'type': 'tool_use'}]
----------------------------------------------------------------------------------------------------
[{'args': {'query': '스테이크와 어울리는 와인 추천'},
'id': 'toolu_01Uc2BwXXyW26n7L78zZ6wGf',
'name': 'search_web',
'type': 'tool_call'}]
----------------------------------------------------------------------------------------------------
답변 1
0
안녕하세요. 판다스 스튜디오입니다.
(1) gpt-4o-2024-05-13와 (2) claude-3-7-sonnet-20250219 모두 도구 호출 기능을 지원합니다.
실행 결과만 보면 성능에 큰 차이는 없어 보입니다.
전자는 OpenAI, 후자는 Anthropic에서 제공하고 있고 공급자에 따라 구현에 조금 차이가 있습니다.
두 모델 모두 비슷한 성능으로 알려져 있으나, 프롬프트와 상황에 따라 실제 성능에는 차이가 있을 수 밖에 없습니다. 모델 성능에 대한 평가 과정이 반드시 필요한 이유입니다.