LLM 모델의 Tool calling 성능비교 결과 문의

Question

선생님 안녕하세요, LLM 모델의 Tool calling 성능비교를 해봤는데요.

# 도구 호출이 필요한 LLM 호출을 수행
query = "스테이크와 어울리는 와인을 추천해주세요."
ai_msg = llm_with_tools.invoke(query)

아래 2개 LLM 모델로 성능비교를 해봤습니다. 그런데 (2) 모델의 경우 Content 와 tool_calls 모두 나오는데요. 그러면 (1), (2) 모델 중에 무엇이 더 좋은 성능인가요? 그리고 Content 와 tool_calls 동시에 나오는 경우는 왜 그런건가요?

(1) gpt-4o-2024-05-13

----------------------------------------------------------------------------------------------------

''

----------------------------------------------------------------------------------------------------

[{'args': {'query': 'best wine to pair with steak'},

'id': 'call_p7PJFCZUWXEwyCmK4nzLjx9g',

'name': 'search_web',

'type': 'tool_call'}]

----------------------------------------------------------------------------------------------------

(2) claude-3-7-sonnet-20250219

----------------------------------------------------------------------------------------------------

[{'text': '스테이크와 어울리는 와인에 대한 정보를 찾아보겠습니다.', 'type': 'text'},

{'id': 'toolu_01Uc2BwXXyW26n7L78zZ6wGf',

'input': {'query': '스테이크와 어울리는 와인 추천'},

'name': 'search_web',

'type': 'tool_use'}]

----------------------------------------------------------------------------------------------------

[{'args': {'query': '스테이크와 어울리는 와인 추천'},

'id': 'toolu_01Uc2BwXXyW26n7L78zZ6wGf',

'name': 'search_web',

'type': 'tool_call'}]

----------------------------------------------------------------------------------------------------

판다스 스튜디오 · Answer

안녕하세요. 판다스 스튜디오입니다.
(1) gpt-4o-2024-05-13와 (2) claude-3-7-sonnet-20250219 모두 도구 호출 기능을 지원합니다.
실행 결과만 보면 성능에 큰 차이는 없어 보입니다.

전자는 OpenAI, 후자는 Anthropic에서 제공하고 있고 공급자에 따라 구현에 조금 차이가 있습니다.
두 모델 모두 비슷한 성능으로 알려져 있으나, 프롬프트와 상황에 따라 실제 성능에는 차이가 있을 수 밖에 없습니다. 모델 성능에 대한 평가 과정이 반드시 필요한 이유입니다.

인프런 커뮤니티 질문&답변

LLM 모델의 Tool calling 성능비교 결과 문의