Dify에서 LLM 선택지

Claude, Gemini, OpenAI Ollama 비교

May 11, 2026

Contents

Dify는 이미 사용하고 계신 API 토큰이 있다면 연동만 하면 되어 매우 간편합니다.

하지만 Dify를 처음 사용해 보고 싶은 분들은 따로 API 토큰을 발급받아야 하는데, 추가 비용을 내야 한다면 API 비용을 더 지불할지, 아니면 로컬 모델을 써야 할지 고민이 될 수 있습니다.

LLM 모델의 선택은 정말 중요하다고 생각합니다. LLM의 성능이 곧 여러분이 만드신 챗플로우, 에이전트, 또는 RAG의 성능을 결정하기 때문입니다. 이번 글에서는 오픈소스 버전으로 사용할 수 있는 모델들의 성능과 Claude, Gemini 등 클라우드 모델의 성능을 비교해 보겠습니다.

모델 비교

먼저 대중적으로 사용되는 Gemini, Claude, GPT 대표 모델들을 살펴보겠습니다.

항목	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro	Claude Sonnet 4.6	GPT-5.4	Claude Haiku 4.5
개발사	OpenAI	Anthropic	Google	Anthropic	OpenAI	Anthropic
출시 시점	2026.04	2026.04	2026.02	2026.02	2026.03	2025.10
SWE-bench Verified	88.7%	87.6%	80.6%	79.6%	~80%	73.3%
SWE-bench Pro	58.6%	64.3%	54.2%	—	57.7%	39.5%
GPQA Diamond	93.6%	94.2%	94.3%	74.1%	92.8%	67.2%
Terminal-Bench 2.0	82.7% ⭐	69.4%	68.5%	59.1%	75.1%	—
OSWorld (컴퓨터 사용)	78.7%	78.0%	—	72.5%	75.0%	50.7%
MCP/Tool 오케스트레이션	75.3%	77.3% ⭐	69.2%	61.3%	68.1%	—
컨텍스트 창	1M	1M	1M	1M	1M	200K
가격 (입력 /1M)	$5.00	$5.00	$2.00	$3.00	$2.50	$1.00
가격 (출력 /1M)	$30.00	$25.00	$12.00	$15.00	$15.00	$5.00
한국어 품질	★★★★★	★★★★☆	★★★★★	★★★★☆	★★★★☆	★★★★☆
멀티모달	텍스트·이미지·오디오·영상	텍스트·이미지 (3.75MP)	텍스트·이미지·영상·오디오	텍스트·이미지	텍스트·이미지	텍스트·이미지
Dify Tool use 적합도	★★★★☆	★★★★★	★★★★☆	★★★★★	★★★★☆	★★★★☆

Gemini 2.5 Flash: 15 RPM, 약 1,000 req/일 무료
Gemini 2.5 Pro: 5 RPM, 약 100 req/일 무료
다음으로 로컬 모델을 비교해 보겠습니다.

항목	qwen3.6:35b	Qwen3 32B	Qwen3 8B	DeepSeek-R1 32B	Llama 4 Maverick	gemma4:31b	Gemma 3 27B
개발사	Alibaba	Alibaba	Alibaba	DeepSeek	Meta	Google	Google
파라미터	35B/3B (MoE)	32B	8B	32B (MoE)	400B+ (MoE)	31B	27B
VRAM 최소	20GB+	20GB+	8GB	20GB+	멀티 GPU	32GB	16GB+
권장 GPU	A100 40GB / RTX 4090	A100 40GB	RTX 3090/4090	A100 40GB	H100 × 2+	A100 40GB / RTX 4090 × 2	A100 40GB
컨텍스트 창	262K	128K	128K	64K	1M	256K	128K
한국어 품질	★★★★☆	★★★★★	★★★★☆	★★★☆☆	★★★☆☆	★★★★☆	★★★★☆
코딩 성능	★★★★☆	★★★★☆	★★★☆☆	★★★★☆	★★★★☆	★★★★☆	★★★☆☆
추론 (STEM)	★★★★☆	★★★★☆	★★★☆☆	★★★★★	★★★☆☆	★★★★☆	★★★☆☆
멀티모달	❌	❌	❌	❌	✅ 이미지	✅ 이미지	✅ 이미지
Thinking 모드	✅ 내장	✅ 내장	✅ 내장	✅ CoT	❌	✅ 내장	❌
라이선스	Apache 2.0	Apache 2.0	Apache 2.0	MIT	Llama 4 Commercial	Apache 2.0	Gemma
상업적 이용	✅ 자유	✅ 자유	✅ 자유	✅ 자유	⚠️ 조건부	✅ 자유	⚠️ 조건부
Ollama 설치 명령어	`ollama pull qwen3.6:35b`	`ollama pull qwen3:32b`	`ollama pull qwen3:8b`	`ollama pull deepseek-r1:32b`	별도 설정 필요	`ollama pull gemma4:31b`	`ollama pull gemma3:27b`

이처럼 모델별 성능은 다양합니다. 여러분의 사용 환경에 따라 선택하시면 됩니다.

예를 들어 폐쇄망 환경에서는 Qwen3.6:35B → Qwen3 32B → Qwen3 8B 순으로, 인터넷 환경에서는 Claude Opus 4.6 → Gemini 3.1 Pro → GPT-5.4 순으로 추천드립니다.

다만 로컬 모델은 서버 인프라 사양에 따라 실제 성능 차이가 크기 때문에, 완전 무료로 이용하고 싶은 분들께는 Gemini 2.5 Flash와 Gemini 2.5 Pro의 무료 일일 사용량이 개인 사용자 기준으로는 충분하다고 생각합니다.

무료 사용법

Gemini API 키 발급 → Dify 연동

실제 서버에서 올라마(Qwen3.6) 모델 속도 벤치마크 결과

Dell pro max gb10 기준 Qwen3.6 35b>Qwen3.5 122b> Gemma4 31b결과 입니다. 이 모델들은 MoE 방식으로 작동해 빠른 추론 속도가 강점 입니다.

이미지 분석이 필요하시다면 Gemma4:31B을 추천 드립니다.

글을 마치며

모델 선택에 정답은 없습니다. 중요한 것은 여러분의 환경과 목적에 맞는 모델을 고르는 것입니다. 비용이 부담된다면 Gemini 무료 티어로 시작해 보고, 폐쇄망 환경이라면 Qwen3 8B부터 가볍게 테스트해 보시길 권장합니다. Dify는 모델을 언제든 교체할 수 있기 때문에, 일단 시작하고 필요에 따라 업그레이드하는 방식이 가장 현실적입니다.

감사합니다.