Dify에서 LLM 선택지

Claude, Gemini, OpenAI Ollama 비교
May 11, 2026
Dify에서 LLM 선택지

Dify는 이미 사용하고 계신 API 토큰이 있다면 연동만 하면 되어 매우 간편합니다.

하지만 Dify를 처음 사용해 보고 싶은 분들은 따로 API 토큰을 발급받아야 하는데, 추가 비용을 내야 한다면 API 비용을 더 지불할지, 아니면 로컬 모델을 써야 할지 고민이 될 수 있습니다.

LLM 모델의 선택은 정말 중요하다고 생각합니다. LLM의 성능이 곧 여러분이 만드신 챗플로우, 에이전트, 또는 RAG의 성능을 결정하기 때문입니다. 이번 글에서는 오픈소스 버전으로 사용할 수 있는 모델들의 성능과 Claude, Gemini 등 클라우드 모델의 성능을 비교해 보겠습니다.

모델 비교

먼저 대중적으로 사용되는 Gemini, Claude, GPT 대표 모델들을 살펴보겠습니다.

항목

GPT-5.5

Claude Opus 4.7

Gemini 3.1 Pro

Claude Sonnet 4.6

GPT-5.4

Claude Haiku 4.5

개발사

OpenAI

Anthropic

Google

Anthropic

OpenAI

Anthropic

출시 시점

2026.04

2026.04

2026.02

2026.02

2026.03

2025.10

SWE-bench Verified

88.7% 

87.6% 

80.6% 

79.6%

~80%

73.3% 

SWE-bench Pro

58.6%

64.3%

54.2% 

57.7% 

39.5%

GPQA Diamond

93.6% 

94.2% 

94.3% 

74.1%

92.8% 

67.2%

Terminal-Bench 2.0

82.7% ⭐

69.4% 

68.5% 

59.1%

75.1%

OSWorld (컴퓨터 사용)

78.7% 

78.0% 

72.5%

75.0% 

50.7% 

MCP/Tool 오케스트레이션

75.3% 

77.3% ⭐

69.2% 

61.3%

68.1%

컨텍스트 창

1M

1M

1M

1M

1M

200K

가격 (입력 /1M)

$5.00 

$5.00

$2.00 

$3.00

$2.50 

$1.00 

가격 (출력 /1M)

$30.00 

$25.00

$12.00 

$15.00

$15.00 

$5.00 

한국어 품질

★★★★★

★★★★☆

★★★★★

★★★★☆

★★★★☆

★★★★☆

멀티모달

텍스트·이미지·오디오·영상

텍스트·이미지 (3.75MP)

텍스트·이미지·영상·오디오

텍스트·이미지

텍스트·이미지

텍스트·이미지

Dify Tool use 적합도

★★★★☆

★★★★★

★★★★☆

★★★★★

★★★★☆

★★★★☆

  • Gemini 2.5 Flash: 15 RPM, 약 1,000 req/일 무료

  • Gemini 2.5 Pro: 5 RPM, 약 100 req/일 무료

    다음으로 로컬 모델을 비교해 보겠습니다.

항목

qwen3.6:35b

Qwen3 32B

Qwen3 8B

DeepSeek-R1 32B

Llama 4 Maverick

gemma4:31b

Gemma 3 27B

개발사

Alibaba

Alibaba

Alibaba

DeepSeek

Meta

Google

Google

파라미터

35B/3B (MoE)

32B

8B

32B (MoE)

400B+ (MoE)

31B

27B

VRAM 최소

20GB+

20GB+

8GB

20GB+

멀티 GPU

32GB

16GB+

권장 GPU

A100 40GB / RTX 4090

A100 40GB

RTX 3090/4090

A100 40GB

H100 × 2+

A100 40GB / RTX 4090 × 2

A100 40GB

컨텍스트 창

262K

128K

128K

64K

1M

256K

128K

한국어 품질

★★★★☆

★★★★★

★★★★☆

★★★☆☆

★★★☆☆

★★★★☆

★★★★☆

코딩 성능

★★★★☆

★★★★☆

★★★☆☆

★★★★☆

★★★★☆

★★★★☆

★★★☆☆

추론 (STEM)

★★★★☆

★★★★☆

★★★☆☆

★★★★★

★★★☆☆

★★★★☆

★★★☆☆

멀티모달

✅ 이미지

✅ 이미지 

✅ 이미지

Thinking 모드

✅ 내장

✅ 내장

✅ 내장

✅ CoT

✅ 내장

라이선스

Apache 2.0

Apache 2.0

Apache 2.0

MIT

Llama 4 Commercial

Apache 2.0

Gemma

상업적 이용

✅ 자유

✅ 자유

✅ 자유

✅ 자유

⚠️ 조건부

✅ 자유

⚠️ 조건부

Ollama 설치 명령어

ollama pull qwen3.6:35b

ollama pull qwen3:32b

ollama pull qwen3:8b

ollama pull deepseek-r1:32b

별도 설정 필요

ollama pull gemma4:31b

ollama pull gemma3:27b

이처럼 모델별 성능은 다양합니다. 여러분의 사용 환경에 따라 선택하시면 됩니다.

예를 들어 폐쇄망 환경에서는 Qwen3.6:35B → Qwen3 32B → Qwen3 8B 순으로, 인터넷 환경에서는 Claude Opus 4.6 → Gemini 3.1 Pro → GPT-5.4 순으로 추천드립니다.

다만 로컬 모델은 서버 인프라 사양에 따라 실제 성능 차이가 크기 때문에, 완전 무료로 이용하고 싶은 분들께는 Gemini 2.5 Flash와 Gemini 2.5 Pro의 무료 일일 사용량이 개인 사용자 기준으로는 충분하다고 생각합니다.

무료 사용법

Gemini API 키 발급 → Dify 연동

실제 서버에서 올라마(Qwen3.6) 모델 속도 벤치마크 결과

Dell pro max gb 10 기준 결과

Dell pro max gb10 기준 Qwen3.6 35b>Qwen3.5 122b> Gemma4 31b결과 입니다. 이 모델들은 MoE 방식으로 작동해 빠른 추론 속도가 강점 입니다.

이미지 분석이 필요하시다면 Gemma4:31B을 추천 드립니다.

글을 마치며

모델 선택에 정답은 없습니다. 중요한 것은 여러분의 환경과 목적에 맞는 모델을 고르는 것입니다. 비용이 부담된다면 Gemini 무료 티어로 시작해 보고, 폐쇄망 환경이라면 Qwen3 8B부터 가볍게 테스트해 보시길 권장합니다. Dify는 모델을 언제든 교체할 수 있기 때문에, 일단 시작하고 필요에 따라 업그레이드하는 방식이 가장 현실적입니다.

감사합니다.

Share article