속도 4배, 가격은 3배 오른 Gemini 3.5 Flash가 AX팀에 던진 3가지 신호

Gemini 3.5 Flash가 속도 4배, 가격 3배로 출시됐습니다. 단순한 모델 업데이트가 아닌 AX팀이 반드시 읽어야 할 3가지 신호 — 에이전트 시대 진입, 프런티어 가격 인플레이션, 그리고 모델 추상화의 부상.
태규's avatar
May 20, 2026
속도 4배, 가격은 3배 오른 Gemini 3.5 Flash가 AX팀에 던진 3가지 신호

5월 19일 새벽, Google I/O 2026 무대에서 Gemini 3.5 Flash가 공개됐습니다.
출력 토큰 기준 속도는 다른 프런티어 모델 대비 4배, Terminal-Bench 2.1에서 76.2%로 자사 Gemini 3.1 Pro까지 앞섰는데요. 숫자만 놓고 보면 "또 잘 만들었네" 정도로 가볍게 넘어갈 만한 발표였습니다…만!

이번엔 좀 다릅니다.

발표 직후 Hacker News와 X에서 가장 많이 언급된 키워드가 모델 성능이 아니었습니다. 가격, 그리고 벤더 종속이 두 가지였는데. 토큰당 가격이 한 세대 만에 3배가 올랐고, Google은 이걸 Preview가 아니라 Stable로 못 박아버렸습니다. 이 두 가지를 같이 놓고 보면, 이번 출시는 단순한 모델 업데이트라기보다 시장 전체에 보내는 시그널에 가깝다는 느낌이 들어요.

엔터프라이즈 AI 도입을 책임지고 계신 분이라면, 벤치마크 표가 아니라 이 시그널들을 읽어보셔야 합니다.

1. 에이전트는 이제 데모가 아닙니다

Google이 이번 발표문 전체에서 가장 많이 쓴 표현이 "long-horizon agentic task" 였는데, 우리말로 옮기면 "오래 걸리는 에이전트 작업" 정도가 되겠죠. 한 번 질문하고 한 번 답하는 챗봇이 아니라, 며칠 걸릴 일을 에이전트가 알아서 끝내는 시나리오를 본격적으로 들이밀고 있다는 뜻입니다.

흥미로웠던 공식 발표에 등장한 레퍼런스는,

  • Shopify — 글로벌 머천트 성장 예측을 위해 하위 에이전트(sub-agent)를 병렬로 굴리는 중

  • Macquarie Bank — 100페이지 넘는 고객 문서를 추론해서 온보딩 시간을 줄이는 파일럿

  • Salesforce — Agentforce에 3.5 Flash를 붙여 다단계 도구 호출(tool calling)을 자동화

  • Ramp / Xero / Databricks — OCR, 세금 양식 처리, 실시간 데이터 진단까지

작년 이맘때 같으면 "데모 잘 만들었네" 소리 들었을 시나리오들인데, 이제는 실제 워크플로우 안에 들어가 있더라구요. 국내도 결이 비슷합니다. 저희가 금융권 프로젝트를 진행하면서 체감하는 건, 작년 PoC가 챗봇 위주였다면 올해는 "여러 주짜리 업무를 통째로 처리하는 에이전트"를 만들어달라는 요구가 부쩍 늘었다는 점이에요.

에이전트는 이미 PoC 단계를 졸업했습니다. 졸업했다는 얘기는 그동안 PoC라서 봐줬던 문제들이 이제 운영 비용으로 청구되기 시작한다는 뜻이기도 하구요.

2. 프런티어 모델의 가격이 오르기 시작했습니다

이번 발표에서 진정한 충격은 벤치마크가 아니라 가격표였습니다.

모델

입력 ($/M tokens)

출력 ($/M tokens)

Gemini 2.5 Flash

$0.30

$2.50

Gemini 3.0 Flash Preview

$0.50

$3.00

Gemini 3.5 Flash

$1.50

$9.00

한 세대 만에 출력 토큰 가격이 3배 오른 것까지는 그래도 받아들일 수 있다고 치죠.
진짜 문제는 따로 있어요. 두 가지인데요.

첫째, 에이전트 작업은 토큰을 훨씬 많이 씁니다. Hacker News에 올라온 artificialanalysis.ai 실측 데이터를 보면, 동일한 종합 평가를 돌렸을 때 Gemini 3.0 Flash는 $278이 들었는데 Gemini 3.5 Flash는 $1,552가 들었더라구요. 5.6배 차이입니다. 가격표만 보면 3배지만, 토큰 사용량까지 합치면 실질 비용은 5~9배까지 뛰었습니다.

둘째, 이걸 Preview가 아니라 Stable로 출시했다는 점입니다. 평소 같으면 Preview 단계에서 가격을 한번 흔들어보고 시장 반응을 본 뒤에 인하하는 패턴이었는데, 이번엔 처음부터 Stable로 못 박았거든요. 이로써 가격은 되돌릴 의향이 없다는걸로 보입니다.

여기에 한 가지가 더, Google AI Pro 구독자 할당량이 이번 업데이트와 함께 표준 사용량의 33배에서 4배로 줄었습니다. Gemini 서브레딧에서는 이미 구독 해지 글이 줄을 잇고 있더라구요.

이 내용들을 총평하자면, AI는 점점 비싸지고 있습니다. "곧 GPT가 무료가 될 것이다"라는 작년의 낙관론은 적어도 프런티어 영역에서는 깨졌다고 봐야 할 것 같아요. 그리고 이 추세는 OpenAI든 Anthropic이든 따라갈 가능성이 큽니다.

3. 시장이 "모델 추상화"를 진지하게 찾기 시작했습니다

여기서부터가 AX팀이라면 반드시 눈여겨보셔야 할 부분입니다.

한 AI 커뮤니티 댓글 중 가장 공감을 많이 받은 글 하나를 옮겨보자면 "애초에 저렴한 모델을 계속 제공할 생각이 없었던 것 같다. API 위에 서비스를 만든 사람들이 생긴 뒤에 압박을 넣는 자연스러운 방식이다. 그래서 제공자에 묶이지 않는 추상화 계층을 두는 게 합리적이다." 이런 내용이었습니다.

모델 하나에 비즈니스 로직을 묶어두면 그 모델 회사가 가격을 올리는 순간 우리 회사의 운영 비용도 같이 오른다는 거예요. 더 심한 경우엔 모델이 ‘deprecated’ 되거나 정책이 바뀌어서 워크플로우 자체를 갈아엎어야 하는 상황도 생기구요.

엔터프라이즈 현장에서 이 문제를 가장 먼저 체감하는 분들은 보통 두 부류로 나뉘어져 있습니다.

  1. 이미 특정 모델 API에 워크플로우를 깊게 박은 회사 — 가격 변동이나 정책 변경이 한 번 있을 때마다 시스템 전체가 흔들리게 돼요

  2. 폐쇄망/규제 산업 — 금융, 공공, 방산처럼 외부 API를 쓰는 것 자체가 컴플라이언스 이슈가 되는 영역이죠

후자의 경우는 좀 더 까다롭습니다. Gemini Enterprise도 결국 Google 인프라 위에서 동작하는 SaaS 기반 서비스거든요. 데이터가 외부 클라우드를 거치는 구조 자체가 폐쇄망 환경에서는 적용이 어려워요. 국내 금융권이나 공공기관 프로젝트를 진행하면서 가장 자주 마주치는 벽이기도 하구요.

해답은 결국 모델 위에 한 층을 더 두는 것입니다. 워크플로우와 비즈니스 로직은 우리 자산으로 가져가고, 모델은 부품처럼 갈아끼울 수 있게요.

Dify 같은 오픈소스 LLM 오케스트레이션 플랫폼이 이 빈자리를 채우고 있는 이유입니다. 워크플로우의 노드별로 모델을 다르게 라우팅할 수 있고(요약은 Gemini 3.5 Flash, 분류는 Qwen, 임베딩은 OpenAI 식으로요), 모델을 바꾸는 게 코드 수정이 아니라 설정 변경 수준에서 끝납니다. 그리고 무엇보다 온프레미스나 에어갭 환경에서도 동일하게 동작한다는 점이 큽니다. LangChain이나 n8n도 비슷한 방향을 가지고 있긴 한데, 엔터프라이즈 운영 관점에서 보면 결이 조금 다릅니다. 이건 별도 글에서 따로 다뤄볼 예정이에요. Langchain과 Dify 심층 비교 자료n8n과 Dify의 플랫폼 비교 자료도 준비되어 있으니 참고하면 좋을 것 같습니다.

AX팀을 위한 체크리스트 5

여기까지 읽으셨다면 한 번쯤 우리 조직을 점검해보시면 좋을 것 같습니다. 새 모델이 출시될 때마다 흔들리지 않는 구조인지를요.

  1. 하드코딩 점검 — 우리 AI 서비스에서 openai.chat.completions.create() 같은 호출이 코드 곳곳에 박혀 있진 않은가요? 만약 그렇다면 한 모델이 가격을 올렸을 때 코드 전체를 다시 손봐야 하는 상황이 생깁니다.

  2. 비용 시뮬레이션 — 주력 모델 가격이 3배 올랐을 때 월 운영비가 얼마가 되는지, 30분 안에 답할 수 있으신가요?

  3. 모델 적합도 분석 — 에이전트 워크플로우의 어느 단계가 진짜 프런티어 모델을 필요로 하는지 보셨나요? 의외로 80% 정도의 노드는 작은 모델로도 충분한 경우가 많습니다.

  4. 평가·로깅 체계 — 새 모델로 갈아끼웠을 때 응답 품질을 객관적으로 비교할 수 있는 구조가 있나요? "써보니까 좋더라"가 아니라 데이터로 말이죠.

  5. A/B 전환 속도 — 신규 모델(예를 들면 다음 달 출시 예정인 Gemini 3.5 Pro)을 일주일 안에 기존 워크플로우에 붙여서 비교해볼 수 있나요?

이 다섯 개 중에 절반 이상이 "아니오"에 해당한다면, 모델보다 먼저 운영 구조부터 손보셔야 할 때예요.

결국, 질문은 모델이 아니다.

Gemini 3.5 Flash는 분명 좋은 모델입니다. 다음 달 나올 3.5 Pro도, 그다음 분기에 등장할 GPT나 Claude 신모델도 마찬가지일 거구요. 모델은 앞으로도 계속 좋아질 거고, 동시에 계속 비싸질 거예요.

하지만 어떤 모델이 이기든 결국 그 위에서 워크플로우를 설계하고, 운영하고, 갈아끼우는 쪽이 살아남습니다. 모델은 부품이고, 워크플로우와 데이터가 진짜 자산이거든요. 이 구분을 명확히 하는 회사가 지난 1년간 가장 빠르게 움직였고, 앞으로도 그럴 것 같아보입니다.

ONS는 Dify의 공식 파트너로서 금융권, 제조업, 공공기관에서 이런 추상화 구조를 함께 만들어가고 있어요. Gemini 3.5 Flash가 됐든 다음 분기의 어떤 모델이 됐든, 워크플로우는 흔들리지 않게 말이죠.

새로운 모델이 나올 때마다 시스템 전체가 흔들리는 느낌이 드신다면, 한 번쯤 Dify로 직접 워크플로우를 만들어 사용해 보세요. 같은 워크플로우를 Gemini 3.5 Flash, Qwen3, Claude 4.6에서 동시에 비교해볼 수 있습니다. 어떤 모델이 가격을 올려도 노드 하나만 갈아끼우면 된다는 게 어떤 의미인지, 한 번 직접 만져보시면 바로 와닿으실 수 있을겁니다.

벤치마크는 6개월 뒤면 또 바뀌지만
잘 만들어둔 워크플로우는 그대로 남습니다.

오픈네트웍시스템 ㅣ 권태규

Share article