구글을 AI로 해킹해서 50만 달러, 우리 돈 7억 원 넘게 벌었다는 연구 글이 요즘 개발자들 사이에서 화제예요. 제목만 보면 "AI가 드디어 천재 해커 됐네" 싶죠. 근데 정작 글 쓴 연구자 본인은 정반대 얘기를 해요. 자기가 찾은 버그 대부분이 하나도 안 정교했다고요.
대체 어떻게 한 명이 구글을 털었고, 7억이라는 돈은 어디서 나온 건지, 그리고 그 의외의 비결이 뭔지. 하나씩 풀어볼게요.
7억이 어디서 나온 거야?
먼저 이 7억의 정체, 이건 한 방에 받은 돈이 아니라 구글의 버그 바운티(VRP)에서 버그를 찾을 때마다 쌓인 합계예요. 구글은 자사 보안 구멍을 신고하면 심각도에 따라 돈을 주거든요. 이 연구자가 3개월도 안 되는 기간에 찾아낸 구멍들의 보상을 다 합치니 50만 달러가 넘었던 거고요. 글에 공개된 것만 봐도 건당 1만 2천 달러, 2만 달러, 3만 달러… 이런 식으로 묵직한 게 줄줄이예요.
그럼 어떻게 찾았느냐. 연구자는 먼저 안드로이드 앱 6만 개를 통째로 뜯어서 구글 API 키를 긁어모았어요. 그 키로 구글 API 명세서를 1,500개 넘게 확보했고요. 문제는 이 1,500개를 사람이 일일이 다 두드려보는 게 불가능하다는 거였어요. 그래서 Claude 기반 AI에 테스트 도구를 MCP로 물려서, 사람처럼 요청을 보내고 권한 검사가 빠진 구멍을 알아서 찾게 시킨 거죠.
진짜 한 줄로 계정을 털 수 있었다고?
여기서 "한 줄 명령으로 털었다"는 게 과장 아니냐 싶을 텐데, 진짜였어요. 대표적인 게 Google Voice 사건이에요.
연구자가 찾은 한 API는 권한 검사가 아예 없었어요. 인증도 필요 없이, 피해자의 내부 식별 번호(Gaia ID)만 알면 curl 명령어 한 줄로 그 사람의 전화번호, 알림 이메일 같은 개인정보가 통째로 쏟아졌거든요. 더 섬뜩한 건, 특정 조건에서는 그 사람의 구글 계정 복구 전화번호까지 보였다는 거예요. 계정 복구 번호가 털리면 사실상 계정 탈취로 이어질 수 있는 거라, 구글도 이걸 가장 심각한 등급(P0/S0)으로 분류하고 몇 시간 만에 막았어요. 이 건만 2만 달러를 받았고요.
이런 식의 구멍이 한둘이 아니었어요. 디즈니랑 넷플릭스가 쓰는 DRM(Widevine)의 파트너 포털이 열려 있어서 암호화 키까지 들여다보였고, 유튜브 비공개 영상의 ID가 줄줄 새는 구멍도 있었어요. 이 유튜브 건이 특히 무서운 게, 기업들이 신제품 발표 영상을 공개 전에 '비공개'로 먼저 올려두는 습관을 노리면, 30초마다 요청을 날려서 아직 공개 안 된 영상을 실시간으로 들여다볼 수 있었거든요. 연구자는 이걸 "예측 시장에서 내부자 정보로 베팅하는 데 악용될 수 있다"고 짚었어요. 버그가 돈 찍어내는 기계가 될 수 있었던 셈이죠.
그런데 이 무시무시한 구멍들의 정체가 좀 허무해요. 권한 검사를 깜빡한 API, 인증을 안 거는 엔드포인트, 진짜 데이터를 가리키고 있던 테스트 서버. 죄다 "기본을 빠뜨린" 똑같은 실수가 여기저기 반복되고 있었던 것. 연구자 말대로 정교한 천재 해킹이 아니라 인내심 싸움이였어요.
그래서 AI를 그냥 풀어놨더니 됐냐고? 😵
아뇨, 여기가 이 글의 진짜 반전이에요. 처음엔 AI를 풀어놨더니 영 신통치 않았거든요. 두 군데서 꽉 막혔어요.
첫째, AI가 대충 몇 번 찔러보고 일찍 그만 뒀다고해요. 그래서 "모든 엔드포인트를 최소 한 번씩은 테스트해야 끝낼 수 있다"는 규칙을 강제로 걸었다고 합니다.
둘째, 이게 더 골치였는데, 진짜 버그가 90%의 잡음에 파묻혀버렸어요. AI가 "이거 취약점일지도요?" 하고 올리는 것 중 대부분이 알맹이 없는 거였거든요. 사람이 하나하나 손으로 확인하다간 시간이 다 녹아내릴 판이었죠.
이 두 번째를 푼 방식이 핵심이에요. 연구자는 AI가 보고할 때 실제 보낸 요청을 가리키는 고유 ID(operation ID)를 같이 달게 했어요. 그럼 화면에서 "재생" 버튼만 누르면 그 요청이 진짜였는지 즉석에서 재현되거든요. AI가 지어냈는지 진짜인지 한 방에 갈리는 거죠. 거기다 한 달 넘게 "뭘 보고하고 뭘 보고하지 마"를 다듬어서, 그냥 "이 ID 존재함" 같은 건 버그 아니라고 못을 박았고요.
이 두 개를 풀고 나서야 AI가 50% 넘는 정확도로 버그를 쏟아내기 시작했어요. 연구자 말로는, 원클릭으로 확인하는 그 장치가 없었으면 AI가 뱉은 건 그냥 쓸모없는 잡음이었을 거래요. 결국 AI가 똑똑해서가 아니라, 그 주변에 검증 장치랑 명확한 기준을 깔아준 덕에 성공한 거예요.
보안이랑 상관없는 나한테도 쓸모가 있어? 💡
여기까지가 사건의 전말인데, 사실 진짜 교훈은 보안 밖에 있어요. 이 사건이 증명한 두 가지가 우리 일에도 그대로 적용되거든요. 하나는 "넓고 반복적인 검증은 AI가 사람보다 잘한다", 다른 하나는 "근데 그냥 풀어놓으면 잡음만 나온다, 검증이랑 기준을 붙여줘야 쓸모가 생긴다"예요.
생각해보면 우리가 회사에서 AI한테 맡기고 싶은 일들이 딱 이 구조잖아요. 계약서 수백 건에서 빠진 조항 찾기, 쌓인 문의 메일 분류해서 담당자한테 넘기기, 매일 들어오는 데이터에서 이상한 낌새 잡아내기. 전부 "넓은 표면을 지치지 않고 반복 검증"하는 일이고, 사람이 다 하기엔 너무 많고, AI한테 그냥 던지면 잡음에 묻히는, 똑같은 문제인 것.
그래서 필요한 게 연구자가 직접 짠 그 '판'이에요. AI한테 도구를 쥐여주고(MCP), 끝까지 일하게 만들고, 결과를 바로 검증하게 하고, 뭘 보고할지 기준을 세운 그 판 말이에요. 이걸 일주일씩 직접 만드는 대신 가져다 쓸 수 있는 게 Dify 같은 플랫폼이고요.
사내 문서 뒤져서 근거 찾고(RAG), 여러 단계로 판단하고, 내부 시스템이랑 표준 방식(MCP)으로 연결하고, 그 과정을 전부 로그로 남기는 걸, 코드 거의 안 쓰고 시각적으로 엮을 수 있거든요.
특히 이 사건이 콕 집어준 "검증 안 된 AI 결과는 그냥 잡음"이라는 교훈이 여기서 진가를 발휘해요. Dify로 워크플로를 짜두면 AI가 어떤 근거로 무슨 판단을 내렸는지가 단계별로 다 남거든요. 연구자가 "재생" 버튼으로 진위를 가렸던 것처럼, 업무에서도 결과를 그냥 믿는 게 아니라 추적하고 검증할 수 있는 거죠.
한 명이 3개월 만에 7억어치 구멍을 찾아낸 게 인상적이긴 한데, 우리가 챙길 건 "AI 무섭다"가 아니라 이거예요. 넓고 반복적인 일은 이제 혼자 끌어안을 필요가 없고, 단 검증과 기준이 박힌 판 위에 올려야 진짜 일이 된다는 거. 그 판을 누가 먼저 잘 까느냐가 일하는 속도를 가를 것 같아 보여요.
오픈네트웍시스템 ㅣ 권태규