AI 인프라라는 단어는 참 모호합니다. 광의의 개념에서는 고속도로와 같이 기반을 이루는 데 필요한 사회간접자본(Social Overhead Capital)으로 들어가게 됩니다. 이 경우 AI (Hyperscale) Data Center와 전력망, 그리고 네트워크망 등을 이야기하게 됩니다.
그래서 국가 AI 인프라를 확장해야 한다는 이야기는 대부분 데이터센터를 늘리고, GPU 몇십만 장을 수급하고 전력 생산량과 송신망을 확충한다는 내용을 담고 있습니다. 때에 따라서는 AI 인력 충원이 국가 AI 인프라에 들어가기도 합니다.
저희 오픈네트웍시스템에서 이야기하는 AI 인프라는 전산실 안에 들어가는 IT 인프라를 이야기합니다. 협의의 개념에서는 AI 모델을 학습하고 서비스하는 데 필요한 GPU 서버, 네트워크, 스토리지와 사용자 플랫폼 (MLOps, LLMOps)를 의미합니다.
그렇다면 AI 인프라가 왜 필요할까요? 왜 다들 GPU가 꼭 필요하다고 하는 걸까요?
앞으로의 글에서 하나씩 알아가보도록 하겠습니다.
먼저 AI 생태계에서 AI 인프라(컴퓨팅)가 어떤 역활을 하는지 살펴보겠습니다.
AI 생태계
성공적으로 AI를 하기 위해서는 AI 에코시스템을 이루는 요소들이 조화롭게 어울릴 수 있어야 합니다. AI 한다는 것은 결국 데이터를 사람이 자원에 올려서 모델에 학습시키고 완성된 모델을 사용하는 일련의 과정이기 때문입니다.
머신러닝은 사람이 프로그램에 판단 기준을 알려주지 않습니다. 규칙을 알려주는 과정인 명시적 프로그래밍 없이, 데이터를 보고 프로그램이 스스로 규칙을 만들어내죠.
그리고 프로그램이 데이터를 보고 규칙을 만들기 위해서는 많은 컴퓨팅 자원이 필요합니다. 모델이 데이터를 학습하는 것은 실제로 엄청나게 많은 연산 과정을 거치는 것입니다. 좋은 컴퓨터가 있으면 더 빠르게 계산하고 결과를 내보낼 수 있습니다.
프로그램과 데이터를 이어주는 게 바로 사람입니다. AI 모델마다 원하는 데이터의 형식이 달라요. 그리고 먹는 방법도 달라요. 그래서 AI 모델이 데이터를 먹기 쉽게 만들고 잘 먹는 방법을 알려주는 게 사람이 하는 일입니다. 제대로 된 가이드라인 없이 성공적인 AI 모델을 만들 수 없습니다.
1. AI 생태계 - 데이터
AI와 컴퓨터 분야에 유명한 말이 있습니다. 바로 “Garbage in, Garbage Out”.
쓰레기 데이터를 넣으면 쓰레기 모델이 나올 수밖에 없다는 뜻이죠. 모델이 이상한 예시를 보고 이상하게 배운다고 생각하시면 됩니다.
사실 데이터는 점점 더 평준화되어 가고 있습니다. 대한민국 정부에서도 AI Hub를 통해서 데이터를 오픈하고 있고, 전 세계적으로도 많은 기관에서 인류를 위해 데이터를 학습할 수 있도록 오픈해 주고 있습니다.
LLM이 등장하면서 데이터 정리가 더 가속화되었습니다. LLM을 만들기 위해서 정말로 많은 양의 데이터가 필요하므로 많은 정리를 진행하였죠. 그래서 앞으로 학습할 데이터가 없어질 거라는 말이 나올 정도입니다.
요약하면 앞으로는 AI를 하는데 데이터는 문제가 되지 않을 것입니다.
2. AI 생태계 - 사람
AI 개발자, 데이터 사이언티스트라는 직업을 들어보셨을 겁니다. 쉽게 이야기하면 AI를 활용하여 어떤 걸 만들어낼 수 있는 사람이라고 생각하면 됩니다. 그러니깐 AI 전문가입니다.
대한민국과 전 세계가 AI를 위해 인재 교육에 힘쓰고 있습니다. 모든 학과에서 AI를 가르치고 AI를 어떻게 잘 사용할 수 있는지 알려줍니다. 그래서 앞으로 더 많은 AI 전문가가 교육을 마치고 산업 현장에 뛰어들게 될 것이고, 이는 엄청난 변화를 불러오게 될 것입니다.
이뿐만이 아닙니다. 비 AI 개발자들도 AI를 전문가처럼 다룰 수 있는 플랫폼들이 더 많이 등장하고 있습니다. Dify를 활용하면 도메인 전문가도 전문 AI 개발자처럼 LLM을 활용해서 내가 원하는 AI Agent를 개발하고 사용할 수 있습니다.
AI에 대한 이해가 전반적으로 높아지면서 앞으로는 AI를 하는데 사람이 문제가 되지 않을 것 입니다.
3. AI 생태계 - 컴퓨팅
AI 모델을 활용하기 위해서는 많은 연산이 필요합니다. 모델에 따라 다르지만 결국 중요한 건 엄청나게 많은 계산을 해야 한다는 것입니다. 컴퓨터 성능에 따라서 게임이 버벅거릴 수 있고, 동영상 렌더링이 오래 걸릴 수 있듯이 컴퓨팅 자원에 따라 모델이 잘 돌아갈 수도, 안 돌아갈 수도 있습니다.
컴퓨팅 자원은 CPU, Memory, Disk와 같은 서버의 Spec을 의미합니다. 당연히 CPU 코어가 많고, Memory 용량이 크면 더 좋은 자원이라고 유추할 수 있겠죠.
문제는 AI가 발전함에 따라 AI가 요구하는 기본 컴퓨팅 자원이 늘어나고 있습니다. 더 좋은 성능의 AI는 더 좋은 성능의 컴퓨팅을 요구합니다. 그래서 어쩔 수 없이 컴퓨팅 자원을 늘리는 데 투자할 수 밖에 없는 구조입니다.
AI 시대에 가장 중요한 자원은 바로 GPU입니다. Deep Learning 기반의 머신러닝 진행을 위해서는 GPU가 반드시 필요합니다. AI 인프라는 GPU 라고 봐도 됩니다.
앞서 설명해 드린 데이터, 사람과 컴퓨팅은 느낌이 조금 다릅니다. 데이터와 사람은 점점 상향 평준화되어 가고 있어 점점 필요한 비용이 줄어들고 있습니다. 하지만 컴퓨팅은 다릅니다. 컴퓨팅은 반대로 필요한 비용이 점점 늘어나고 있습니다.
더 아쉬운 사실은 컴퓨팅은 비용과 직결되어 있습니다. 더 큰 비용을 지불하고 좋은 서버를 사용하고 좋은 GPU를 사용할 때 남들보다 상대적인 우위에 설 수 있습니다.
앞으로는 AI를 하는데 컴퓨팅을 위해 더 큰 비용을 지불하게 될 것입니다.
AI 생태계는 크게 세 가지: 데이터, 사람, 컴퓨팅으로 이루어져 있습니다.
데이터와 사람은 시간이 지날수록 AI에 대한 전반적인 이해가 높아지는 것과 마찬가지로 상향 평준화가 되고 있습니다. 그래서 합리적인 투자를 통해 접근할 수 있을 정도로 진입 장벽이 낮아지고 있습니다.
하지만 컴퓨팅은 시간이 지날수록 더 많은 비용을 지불해야만 합니다.
그래서 중요한 건 내가 하려는 목적에 최적화된 AI 인프라를 구성하여 비용을 최소화하는 것입니다. 저희는 최적화된 AI 인프라 도입을 도와드리고 있습니다.
오픈네트웍시스템 박종일