성장의 법칙, 메가스터디아카데미

#65. 블랙웰부터 로봇까지, 반도체 1위 엔비디아가 그리는 AI의 미래

5분 분량

NVIDIA GTC 2025 키노트에서 젠슨 황 CEO가 발표한 주요 내용은 무엇인가요?

젠슨 황 CEO는 GTC 2025키노트에서 블랙웰(Blackwell)의 본격적인 생산과 AI 인프라의 성장, 그리고 에이전트 AI(Agentic AI)와 물리적 AI(Physical AI)의 중요성을 강조했습니다.

NVIDIA의 AI 인프라 로드맵은 어떻게 되나요?

• 블랙웰 울트라(Blackwell Ultra) : 2025년 하반기 출시 예정이며, 기존 블랙웰 대비 1.5배 더 많은 성능을 제공합니다.
• 베라 루빈(Vera Rubin) : 2026년 하반기 출시 예정으로, 새로운 CPU, GPU, 네트워킹 스마트 NIC, NVLink, HBM4 메모리 등 모든 것이 새롭게 구성됩니다.
• 루빈 울트라(Rubin Ultra) : 2027년 하반기 출시 예정으로, NVLink 576을 통해 15 엑사플롭스(ExaFLOPS)의 극단적인 스케일업 성능을 제공합니다.

엔비디아 젠슨 황CEO의 GTC 2025기조연설은 AI의 미래와 엔비디아의 혁신적인 역할을 명확히 제시합니다.

특히 AI모델의 추론(Inference) 과정에서 발생하는 연산량 문제를 해결하기 위한 블랙웰(Blackwell) 아키텍처의 압도적인 성능과 이를 뒷받침하는 MVLink 72, Dynamo 같은 혁신적인 기술 스택을 통해 미래 AI인프라 구축의 핵심 원리를 이해하고, 자신의 비즈니스에 어떻게 적용할지 구체적인 인사이트를 얻을 수 있습니다.

1. GTC 2025 기조연설 요약 : AI 발전의 흐름

(출처 : NVIDIA)

AI의 빌딩 블록인 토큰은 지능을 만드는 새로운 종류의 공장과 같으며, 무한한 가능성을 열어줍니다.

토큰은 물리학 법칙 해독, 질병 조기 발견, 생명의 언어 해독에 기여하며 로봇에게 움직임과 도움을 주어 삶을 더 가깝게 만듭니다.

AI는 지난 10년간 비약적인 발전을 이루었습니다.

• 초기 AI(지각 AI) : 약 10년 전 컴퓨터 비전, 음성 인식 분야에서 발전했습니다.
• 생성 AI(Generative AI) : 지난 5년간 AI가 한 양식에서 다른 양식으로 번역하는 방법을 학습시켜 컴퓨팅 패러다임을 근본적으로 변화시켰습니다.
• 에이전트 AI(Agentic AI) : 지난 2~3년간 등장하여 상황을 인지하고 이해하며, 문제를 해결하는 방법을 추론하고, 행동을 계획하고 실행할 수 있게 되었습니다.
• 물리 AI(Physical AI) 및 로봇 공학 : 물리 세계를 이해하는 AI를 통해 로봇 공학이 가능해집니다.

2. AI 발전의 핵심 과제와 추론 능력

(출처 : NVIDIA)

AI 발전에는 세 가지 근본적인 문제가 있습니다.

• 데이터 문제 해결 : 학습에 필요한 데이터를 확보하는 것이 중요합니다.
• 인간 개입 없는 훈련 문제 해결 : AI가 인간의 속도를 초월하여 대규모로 학습할 수 있도록, 인간 개입 없이 모델을 훈련하는 방법을 찾아야 합니다.
• 확장성 문제 해결 : 더 많은 자원을 제공할수록 AI가 더 똑똑해지는 스케일링 법칙(scaling law)을 만드는 것이 중요합니다.

에이전트 AI와 추론능력의 등장으로 필요한 연산량은 작년 예상치보다 최소 100배 이상 증가했습니다. AI는 이제 문제를 단계별로 분해하고, 다양한 접근 방식으로 최적의 답을 선택하며, 답변을 도출한 후 다시 검증하는 과정을 거칩니다.

• 새로운 추론 기술 : AI는 사고의 사슬(chain of thought), 최고의 N(best of N), 일관성 확인(consistency checking) 등 다양한 기술을 사용합니다.
• 토큰 생성량의 폭증 : AI의 기본 기술은 다음 토큰을 예측하는 것이지만, 이제 다음 토큰이 추론의 단계를 구성하며 생성되는 토큰의 양이 100배 이상 증가합니다. 모델이 10배 더 많은 토큰을 생성하고 10배 더 빠르게 연산해야 하므로, 필요한 총 연산량은 100배 이상 증가합니다.

AI에게 추론하는 방법을 가르치기 위해 검증 가능한 결과에 대한 강화 학습(reinforcement learning verifiable results)이 큰 돌파구가 되었습니다. 인류가 이미 답을 알고 있는 수많은 문제(예: 이차 방정식, 피타고라스 정리, 스도쿠 등)를 활용합니다.

수백 가지 주제에 대해 수백만 개의 다양한 예시를 생성하고, AI에게 수백 번의 시도를 통해 단계별로 문제를 해결하도록 합니다. 이 과정을 통해 모델 훈련에 수조 개의 토큰이 필요합니다. 강화 학습과 합성 데이터 생성(synthetic data generation)은 로봇 공학적 접근 방식을 사용하여 AI를 가르치는 것과 같습니다.

상위 4개 CSP(Amazon, Azure, GCP, OCI)의 Hopper 출하량 최고치와 Blackwell출하량 첫 해를 비교하면 AI인프라의 엄청난 성장을 알 수 있습니다. AI는 더 똑똑해지고(추론가능), 더 많이 사용되면서 변곡점을 맞이하고 있습니다.

컴퓨터는 이제 파일을 검색하는 것이 아니라 토큰을 생성하는 생성 기반 컴퓨팅(generative-based computing)의 역할을 하며, 이러한 새로운 인프라를 AI 팩토리(AI factories)라고 부릅니다.

3. 엔비디아 CUDAx 라이브러리와 가속 컴퓨팅 생태계

(출처 : NVIDIA)

데이터센터의 모든 것이 가속화될 것이며, 그 전부가 AI는 아닙니다. GTC의 핵심은 CUDAx 라이브러리라고 불리는 가속 프레임워크입니다. AI 프레임워크 외에도 물리학, 생물학, 다중 물리학, 양자 물리학 등 다양한 과학 분야를 위한 프레임워크가 필요합니다.

주요 CUDAx 라이브러리는 다음과 같습니다.

• CUPai Numeric (CU-Numerica) : 전 세계에서 가장 많이 다운로드되는 Python 라이브러리인 numpy를 위한 제로 변경 드롭인 가속(zero change drop in acceleration) 라이브러리입니다.
• koolitho (CU-Litho) : 계산 리소그래피 라이브러리로, TSMC, 삼성, ASML 등과 협력하여 개발되었으며, 5년 안에 모든 마스크와 리소그래피가 엔비디아 CUDA에서 처리될 전환점에 도달했습니다.
• Arial (CU-Arial) : GPU를 5G 라디오로 전환하는 5G 라이브러리입니다. AI를 RAN(Radio Access Network)에 통합하는 AI ran을 통해 차세대 라디오 네트워크를 혁신할 것입니다.
• Co-opt (CU-Opt) : 좌석 및 항공편 계획, 재고 및 고객 관리 등 여러 제약 조건과 변수를 최적화하는 데 사용되는 최적화 라이브러리입니다. 몇 시간이 걸리던 작업을 몇 초로 단축하며, 오픈 소스로 공개될 예정입니다 .
• MONai : 세계 최고의 의료 영상 라이브러리입니다.
• Earth-2 : 고해상도 지역 날씨 예측을 위한 다중 물리학 라이브러리입니다.
• cu-dss (Sparse Solvers) : CAE(Computer- aided Engineering)에 매우 중요한 희소 솔버 라이브러리입니다.

CUDA의 광범위한 설치 기반 덕분에 이러한 라이브러리들이 개발자들에게 유용합니다. 개발자들은 CUDA 라이브러리를 통해 놀라운 속도 향상과 확장성을 얻고, 그들의 소프트웨어가 모든 사람에게 도달할 수 있게 됩니다. NVIDIA Blackwell은 최초의 CUDAGPU보다 50,000배 더 빠릅니다.

4. AI의 확산 : 클라우드, 엣지, 자율주행차, 엔터프라이즈

(출처 : NVIDIA)

AI는 인프라가 필요했기 때문에 클라우드에서 시작되었지만, 클라우드에만 국한되지 않고 모든 곳으로 확산될 것입니다.

가속 컴퓨팅은 칩, 프로그래밍 모델, 그리고 그 위에 구축된 수많은 소프트웨어 스택 전체에 관한 것입니다. 각 레이어와 라이브러리는 SQL처럼 복잡하며, AI의 경우 훨씬 더 많은 라이브러리가 존재하여 스택이 매우 복잡합니다.

AI가 전 세계로 확산되면서 다양한 시스템 구성, 운영 환경, 도메인별 라이브러리, 사용 방식의 차이가 발생합니다. AI는 엔터프라이즈 IT, 제조, 로봇 공학, 자율주행차, GPU 클라우드 등으로 전환되고 있습니다.

젠슨 황은 엣지(Edge) 분야에 큰 기대를 걸고 있으며, 엔비디아는 Cisco, T-Mobile, Cerberus ODC와 협력하여 미국 내 라디오 네트워크를 위한 풀 스택을 구축할 것이라고 발표했습니다. 미래에는 AI가 접목된 가속 컴퓨팅이 될 것입니다.

엔비디아는 AlexNet을 본 순간 자율주행차 개발에 전념하기로 결정했으며, 10년 이상 자율주행차 기술을 개발해왔습니다.

• 다양한 협력 모델 : 엔비디아는 거의 모든 자율주행차 회사에서 사용하는 기술을 구축하며, 데이터센터 또는 데이터센터와 차량 모두에 엔비디아컴퓨터를 사용합니다.
• GM과의 파트너십 : GM은 미래 자율주행차 개발을 위해 엔비디아를 파트너로 선정했습니다. GM과의 AI 협력 분야는 제조 AI, 엔터프라이즈 AI, 차량 내 AI입니다.
• Omniverse 및 Cosmos 활용 : 엔비디아는 Omniverse와 Cosmos를 활용하여 AV(자율주행차)를 위한 AI개발을 가속화합니다. Cosmos의 예측 및 추론기능은 모델 증류(model distillation), 폐쇄 루프 훈련(closed-loop training), 합성 데이터 생성(synthetic data generation)과 같은 새로운 개발 방법을 통해 종단 간 훈련가능한 AI 우선 AV 시스템을 지원합니다.

5. Blackwell 아키텍처와 AI 팩토리의 혁신

(출처 : NVIDIA)

Blackwell은 현재 완전 생산 중이며, 엔비디아는 컴퓨터 아키텍처에서 근본적인 전환을 이루었습니다. 3년 전 Grace Hopper 기반의 Ranger 시스템은 세계 최초의 NVLink 32를 선보이며 스케일 업(scale up) 문제를 해결하려는 올바른 아이디어였습니다.

분산 컴퓨팅은 많은 컴퓨터가 함께 작동하여 큰 문제를 해결하는 것이지만, 스케일 아웃(scale out) 전에 스케일 업이 필수적입니다.

이전 세대 시스템 아키텍처인 HGX는 8개의 GPU로 구성되어 AI를 혁신했습니다. Blackwell은 하나의 패키지에 두 개의 BlackwellGPU를 포함하며, HGX 시스템에는 이러한 패키지가 8개 들어갑니다.

• NVLink 시스템의 분리 (Disaggregation) : NVLink 스위치를 마더보드에서 분리하여 섀시 중앙에 배치했습니다. 이 NVLink 스위치는 세계 최고 성능의 스위치로, 모든 GPU가 동시에 최대 대역폭으로 통신할 수 있게 합니다.
• Grace Blackwell NVLink 72 랙 : 130조 개의 트랜지스터를 가진 칩을 단일 칩으로 만들 수 없었기 때문에, Grace BlackwellNVLink 72 랙으로 분리하여 궁극의 스케일 업을 달성했습니다. 570테라바이트/초의 메모리 대역폭과 1 엑사플롭스(초당 100경 회의 부동 소수점 연산)의 성능을 제공합니다.

(출처 : NVIDIA)

추론은 AI 팩토리에서 토큰을 생성하는 과정이며, 이는 곧 수익과 직결됩니다. AI 팩토리는 극도의 효율성과 성능으로 구축되어야 하며, 이는 서비스 품질, 수익, 수익성에 직접적인 영향을 미칩니다.

AI 팩토리의 목표는 고객 서비스 품질(빠르고 똑똑한 AI)과 데이터센터의 최대 수익(가능한 한 많은 사람에게 토큰 생산)이라는 두 가지 목표 사이에서 균형을 찾는 것입니다.

엔비디아는 슈퍼컴퓨터 시뮬레이션을 통해 Hopper와 Blackwell의 성능을 비교합니다.

• Blackwell NVLink 8 (FP8) : Blackwell은 NVLink 8과 FP8(8비트 부동 소수점)을 사용하여 Hopper보다 본질적으로 더 빠르고, 크고, 더 많은 트랜지스터를 가집니다.
• 새로운 정밀도 (FP4) : 4비트 부동 소수점(FP4)과 같은 새로운 정밀도를 도입하여 모델을 양자화하고, 동일한 작업을 더 적은 에너지로 수행할 수 있게 합니다.
• Dynamo의 역할 : Dynamo는 Hopper에도 도움이 되지만, Blackwell의 성능을 엄청나게 확장시킵니다.
• Blackwell 의 압도적인 효율성 : 동일한 전력(ISO power) 기준으로 blackwell은 Hopper보다 25배 더 높은 성능을 제공하며, 추론모델에서 Blackwell은 Hopper보다 40배 더 높은 성능을 제공합니다.

6. Blackwell 아키텍처와 AI 팩토리의 혁신

(출처 : NVIDIA)

엔비디아는 클라우드, 엔터프라이즈, 로봇 공학 세 가지 축을 중심으로 장기적인 AI 인프라 비전을 제시했습니다.

연간 로드맵 공개와 네트워크 기술 혁신, 오픈소스 기반 엔터프라이즈 도입, 물리 AI를 활용한 로봇 공학까지 앞으로의 AI 확산 방향을 명확히 보여주었습니다.

이전 세대 시스템 아키텍처인 HGX는 8개의 GPU로 구성되어 AI를 혁신했습니다. Blackwell은 하나의 패키지에 두 개의 BlackwellGPU를 포함하며, HGX 시스템에는 이러한 패키지가 8개 들어갑니다.

• 연간 로드맵 : Blackwell Ultra(2025), Vera Rubin(2026), Rubin Ultra(2027)
• 스케일 아웃 기술 : InfiniBand·SpectrumX·실리콘 포토닉스로 초대형 데이터센터 확장
• 엔터프라이즈 혁신 : NIMS 오픈소스 공개, DGX Station, 의미 기반 검색 스토리지
• 로봇 공학 시대 : Omniverse·Cosmos 활용 합성 데이터, 휴머노이드 Groot N1 공개