lilys 버전에 이상 단어 제외한 버전 —>
기조연설은 AI의 미래에 대한 비전을 제시합니다.
1. 🌟 지포스 5090의 혁신과 AI 활용더 자세히더 쉽게

- 지포스 5090은 기존 모델인 4090에 비해 부피가 30% 작고, 에너지 방출 효율이 30% 더 우수하다.[1-43]
- 인공지능(AI)을 활용하여 픽셀당 15개의 픽셀을 추론함으로써, 완전한 경로 추적을 통해 실시간 컴퓨터 그래픽을 구현한다.[1-49]
- 이는 시간적으로 안정적인 이미지를 제공하기 위해 이미지의 정확성을 유지하며 프레임 간에 변동 없이 정확히 추론해야 한다.[1-53]
- 지포스는 CUDA를 통해 AI의 발전을 가능하게 했으며, 이제 AI가 다시 컴퓨터 그래픽스의 혁신을 이끌고 있다.[1-47]
- 지포스 5090의 이러한 혁신은 25년 간의 개발 역사를 바탕으로 전 세계에서 매진되는 성과를 이루었다.[1-43]
1.1. 감사의 말씀
- 발표자는 여러 차례 감사를 표현했다. [1-1]
- 텍스트는 Nicolai Winther라는 이름으로 기록되었다. [1-2]
- 추가적인 내용은 없으며, 주로 감사 인사가 포함되어 있다. [1-1]
1.2. 토큰의 힘과 인공지능의 미래
- 토큰은 인공지능의 빌딩 블록으로, 새로운 가능성이 탄생하는 데 중요한 역할을 한다. [1-13]
- 이들은 이미지를 과학적 데이터로 변환하고, 미래의 탐험가들을 안내하는 데 기여한다. [1-15]
- 원시 데이터를 예측으로 전환함으로써, 다음 번에는 더 나은 준비를 할 수 있도록 돕는다. [1-16]
- 토큰은 물리학의 법칙을 해독하여 속도와 범위를 향상시킬 수 있다. [1-17]
- 이들은 질병을 사전 감지하여 치료가 이루어지기 전에 이를 해결할 수 있게 도와준다. [1-18]
- 생명의 언어를 이해하고 인류의 본질을 학습하는 데 중요한 역할을 한다. [1-19]
- 토큰은 보호가 필요한 생물체를 연결하여 우리의 보호가 필요함을 인식하게 한다. [1-20]
- 그들은 잠재력을 풍요로움으로 전환하고, 수확을 도와준다. [1-21]
- 마지막으로, 토큰은 로봇에게 단순한 움직임을 넘어서 기쁨을 주고 인간을 돕는 능력을 부여한다. [1-22]
1.3. GTC 2025 시작과 소개
- NVIDIA의 창립자이자 CEO인 Jensen Huang이 GTC에 참석자들을 환영한다. [1-25]
- 그는 NVIDIA 본사에서 진행되는 행사임을 공지하며, 인공지능의 마법을 통해 참석자들을 본사로 안내하고자 한다. [1-29]
- Jensen Huang은 위치를 강조하며, NVIDIA에서의 작업 환경을 소개한다. [1-31]
- Huang은 대본이나 텔레프롬프터 없이 무대에 서며, 이야기할 내용이 많다는 점을 언급한다. [1-33]
1.4. GTC 2025 컨퍼런스 소개
- GTC 2025에 참여한 모든 스폰서와 참석자들에게 감사를 표한다. [1-35]
- 다양한 산업이 대표되는데, 헬스케어, 교통, 소매업과 같은 분야가 포함된다. [1-36]
- 컴퓨터 산업 관련 인사들이 모두 참석하여 큰 의미가 있다. [1-38]
- GTC의 시작은 GeForce에서 비롯되었다. [1-40]
1.5. GeForce 5090 소개
- GeForce 5090은 출시된 지 25년이 지난 현재, 전 세계에서 완판된 상태이다. [1-43]
- 이 제품은 Blackwell 세대로, 4090과 비교했을 때 부피가 30% 작다. [1-44]
- 에너지 소산 능력이 30% 향상되었으며, 성능 또한 비교하기 어렵다고 강조된다. [1-45]
- 이러한 성과는 인공지능 덕분이라고 언급된다. [1-46]
1.6. AI와 컴퓨터 그래픽스의 혁신
- GeForce는 세계에 CUDA를 도입하여 AI를 가능하게 하였고, 지금은 AI가 컴퓨터 그래픽스를 혁신하고 있다.[1-47]
- 보여주는 것은 실시간 컴퓨터 그래픽스로, 100% 경로 추적이 이루어졌다.[1-49]
- 렌더링된 각 픽셀에 대해 인공지능이 나머지 15개 픽셀을 예측한다.[1-50]
- 픽셀 렌더링에서 인공지능이 추론을 수행하며, 정밀함이 요구된다.[1-52]
- 이 과정은 시간적 안정성을 유지해야 하므로, 프레임 간의 일관성을 확보해야 한다.[1-53]
2. 🤖 AI의 진화와 데이터 중심의 컴퓨팅 변환더 자세히더 쉽게

- 인공지능(AI)은 지난 10년간 비약적인 발전을 이루었으며, 특히 생성 AI에 중점을 두고 다양한 형태의 콘텐츠 생성 방법을 탐구하고 있다. [2-1]
- AI는 이제 데이터 검색에서 벗어나 맥락을 이해하고 요청의 의미를 파악하여 답변을 생성하는 방식을 통해 컴퓨팅의 근본을 변화시켰다. [2-7]
- 새로운 AI 개념인 Agentic AI는 AI가 상황을 인지하고 문제 해결을 위한 계획을 수립하며, 물리적 세계를 이해할 수 있는 능력을 갖추었음을 의미한다. [2-14]
- AI의 발전은 데이터 문제와 훈련 문제, 스케일링 문제를 풀어야 하는 과제로 이어지며, 이를 통해 AI는 계속해서 데이터 기반의 학습을 지속해야 한다. [2-40]
- 최종적으로, AI의 발전과 함께 데이터 센터의 구축이 증가하고 있으며, 이는 AI의 필요성과 성능 향상에 따른 것으로, 앞으로의 소프트웨어는 컴퓨터가 생성하는 토큰에 기반할 것이다. [2-101]
2.1. 인공지능의 발전과 변화
- 인공지능은 지난 10년 간 비약적인 발전을 이루었다. [2-1]
- 인공지능은 처음에는 인지 AI와 관련된 기술들, 즉 컴퓨터 비전, 음성 인식에서 시작되었고, 이후 생성 AI로 발전했다. [2-3]
- 최근 5년 간은 다양한 방식으로 데이터를 변환하는 생성 AI에 중점을 두어 텍스트에서 이미지, 이미지에서 텍스트 등 여러 형태의 콘텐츠를 생성하는 방법을 개발했다. [2-5]
- 생성 AI는 데이터를 미리 생성하고 저장하는 전통적인 방법에서, 필요할 때 실시간으로 context를 이해하고 의도를 파악하여 답변을 생성하는 방식으로의 근본적인 변화를 가져왔다. [2-7]
- 이제 AI는 데이터를 단순히 검색하는 것이 아니라, 요구에 맞게 직접 답변을 생성하는 것으로 컴퓨팅 방식이 근본적으로 변화하였다. [2-6]
2.2. 에이전틱 AI 및 물리적 AI의 발전
- 에이전틱 AI는 행동 능력을 갖춘 인공지능으로, 상황을 인식하고 이해하며 문제 해결을 위한 추론 및 계획을 할 수 있다.[2-14]
- 이 AI는 다양한 정보를 이해하고, 웹사이트에 접속하여 학습한 내용을 활용하여 작업을 수행하는 능력을 지닌다.[2-18]
- 물리적 AI의 발전으로, AI는 마찰과 관성, 원인과 결과 같은 물리적 세계를 이해할 수 있으며, 이는 로봇 기술을 활성화할 것이다.[2-22]
- 각 단계의 발전은 새로운 시장 기회를 창출하고, 더 많은 파트너를 GTC에 끌어들이며, GTC에 참석하는 인원이 매년 증가하는 계기가 된다.[2-27]
- GTC는 지난 해 라이브 행사 이후로 AI의 산업적 문제 해결 능력이 향상되어, 올해는 에이전틱 AI와 물리적 AI에 대해 많은 논의가 있을 것이라고 언급된다.[2-36]
2.3. AI의 발전을 위한 핵심 요소
- AI의 발전을 위해 해결해야 할 세 가지 근본적인 문제는 데이터 문제, 훈련 문제 및 확장성 문제이다. [2-40]
- 데이터 문제 해결을 위해 AI는 학습할 데이터와 디지털 경험이 필요하다. [2-41]
- 훈련 문제는 인간 개입 없이 AI가 초인적인 속도로 학습할 수 있도록 하는 방법이 있으며, 이는 시간의 제약 때문에 도전적이다. [2-44]
- AI 모델을 어떻게 훈련할지와 함께, 자원을 제공할수록 AI가 더 똑똑해지는 알고리즘을 찾아야 하는 점도 중요한 과제이다. [2-45]
- 최근 1년간, AI의 컴퓨테이션 요구 사항은 예상보다 100배 더 많은 것을 필요로 하며, 이는 행동 기반 AI와 추론의 발전 때문인 것으로 추정된다. [2-46]
2.4. AI의 추론 능력 향상
- Agentic AI는 문제를 단계별로 분석하는 추론 기능을 갖추고 있다. 이는 문제를 다양한 방식으로 접근하여 최선의 답을 선택하는 과정을 포함한다. [2-51]
- 현재의 AI는 문제를 해결한 후 답을 다시 확인하는 과정도 수행하며, 이는 예를 들어 이차방정식을 통해 답의 적절성을 검증하는 방식이다. [2-55]
- 이전의 ChatGPT는 복잡한 질문에 대해 제대로 답하지 못하는 경우가 많았지만, 이제는 단계별 추론을 통해 이러한 문제를 해결할 수 있게 되었다. [2-56]
- AI의 기본 기술은 여전히 동일하지만, 이제 AI는 단계적으로 생성하는 방식으로 다음 토큰을 만들어내고 있다. [2-61]
- 따라서, 발생하는 토큰의 양이 100배 증가하며, 모델이 더욱 복잡해지고 요청에 대해 보다 빠르게 반응할 수 있도록 계산 속도가 10배 증가해야 한다. [2-68]
2.5. AI 학습 및 인프라 발전
- AI의 학습 과정을 위해 추론 방법을 교육해야 한다고 주장한다.[2-73]
- 최근 몇 년 간 강화 학습의 발전으로 AI가 문제를 단계별로 해결하는 능력이 향상되었다.[2-75]
- 다양한 문제 해결 예시로는 2차 방정식과 피타고라스 정리 등 여러 수학 및 논리적 규칙들을 활용할 수 있다.[2-78]
- AI에게 수백 개의 주제와 수백만 가지의 예제를 제공하여 강화 학습을 통해 성과를 보상하는 방식으로 학습이 가능하다.[2-83]
- AI 인프라가 급속도로 성장하고 있으며, 이는 AI의 활용 능력이 향상되고 컴퓨팅 수요가 증가했음을 시사한다.[2-93]
2.6. 데이터 센터의 발전과 계산 방식의 변화
- 데이터 센터의 자본 지출 증가가 2030년까지 가속화될 것으로 예상되며, 이로 인해 데이터 센터 구축 비용이 1조 달러에 이를 것으로 보인다.[2-102]
- 일반적 컴퓨팅이 한계를 드러내며, 데이터 센터는 기계 학습 소프트웨어와 GPU를 통한 새로운 접근으로 전환되고 있다.[2-105]
- 기존의 파일 검색 기반 컴퓨팅에서 생성 기반 컴퓨팅으로의 이동이 이루어지며, 이는 데이터 센터 구조에 큰 변화를 가져온다.[2-112]
- AI 공장으로 불리는 새로운 데이터 센터는 데이터를 토큰으로 생성하고, 이를 음악, 언어, 비디오 등 다양한 형태로 재구성하는 역할을 한다.[2-111]
- 각 과학 분야를 위한 다양한 CUDAx 라이브러리와 가속화 프레임워크가 필요하며, 이는 소프트웨어의 발전과 AI 생성에 필수적이다.[2-122]
3. 🚀 컴퓨팅의 새로운 패러다임: 가속화된 컴퓨팅과 AI의 접목더 자세히더 쉽게

- KooLitho는 NumPy 사용자를 위한 CU Numerica 라이브러리로, 리소스를 적게 소모하면서 신속한 결과를 제공한다.[3-1]
- 향후 모든 산업에서는 두 개의 공장이 필요해지며, 하나는 제조 중심, 다른 하나는 AI와 수학적 계산 중심이 될 것이다.[3-6]
- NVIDIA는 Coopt 라이브러리를 통해 공급망 관리를 최적화하고, 소요 시간을 순식간에 단축시킬 수 있게 되었다.[3-19]
- AI는 모든 산업에 깊숙이 자리잡으며, 특히 5G와 자율주행차에서 그 활용도가 증가할 것으로 예상된다.[3-12]
- 오늘 발표된 NVIDIA Halos는 자율주행차의 모든 코드가 안전성을 평가받았다는 점에서 자율주행의 신뢰성을 높이는 데 기여한다.[3-137]
3.1. KooLitho 및 AI RAN 혁신 소개
- KooLitho는 NumPy 사용자에게 추천되는 제로 변경의 가속 라이브러리이며, CU Numerica를 사용하면 많은 이점을 누릴 수 있다.[3-1]
- 컴퓨테이셔널 리소그래피는 반도체 제조 공정의 두 번째 공정을 포함하며, 미래의 모든 산업은 제품 제조와 AI를 위한 수학적 공정의 두 가지 공장을 가질 것이다.[3-4]
- Arial 라이브러리는 5G 라디오로 GPU를 변환하며, 향후 AI가 통신 네트워크에 깊숙이 통합될 것이라고 예상된다.[3-12]
- 산업 전반에 걸쳐 다양한 제약과 변수를 최적화하는 데 필요한 수학적 최적화가 필수적이며, NVIDIA는 이를 공급망 관리에 적극 활용하고 있다.[3-17]
- NVIDIA는 Coopr를 오픈 소스화할 예정이며, 이로 인해 업계는 큰 기대를 모으고 있다.[3-22]
3.2. 인공지능을 가능하게 하는 CUDA와 라이브러리들
- CUDA는 단일 소프트웨어가 아니라, 다양한 라이브러리와 통합되어 인공지능과 소프트웨어 생태계를 지원하는 기반이다. [3-35]
- 최근 NVIDIA는 일반 목적 컴퓨터를 사용하여 소프트웨어를 느리게 실행하며 가속화된 컴퓨터를 설계하였는데, 이는 최적화된 소프트웨어가 부족했기 때문이다. [3-40]
- 이제는 가속화된 컴퓨팅으로 산업 전체가 슈퍼차지될 준비가 되어 있으며, 이는 곧 CU-DSS와 같은 새로운 솔루션 덕분이다. [3-42]
- CUDF는 구조화된 데이터를 위한 데이터 프레임으로, Spark와 Pandas의 가속화를 지원한다. [3-43]
- CUDA의 큰 설치 기반 덕분에, 다양한 라이브러리를 통한 속도 향상과 확장성이 모든 개발자에게 제공된다. [3-51]
3.3. 가속 컴퓨팅의 전환점
- 가속 컴퓨팅의 전환점에 도달했으며 CUDA가 이를 가능하게 했다. [3-58]
- GTC는 생태계와 커뮤니티의 힘으로 이루어진 행사로, 모든 참가자들이 이 변화에 기여했다. [3-60]
- CUDA는 창조자, 개척자, 미래의 건설자를 위해 설계되었으며, 2006년 이후 200만명이 넘는 개발자가 이를 사용하고 있다. [3-63]
- 900개 이상의 CUDAx 라이브러리와 AI 모델을 통해 과학을 가속화하고 산업을 재편하며 머신에게 인식, 학습, 추론 능력을 부여하고 있다. [3-65]
- NVIDIA Blackwell은 첫 CUDA GPU에 비해 50,000배 빠르며, 이러한 성장은 시뮬레이션과 실시간 디지털 트윈 간의 차이를 줄이는 데 기여하고 있다. [3-66]
3.4. AI의 발전과 인프라의 중요성
- AI는 클라우드에서 시작되었으며, 이는 AI가 인프라를 필요로 하기 때문으로, 클라우드 데이터 센터는 이러한 인프라를 제공한다. [3-74]
- AI와 머신 러닝은 복잡한 전체 스택을 요구하며, 이는 단순히 칩이나 라이브러리 뿐만 아니라 여러 소프트웨어가 결합된 구조이다. [3-83]
- 다양한 환경에서 AI를 활용하기 위해서는 시스템 구성이나 사용 목적에 따라 차이가 나며, 이는 기업 IT, 제조업, 로봇공학 등 여러 분야에 해당한다. [3-93]
- 최근 T-Mobile, Cisco, NVIDIA와 Cerberus ODC가 라디오 네트워크를 위한 전체 스택을 구축할 예정이다. 이는 AI를 엣지에 적용하는 방향으로 나아가게 된다. [3-97]
- 향후 AI는 통신 변화에 더 뛰어난 적응력을 발휘할 것이며, 특히 강화 학습을 통해 무선 신호와 환경 변화에 대응할 수 있을 것이다. [3-100]
3.5. 자율주행차와 AI의 통합
- AI는 모든 산업에 진입할 것이며, 자율주행차는 그 중 하나로, 초기 산업 중 하나이다.[3-116]
- AlexNet을 보고 자극을 받아 자율주행차 개발에 전념하게 되었고, 이후 10년 이상 자율주행차 기술을 개발해왔다.[3-119]
- NVIDIA의 기술은 대부분의 자율주행차 회사에서 사용되며, 데이터 센터와 차량에서 모두 활용된다.[3-123]
- GM과의 파트너십을 통해, AI를 활용하여 자율주행차의 미래를 함께 구축할 계획이다.[3-131]
- AI는 제조 혁신, 기업 혁신, 그리고 차량 내부의 AI 인프라에 적용될 것이다.[3-132]
3.6. 자동차 안전 및 AI 기술의 통합
- 안전은 시스템 개발의 모든 부분에 기술이 깊이 내재되어야 하며, 이는 다각적인 접근과 투명성, 설명 가능성을 포함한다. [3-137]
- NVIDIA는 세계 최초로 모든 코드의 안전성을 평가한 기업으로, 무려 700만 라인의 코드가 평가되었다. [3-138]
- Halos 워크숍을 통해 미래 자동차의 안전성 및 자율성을 보장하기 위한 다양한 기술들이 소개된다. [3-141]
- Cosmos는 AI 기반 자율주행 시스템의 끝단 훈련을 지원하며, 모델 증류, 폐쇄 루프 훈련 및 합성 데이터 생성을 포함한 새로운 개발 방법을 제공한다. [3-147]
- Omniverse는 4D 환경을 구축하여 자율주행차가 다양한 환경에 적응하고 안전한 주행을 가능하게 한다. [3-158]
3.7. 데이터 센터의 혁신적 발전
- 블랙웰 아키텍처가 본격 생산에 들어갔으며, 이는 컴퓨터 아키텍처의 근본적인 전환을 나타낸다.[3-170]
- 분산 컴퓨팅은 여러 컴퓨터가 함께 작업해야 하지만, 먼저 스케일 업을 해야 한다는 점을 강조한다.[3-181]
- 이전 세대 시스템 아키텍처인 HGX는 인공지능을 혁신적으로 발전시켰고, 8개의 GPU로 구성되어 있다.[3-196]
- NVLink 스위치는 모든 GPU가 동시에 통신할 수 있도록 하여 시스템의 성능을 극대화하고, 액체 냉각 방식을 통해 컴퓨터 노드를 집적하게 한다.[3-212]
- 최종적으로, 이 시스템은 570TB/s의 메모리 대역폭과 1엑사플롭스의 성능을 제공하는, 세계에서 가장 극단적인 스케일 업을 달성하였다.[3-232]
4. 🤖 인퍼런스와 AI 팩토리의 효율성더 자세히더 쉽게

- 인퍼런스는 토큰 생성을 통해 수익과 이익을 창출하는 공장과 같으며, 따라서 극한의 효율성과 성능이 요구된다.[4-1]
- AI의 성능을 높이기 위해서는 많은 토큰을 생성해야 하며, 이는 반응 속도와 처리량 간의 근본적인 긴장을 발생시킨다.[4-12]
- AI 공장은 고객 서비스의 품질을 극대화함과 동시에 다양한 사용자에게 신속하게 토큰을 제공할 수 있도록 설계되어야 하며, 이를 위해 메모리와 대역폭이 필수적이다.[4-29]
- 예를 들어, 전통적인 LLM(대형 언어 모델)은 빠른 답변을 제공하지만, 복잡한 문제를 해결하기 위해서는 사고하는 토큰이 필요하며 이로 인해 더 많은 계산량과 시간이 요구된다.[4-42]
- NVIDIA는 이러한 문제를 해결하기 위해 AI 팩토리의 운영 체제인 NVIDIA Dynamo를 도입하며, 이는 다양한 연산을 효율적으로 관리하고 최적의 처리량을 유지하도록 설계되었다.[4-119]
4.1. 최적화된 추론 과정이 중요하다
- 추론은 토큰 생성을 위한 공장과 같아서, 이는 궁극적인 극단적 컴퓨팅 문제이다. [4-1]
- 이 공장은 수익과 이익을 창출하는 역할을 하며, 그렇지 않을 수도 있다. [4-2]
- 따라서 이 공장은 극도의 효율성과 극도의 성능으로 구축되어야 하며, 이는 서비스 품질, 수익, 및 수익성에 직접적인 영향을 미친다. [4-4]
4.2. AI에서의 토큰 생성과 속도
- 토큰은 사용자 입력에 대한 결과물로, ChatGPT와 같은 AI 채팅 시스템에서 사용되며, x축은 초당 토큰 수를 나타낸다.[4-7]
- 입력된 토큰들은 단어로 재구성되며, 하나의 토큰이 여러 단어로 변환될 수 있는 예시로 “THE”가 있다.[4-9]
- 더 많은 토큰을 생성하면 AI가 더 똑똑해지는 경향이 있으며, 다양한 아이디어를 제시하고 최상의 아이디어를 선택하는 과정이 포함된다.[4-12]
- 반면, 너무 오랜 시간이 걸리면 고객이 돌아오지 않을 수 있으며, 이는 웹 검색과 유사한 문제이다.[4-17]
- 따라서 사용자의 질문에 대한 답변 속도를 높이는 것이 중요하며, 이러한 속도가 토큰 생성에서도 중요한 요소가 된다.[4-22]
4.3. ️ 컴퓨터 과학과 공장 내의 기본적인 긴장 관계
- 컴퓨터 과학과 공장에서는 지연(latency), 응답 시간(response time), 처리량(throughput) 사이의 기본적인 긴장이 존재한다. [4-24]
- 고객의 수요를 모아서 특정 버전을 제작하는 배치 처리(batching) 방식이 사용되나, 제작과 소비 사이에는 긴 시간이 소요될 수 있다. [4-25]
- AI 공장이 생성하는 토큰(tokens)에서 이 같은 긴장 관계가 나타나며, 고객의 서비스 품질을 최대한 향상시켜야 하는 필요와 동시에 데이터 센터의 수익을 극대화하기 위한 생산량 증대 목표가 상충한다. [4-27]
- 이상적인 경우에는 수익 극대화를 위해 가능한 많은 토큰을 빠르게 생성해야 하나, 이는 많은 컴퓨테이션(computation)과 대역폭(bandwidth)을 요구하는 매우 어려운 문제로 판명된다. [4-34]
- 따라서, 뛰어난 컴퓨터 시스템을 구축하기 위해서는 가능한 많은 플롭스(flops), 메모리, 대역폭을 확보하고, 뛰어난 아키텍처 및 에너지 효율성을 갖춘 프로그래밍 모델이 필요하다. [4-37]
4.4. 전통적인 LLM과 추론 모델의 비교
- 전통적인 LLM은 기본 지식을 캡처하며, 추론 모델은 복잡한 문제를 해결하는 데 도움을 준다.[4-42]
- 결혼식 테이블 배치 문제에서 전통적인 LLM은 500토큰 이하로 신속하게 답변하지만, 실수로 손님 배치를 잘못한다.[4-44]
- 반면 추론 모델은 8,000토큰 이상을 사용하며 문제를 해결하고 뚜렷한 답변을 생성한다.[4-45]
- 대규모 결혼식에서 최적의 좌석 배치를 찾는 문제는 AI만 해결할 수 있으며, 이는 복잡한 문제로 여겨진다.[4-48]
- 전통적인 LLM의 빠른 답변은 효과적이지만, 잘못된 정보를 줄 수 있어 결과적으로 439토큰이 낭비된다.[4-56]
4.5. 대규모 AI 모델의 처리 방법
- Blackwell 시스템은 스케일업된 MV-Link 72를 기반으로 하며, 주어진 모델을 효율적으로 처리해야 한다. [4-62]
- 현재 R1은 680억 개의 파라미터를 가지고 있으며, 차세대 모델은 수조 개의 파라미터에 이를 수 있다. [4-63]
- 이러한 대규모 모델을 해결하기 위해 작업 부하를 여러 GPU에 분산시켜야 한다. [4-66]
- GPU 간의 병렬 처리 방식으로는 텐서 병렬, 파이프라인 병렬, 전문가 병렬이 가능하며, 각각의 조합은 복잡하다. [4-67]
- 소프트웨어와 운영체제는 AI 팩토리의 최적화를 위해 여러 기술을 활용한 배치와 집계 작업을 관리해야 하므로 매우 복잡하다. [4-72]
4.6. ️ NVLink와 GPU의 효율적 활용
- NVLink 아키텍처는 모든 GPU가 고유의 작업을 수행할 수 있게 해주며, 이로 인해 모델의 추론 과정에서 각 GPU의 역할이 중요해진다.[4-74]
- 추론 과정은 생각하기와 디코드의 두 가지 주요 단계로 나눌 수 있으며, 생각하기 단계는 정보를 소화하고 처리하는 데 집중되어 부하가 높은 플롭스(초당 부동 소수점 연산 수)를 요구한다.[4-75]
- 디코드 단계에서는 대량의 대역폭이 필요하며, 큰 언어 모델은 다음 토큰을 예측하는 과정에서 온갖 종류의 계산과 대량의 데이터를 소모한다.[4-88]
- NVLink를 활용하면 여러 GPU를 하나의 거대한 GPU처럼 운영할 수 있으며, 이로 인해 상황에 맞게 GPU의 사용량을 조정할 수 있다.[4-102]
- 다양한 작업에 따라 GPU를 동적으로 조정하고 메모리 계층을 관리하는 것이 중요하며, 추론 관리가 매우 복잡하다는 점이 강조된다.[4-115]
4.7. NVIDIA Dynamo: AI 공장의 운영 체제
- NVIDIA Dynamo는 AI 공장의 운영 체제로, 과거 데이터 센터에서 사용했던 운영 체제와는 다르게 설계되었다. [4-119]
- 전통적인 기업 IT 대신, AI 공장에서 실행되는 애플리케이션은 대리인(agents)으로 구성된다. [4-124]
- NVIDIA Dynamo는 오픈 소스 소프트웨어로, 많은 파트너들과 협력하여 개발되고 있다. [4-135]
- 이 소프트웨어는 에너지 혁명의 시초인 다이너모에서 영감을 받아 명명되었으며, 이는 변화의 시작을 의미한다. [4-128]
- 다이너모는 물을 받아들이고 전기를 생성하는 과정에서 큰 가치를 창출하는 것으로 설명된다. [4-130]
4.8. NVIDIA의 AI 공장 성능 개선 전략
- Hopper는 사용자당 초당 약 100 토큰을 생성할 수 있으며, 이를 통해 데이터 센터는 1메가와트 기준으로 100,000 토큰을 초당 생성할 수 있다.[4-146]
- Blackwell 아키텍처는 Hopper보다 40배 뛰어난 성능을 제공하며, 연간 수익이 파워 소비에 제한을 받는 AI 산업에서 에너지 효율적인 컴퓨팅 아키텍처의 중요성이 강조된다.[4-209]
- Pareto 프론티어 분석을 통해 최적의 데이터 센터 구성과 성능을 찾을 수 있으며, 다양한 구성 옵션이 존재함으로써 프로그래머블 아키텍처의 필요성이 제기된다.[4-194]
- Vera Rubin 시스템은 이전 세대보다 두 배 높은 성능을 제공하며, 다양한 새로운 구성 요소로 설계된다.[4-285]
- Spectum X는 AI 인프라를 위한 고성능 네트워크 솔루션으로, 실리콘 포토닉스 기술을 기반으로 하여 데이터 센터의 연결성을 강화하고 1.6테라비트/초 속도를 지원한다.[4-328]
5. ⚙️ GPU 및 네트워킹 기술 발전더 자세히더 쉽게

- Moxander 기술을 이용하여 GPU와 스위치 간의 연결을 구성하며, 이 시스템은 100,000 GPUs에 대해 180메가와트의 소비 전력을 필요로 한다. [5-2]
- MRM (Micro Mirror) 기술을 통해 레이저 신호를 0과 1로 변환하여 전력 사용을 최적화하고, 이를 통해 데이터 센터의 전력 소비를 텐 메가와트 단위로 절감할 수 있다. [5-19]
- Silicon photonic switch는 512포트 구성으로 제공되며, 이 기술은 다수의 GPU와 스위치 간의 연결을 쉽게 확장할 수 있는 기반을 마련한다. [5-32]
- 엔터프라이즈 AI의 발전을 위해 모든 소프트웨어 엔지니어가 AI 도움을 받을 것이며, 이는 데이터 접근 방식을 혁신한다. [5-64]
- 미래의 데이터 저장 시스템은 개념 기반 검색 시스템으로 진화하며, 사용자가 데이터를 검색하기보다는 질문을 던져 답변을 받을 수 있는 구조가 된다. [5-85]
5.1. GPU와 전력 소비의 문제
- GPU의 연결에는 각 GPU마다 여섯 개의 transceivers가 필요하며, 이는 추가적으로 180 watts의 전력을 소모한다. [5-13]
- 만약 100,000 GPUs가 있다면, 100,000개의 plugs와 추가적으로 100,000개의 transceivers가 필요하다. [5-11]
- 250,000 GPUs의 경우, 더 많은 스위치 레이어가 추가되며, 이는 180 megawatts의 전력을 소모하게 된다. [5-12]
- 전력 소비는 고객의 수익에 직접적인 영향을 미치며, 에너지가 가장 중요한 자원임을 강조한다. [5-16]
- 대규모 GPU를 확장하는 데 있어 전력 소비의 문제는 심각한 한계로 작용한다. [5-15]
5.2. 혁신적인 MRM 기술과 그 응용
- MRM(micro mirror)은 세계 최초의 기술로, 직선 연속 레이저 빔을 1과 0으로 변환하는 혁신적인 방식이다.[5-18]
- 이 기술은 포토닉 IC와 전자 IC, 마이크로 렌즈, 파이버 배열이 조합된 구조로 구성되어 있다.[5-23]
- 모든 기술은 TSMC의 CoWoS 및 3D CoWoS 기술을 통해 제조되며, 여러 기술 제공자와 협력하여 놀라운 시스템을 만든다.[5-25]
- 2025년 하반기에는 실리콘 포토닉 스위치가 출시될 예정이며, 이 기술을 통해 512 포트의 스위치를 제공할 수 있다.[5-32]
- 이 혁신은 데이터 센터에서 10~60 메가와트의 전력 절약이 가능해져, 상당한 양의 Rubin Ultra 랙을 배치할 수 있는 기회를 제공한다.[5-36]
5.3. ️ NVIDIA의 로드맵 및 AI의 기업 적용
- NVIDIA는 매년 신제품 라인을 출시하며, 2년에 한 번씩 아키텍처를 발표하는 로드맵을 가지고 있다.[5-40]
- AI를 전 세계 기업에 도입하기 위해서는 NVIDIA의 다른 부문에 접근해야 하는 상황이다.[5-48]
- AI와 기계 학습은 전체 컴퓨팅 스택을 재정의하였으며, 이는 프로세서, 운영 체제, 그리고 애플리케이션의 변화를 동반한다.[5-51]
- 애플리케이션의 변화뿐만 아니라 이를 운영하고 조정하는 방식도 달라졌다.[5-55]
5.4. 데이터 접근 방식의 혁신
- 미래에는 데이터를 정확히 검색하는 방식이 변화하여, Perplexity에 질문을 하면 즉시 답변을 받을 수 있다.[5-57]
- AI 에이전트가 디지털 인력의 일부로 작용하며, 전 세계에 10억 명의 지식 노동자와 100억 명의 디지털 노동자가 함께 일할 것으로 예상된다.[5-61]
- 모든 소프트웨어 엔지니어, 약 3000만 명,이 AI에 의해 지원받고 있으며, NVIDIA의 소프트웨어 엔지니어들은 올해 말까지 100% AI 지원을 받게 될 것이라고 주장한다.[5-64]
- 기업 운영 방식은 근본적으로 다르게 변화할 것이며, 이에는 새로운 컴퓨터 기술이 필요하다.[5-67]
- 미래의 PC는 20 페타플롭스, 72개의 CPU 코어, HBM 메모리 등 혁신적인 사양을 갖추어야 한다.[5-70]
5.5. ️ AI 시대의 컴퓨터와 스토리지 혁신
- DGX Station과 DGX Spark는 HP, Dell, Lenovo, Asus 등 모든 OEM에서 제공될 예정이다.[5-72]
- 이 시스템은 데이터 과학자와 연구자들을 위해 설계된 AI 시대의 컴퓨터로, 기업용으로 다양한 크기의 제품들이 제공될 것이다.[5-74]
- 컴퓨팅 스택의 세 가지 기둥은 컴퓨팅, 네트워킹, 그리고 스토리지로 구성되어 있으며, 이 중 스토리지는 근본적으로 재발명되어야 한다.[5-78]
- 스토리지 시스템은 이제 단순한 데이터 검색 시스템이 아닌, 의미 기반의 저장 시스템으로 발전하여, 사용자가 질문을 하고 문제를 제기하면 정보를 제공하도록 설계될 예정이다.[5-84]
- 이와 같은 미래의 기업 스토리지는 지금 합작 중인 여러 파트너들 덕분에 모든 기업에서 사용될 것으로 보인다.[5-92]
5.6. 엔터프라이즈 혁신과 AI 모델 발표
- NVIDIA는 세계의 기업들을 혁신하기 위해 새로운 모델을 발표했으며, 이 모델은 모든 사용자가 실행할 수 있다. [5-99]
- R1이라는 Reasoning 모델이 Llama 3와 비교했을 때 더 지능적이며, 이는 모든 기업에 적합하도록 오픈 소스로 제공된다. [5-100]
- 이 모델은 NIMS 시스템의 일환으로, 다양한 하드웨어와 클라우드에서 실행할 수 있으며, 여러 AI 프레임워크와 통합이 가능하다. [5-101]
- Accenture, Amdocs, AT&T 등 다양한 파트너 기업들이 NVIDIA 기술을 활용하여 AI 시스템을 구축하고 있으며, 재정서비스와 관련된 기업에서도 NVIDIA 기술이 통합되고 있다. [5-103]
- 이 발표는 중요한 기조 연설로, 초기 30분 차트와 이후 슬라이드가 모두 같은 시간에 걸쳐 진행되었다. [5-114]
5.7. 로봇 산업의 미래와 NVIDIA의 혁신
- 로봇은 인간 노동자의 심각한 부족 문제를 해결할 수 있는 잠재력을 가지고 있으며, 2030년까지 세계적으로 최소 5천만 명의 인력이 부족할 것으로 예상된다.[5-120]
- NVIDIA는 로봇 교육을 위해 대량의 데이터를 필요로 하며, Omniverse와 Cosmos를 이용해 다양한 합성 데이터를 생성하여 로봇 정책을 훈련할 수 있게 한다.[5-135]
- Groot N1은 인간형 로봇을 위한 일반적인 기초 모델로, 인공지능의 빠르고 느린 사고 체계를 기반으로 하여 환경을 인식하고 신속하게 행동을 계획할 수 있도록 설계되었다.[5-149]
- NVIDIA는 로봇의 물리적 환경과 상호작용을 시뮬레이션할 수 있는 새로운 물리 엔진인 Newton을 통해, 세밀한 턱과 아래로 힘을 느낄 수 있는 상황에서도 훈련할 수 있는 가능성을 제공한다.[5-184]
- 로봇 산업은 시뮬레이션에서 태어나는 놀라운 기회를 제공하며, 모집 데이터와 알고리즘의 향상이 로봇의 발전을 가속화할 것으로 예상된다.[5-148]
답글 남기기