Google은 6세대 TPU인 Trillium을 공식 출시하고 Google Cloud 고객에게 공개했습니다. Trillium은 현재까지 Google의 가장 강력한 TPU이며 가장 강력한 AI 모델인 Gemini 2.0을 훈련하는 데 사용됩니다. 교육 성능, 추론 처리량, 에너지 효율성을 크게 향상시키는 동시에 비용을 절감합니다. 이 기사에서는 다양한 AI 워크로드에서 Trillium TPU의 성능 개선, 주요 기능 및 뛰어난 성능을 심층적으로 살펴보고 AI21Labs와 같은 고객 사이에서 실제 적용 사례를 보여줍니다.
올해 초 Google은 현재까지 가장 강력한 6세대 TPU인 Trillium을 출시했습니다. 오늘부터 Trillium은 Google Cloud 고객에게 공식적으로 제공됩니다.
Google은 Trillium TPU를 사용하여 현재까지 Google의 가장 강력한 AI 모델인 최신 Gemini2.0을 교육했습니다. 이제 기업과 스타트업 모두 동일하게 강력하고 효율적이며 지속 가능한 인프라를 활용할 수 있습니다.
AI 슈퍼컴퓨터의 핵심, 트릴리움 TPU
Trillium TPU는 Google Cloud AI 하이퍼컴퓨터의 핵심 구성요소입니다. AI 하이퍼컴퓨터는 성능에 최적화된 하드웨어, 개방형 소프트웨어, 선도적인 ML 프레임워크, 유연한 소비 모델 통합 시스템을 활용하는 획기적인 슈퍼컴퓨터 아키텍처입니다. Trillium TPU의 공식 출시와 함께 Google은 XLA 컴파일러와 JAX, PyTorch, TensorFlow와 같은 널리 사용되는 프레임워크를 최적화하여 AI 훈련에서 최고의 가격/성능을 달성하는 등 AI 하이퍼컴퓨터의 개방형 소프트웨어 계층을 크게 개선했습니다. , 튜닝 및 서비스.
또한 대용량 호스트 DRAM(보조 고대역폭 메모리, HBM)을 사용한 호스트 오프로드와 같은 기능은 더 높은 수준의 효율성을 제공합니다. AI 하이퍼컴퓨터를 사용하면 초당 13페타비트의 양방향 대역폭과 단일 분산 교육 작업을 수십만 개의 가속기로 확장할 수 있는 기능을 갖춘 Jupiter 네트워크 아키텍처당 100,000개 이상의 Trillium 칩을 전례 없이 배포하여 최대 가치를 추출할 수 있습니다.
AI21Labs와 같은 고객은 이미 Trillium을 사용하여 고객에게 의미 있는 AI 솔루션을 더 빠르게 제공하고 있습니다.
AI21Labs의 CTO인 Barak Lenz는 다음과 같이 말했습니다. “AI21에서는 Mamba 및 Jamba 언어 모델의 성능과 효율성을 개선하기 위해 지속적으로 노력하고 있습니다. TPU v4의 장기 사용자로서 Google Cloud Trillium의 기능에 깊은 인상을 받았습니다. 규모, 속도 및 비용 측면에서 효율성 향상은 중요합니다. 우리는 Trillium이 차세대 복잡한 언어 모델 개발을 가속화하는 데 중요한 역할을 하여 고객에게 더욱 강력하고 접근 가능한 AI 솔루션을 제공할 것이라고 믿습니다."
Trillium의 성과는 크게 향상되었으며 많은 지표가 새로운 기록을 세웠습니다.
이전 세대와 비교하여 Trillium은 다음과 같은 부분에서 상당한 개선을 이루었습니다.
훈련 성과가 4배 이상 향상되었습니다.
추론 처리량 3배 향상
에너지 효율 67% 증가
칩당 최고 컴퓨팅 성능 4.7배 향상
고대역폭 메모리(HBM)로 용량이 두 배로 늘어납니다.
ICI(Inter-Chip Interconnect)는 대역폭을 두 배로 늘립니다.
단일 Jupiter 네트워크 아키텍처에는 100,000개의 Trillium 칩이 포함되어 있습니다.
달러당 훈련 성능 2.5배 향상, 달러당 추론 성능 1.4배 향상
이러한 향상된 기능을 통해 Trillium은 다음을 포함한 다양한 AI 워크로드에서 우수한 성능을 발휘할 수 있습니다.
AI 훈련 워크로드 확장
밀도 모델 및 MoE(혼합 전문가) 모델을 포함한 LLM 교육
추론 성능 및 집단 스케줄링
밀집 모델 임베딩
교육 및 추론 비용 효율성 제공
Trillium은 다양한 워크로드에서 어떻게 작동합니까?
AI 훈련 워크로드 확장
Gemini2.0과 같은 대규모 모델을 훈련하려면 많은 데이터와 계산이 필요합니다. Trillium의 선형에 가까운 확장성을 통해 이러한 모델은 256칩 포드의 고속 칩 간 상호 연결과 최첨단 기술을 통해 연결된 여러 Trillium 호스트에 작업 부하를 효과적이고 효율적으로 분산함으로써 훨씬 더 빠르게 훈련될 수 있습니다. Jupiter 데이터 센터 네트워크. 이는 대규모 훈련을 위한 TPU 멀티칩, 풀스택 기술을 통해 달성되며, 호스트 어댑터부터 네트워크 아키텍처에 이르는 동적 데이터 센터 수준 오프로드 시스템인 티타늄을 통해 더욱 최적화됩니다.
Trillium은 3072개의 칩이 포함된 12개의 포드 배포에서 99%의 확장 효율성을 달성했으며 gpt3-175b를 사전 훈련하기 위해 6144개의 칩이 포함된 24개의 포드에서 94%의 확장 효율성을 보여주었습니다. 데이터 센터 네트워크에서 실행할 때도 마찬가지입니다.
밀도 모델 및 MoE(혼합 전문가) 모델을 포함한 LLM 교육
Gemini와 같은 LLM은 수십억 개의 매개변수를 포함하여 본질적으로 강력하고 복잡합니다. 이러한 집중적인 LLM 교육에는 엄청난 컴퓨팅 성능과 함께 공동 설계한 소프트웨어 최적화가 필요합니다. Trillium은 Llama-2-70b 및 gpt3-175b와 같은 집약적인 LLM을 교육할 때 이전 세대 Cloud TPU v5e보다 4배 빠릅니다.
집중 LLM 외에도 AI 작업의 다양한 측면에 각각 특화된 여러 "전문가" 신경망을 결합하는 혼합 전문가(MoE) 아키텍처를 사용하여 LLM을 교육하는 접근 방식이 점점 더 인기를 얻고 있습니다. 훈련 중에 이러한 전문가를 관리하고 조정하는 것은 단일 모놀리식 모델을 훈련하는 것에 비해 복잡성을 더합니다. Trillium은 MoE 모델을 학습할 때 이전 세대 Cloud TPU v5e보다 3.8배 빠릅니다.
또한 Trillium TPU는 Cloud TPU v5e에 비해 3배 더 많은 호스트 동적 랜덤 액세스 메모리(DRAM)를 제공합니다. 이는 일부 계산을 호스트에 오프로드하여 대규모 성능과 우수한 처리량을 극대화하는 데 도움이 됩니다. Trillium의 호스트 오프로딩 기능은 Llama-3.1-405B 모델을 교육할 때 모델 FLOP 활용(MFU) 성능을 50% 이상 향상시킵니다.
추론 성능 및 집단 스케줄링
다단계 추론의 중요성이 커지면서 증가하는 계산 요구 사항을 효율적으로 처리할 수 있는 가속기가 필요합니다. Trillium은 추론 워크로드에 상당한 발전을 제공하여 AI 모델을 더 빠르고 효율적으로 배포할 수 있도록 해줍니다. 실제로 Trillium은 이미지 확산 및 밀집된 LLM에 대해 최고의 TPU 추론 성능을 제공합니다. 테스트 결과 Stable Diffusion XL은 Cloud TPU v5e에 비해 상대 추론 처리량(초당 이미지)이 3배 이상 높은 반면 Llama2-70B는 거의 2배 더 높은 것으로 나타났습니다.
Trillium은 오프라인 및 서버 추론 사용 사례를 위한 최고 성능의 TPU입니다. 아래 그림은 Cloud TPU v5e와 비교했을 때 Stable Diffusion XL의 오프라인 추론 상대 처리량(초당 이미지 수)이 3.1배, 서버 추론 상대 처리량이 2.9배 더 높다는 것을 보여줍니다.
더 나은 성능 외에도 Trillium은 새로운 집합적 예약 기능도 도입했습니다. 이 기능을 사용하면 Google의 예약 시스템은 컬렉션에 여러 복제본이 있을 때 추론 작업 부하의 전반적인 가용성과 효율성을 향상시키기 위해 지능적인 작업 예약 결정을 내릴 수 있습니다. 이는 Google Kubernetes Engine(GKE)을 포함하여 단일 호스트 또는 다중 호스트 추론 워크로드를 실행하는 여러 TPU 슬라이스를 관리하는 방법을 제공합니다. 이러한 조각을 컬렉션으로 그룹화하면 수요에 맞게 복제본 수를 쉽게 조정할 수 있습니다.
밀집 모델 임베딩
Trillium은 3세대 SparseCore를 추가하여 임베딩 집약적 모델의 성능을 2배, DLRM DCNv2의 성능을 5배 향상시킵니다.
SparseCore는 임베디드 집약적 워크로드에 보다 적응성이 뛰어난 아키텍처 기반을 제공하는 데이터 흐름 프로세서입니다. Trillium의 3세대 SparseCore는 분산 수집, 희소 세그먼트 합계 및 파티셔닝과 같은 동적 및 데이터 관련 작업을 가속화하는 데 탁월합니다.
교육 및 추론 비용 효율성 제공
Trillium은 세계에서 가장 큰 AI 워크로드를 교육하는 데 필요한 성능과 규모 외에도 달러당 성능을 최적화하도록 설계되었습니다. 현재까지 Trillium은 Llama2-70b 및 Llama3.1-405b와 같은 집약적인 LLM을 교육할 때 Cloud TPU v5e보다 달러당 2.1배, Cloud TPU v5p보다 2.5배 더 나은 성능을 달성했습니다.
Trillium은 대규모 모델을 병렬로 비용 효율적으로 처리하는 데 탁월합니다. 연구원과 개발자가 이전보다 훨씬 저렴한 비용으로 강력하고 효율적인 이미지 모델을 제공할 수 있도록 설계되었습니다. Trillium에서 이미지 1,000개를 생성하는 데 드는 비용은 오프라인 추론의 경우 Cloud TPU v5e보다 27% 저렴하고, SDXL의 서버 추론의 경우 Cloud TPU v5e보다 22% 저렴합니다.
AI 혁신을 한 단계 더 발전시키다
Trillium은 다양한 AI 워크로드에 놀라운 성능, 확장성, 효율성을 제공하여 Google Cloud AI 인프라의 큰 도약을 의미합니다. 세계적 수준의 공동 설계 소프트웨어를 사용하여 수십만 개의 칩으로 확장할 수 있는 능력을 갖춘 Trillium은 더 빠른 혁신을 달성하고 우수한 AI 솔루션을 제공할 수 있도록 지원합니다. 또한 Trillium의 뛰어난 가격 대비 성능은 AI 투자 가치를 극대화하려는 조직에 비용 효율적인 선택이 됩니다. AI 환경이 계속 발전함에 따라 Trillium은 기업이 AI의 잠재력을 최대한 활용할 수 있도록 최첨단 인프라를 제공하려는 Google Cloud의 노력을 보여줍니다.
공식 소개: https://cloud.google.com/blog/products/compute/trillium-tpu-is-ga
전체적으로 Trillium TPU의 등장은 클라우드 AI 컴퓨팅 기능이 크게 향상되었음을 의미합니다. 강력한 성능, 확장성 및 경제적 이점은 AI 분야의 개발 속도를 높이고 기업 및 연구 기관에 더욱 강력한 AI 솔루션을 제공할 것입니다.