Google 세부 사항 대규모 추론을위한 Ironwood TPU

Google은 4 월 Google Cloud ’25에서 초기 발표에 이어 Hot Chips 2025에서 Ironwood Tensor Processing Unit (TPU)에 대한 세부 정보를 공개했습니다. Ironwood는 Google의 7 세대 TPU를 대표하며, 특히 대규모 추론 워크로드를 위해 설계되어 교육에 중점을 둔 이전 세대와의 전환을 표시합니다. 각 Ironwood Chip에는 2 개의 Compute Dies가 통합되어 4,614 개의 FP8 성능을 제공합니다. HBM3E의 8 개 스택을 특징으로하며 7.3 TB/S 대역폭으로 칩 당 192GB의 메모리를 제공합니다. 시스템 아키텍처는 포드 당 최대 9,216 개의 칩을 확장하여 1.2TB/s의 I/O 대역폭으로 촉진되어 접착제 로직이 필요하지 않으며 총 42.5 엑사 플롭의 성능을 달성합니다. Ironwood의 주요 하이라이트는 메모리 용량입니다. 단일 포드는 1.77 PB의 직접적으로 주소 지정 가능한 HBM을 제공하며, Google은 공유 메모리 슈퍼 컴퓨터의 새로운 세계 기록이라고 주장합니다. 이 광범위한 메모리 용량은 랙을 연결하는 광학 회로 스위치에 의해 가능합니다. Ironwood TPU는 또한 신뢰성과 탄력성을 강조합니다. 하드웨어는 실패한 노드 주위를 자동으로 재구성하고 체크 포인트에서 워크로드를 복원 할 수 있습니다. 칩 오브 트러스트 루트, 내장 자체 테스트 기능, 침묵 데이터 손상 완화 및 제조 수율을 향상시키기위한 논리 수리 기능이 포함됩니다. Google에 따르면 RAS (신뢰성, 가용성 및 서비스 가능성)에 대한 강조가 아키텍처 전체에서 볼 수 있습니다. 냉각은 Google의 3 세대 액체 냉각 인프라와 통합 된 콜드 플레이트 솔루션으로 처리됩니다. Google은 Ironwood가 전임자 인 Trillium에 비해 2 배의 성능 향상을 달성했다고 주장합니다. 동적 전압 및 주파수 스케일링은 다양한 워크로드 중 효율을 향상시킵니다. ALU 회로 및 평면도를 최적화하기 위해 Ironwood 설계에 AI 기술이 사용되었습니다. 추천 엔진과 같은 워크로드를 지원하는 임베딩 및 집단 운영을 가속화하기 위해 4 세대 Sparsecore가 추가되었습니다. Ironwood 배포는 현재 Google Cloud Data Centers의 Hyperscale에서 진행 중입니다. 그러나 TPU는 내부 플랫폼으로 유지되며 Google Cloud 고객이 직접 사용할 수 없습니다. Servethehome의 Ryan Smith는 Hot Chips 2025의 Google 프레젠테이션에 대해 다음과 같이 언급했습니다.“이것은 멋진 프레젠테이션이었습니다. Google은 여러 세대 전에 고급 AI 컴퓨팅을 만들어야 할 필요성을 보았습니다. 이제 회사는 칩에서 상호 연결된 인프라에 이르기까지 모든 수준에서 모든 수준에서 혁신하고 있습니다.

영국의 뉴 에이지 확인법은 현재

Source: Google 세부 사항 대규모 추론을위한 Ironwood TPU