Amazon Web Services (AWS) levantó en silencio una de las supercomputadoras más ambiciosas jamás construidas. Bajo el nombre Project Rainier, el gigante tecnológico está desplegando un colosal clúster de entrenamiento de inteligencia artificial destinado exclusivamente a Anthropic, su principal socio en la carrera por la IA. La infraestructura utilizará cientos de miles de chips Trainium2, desarrollados por Annapurna Labs, subsidiaria de Amazon.

Según reveló Gadi Hutt, director de ingeniería de producto en Annapurna Labs, uno de los campus principales del proyecto en Indiana contará con 30 centros de datos de 18.500 m² cada uno, y solo ese sitio podría consumir más de 2,2 gigavatios de energía. El sistema estará distribuido por varias locaciones en EE. UU., diferenciándose así de otros megaproyectos centralizados como Stargate (OpenAI) o Colossus (xAI).

Rainier será la mayor implementación de silicio de IA propio de Amazon hasta la fecha. Aunque no se conoce el número total de chips Trainium2 que se utilizarán, AWS ha mencionado que el sistema completo podría escalar hasta los varios cientos de miles. Si bien Anthropic ya está usando una fracción del poder de cómputo, el despliegue completo ocurrirá más adelante en 2025.

A diferencia de los chips de Nvidia, como los B200, los Trainium2 no se destacan por su rendimiento individual, pero sí por su eficiencia de escalado. Cada chip Trainium2 ofrece 1,3 petaFLOPS en FP8, que pueden elevarse hasta 5,2 petaFLOPS con sparsity. En comparación, un B200 de Nvidia alcanza 4,5 petaFLOPS densos y 9 petaFLOPS con sparsity, pero solo se puede escalar en configuraciones de ocho unidades. Amazon, en cambio, arma configuraciones iniciales de 16 aceleradores por instancia Trn2.

AWS interconecta cuatro Trn2 para formar un UltraServer de 64 chips, estructurado como una malla 3D mediante NeuronLink v3, su tecnología de interconexión de alta velocidad. Cada chip se comunica a través de 1TB/s con sus vecinos, mientras que todo el UltraServer cuenta con 12,8 Tbps de ancho de banda de red.

Miles de estos UltraServers se conectarán entre sí mediante una red óptica personalizada con latencias menores a los 10 microsegundos, formando lo que Amazon denomina su UltraCluster. La magnitud del sistema es tal que se estima que solo 10.000 UltraServers ya sumarían 640.000 aceleradores. A nivel energético, una infraestructura de esta magnitud demandaría unos 300 megavatios, similar al consumo del supercomputador Colossus de Elon Musk.

¿Qué tan potente es?

Un UltraServer con Trainium2 puede alcanzar hasta 332,8 petaFLOPS de rendimiento en FP8 con sparsity, mientras que la alternativa de Nvidia, el NVL72 con 72 GPUs Blackwell, llega a los 720 petaFLOPS. Sin embargo, Hutt asegura que el objetivo de AWS no es tener el chip más veloz, sino ofrecer el mejor rendimiento por costo, clave para quienes entrenan modelos de gran escala.

Además, la arquitectura de Amazon permite refrigeración por aire, algo que no es viable en sistemas de alta densidad como el NVL72, que requieren refrigeración líquida. Esto reduce la complejidad operativa y los costos.

¿Habrá un “Rainier 2.0”?

Aunque Project Rainier se basa en Trainium2, Amazon ya anticipó que su próxima generación, Trainium3, ofrecerá cuatro veces más rendimiento con un 40% más de eficiencia, gracias al salto al proceso de 3nm de TSMC. Si se implementan a tiempo, estos nuevos chips podrían elevar el rendimiento de cada UltraServer a más de 1.3 exaFLOPS en modo sparse.

Un paso estratégico

Amazon ya ha invertido 8.000 millones de dólares en Anthropic, rival directo de OpenAI. Esta alianza no solo afianza su presencia en el ecosistema de IA generativa, sino que le permite competir sin depender de Nvidia, cuyos chips dominan el mercado actual. Además, al ofrecer los recursos como API en la nube, AWS busca democratizar el acceso al cómputo de entrenamiento de IA a gran escala.

Project Rainier es, entonces, más que una supercomputadora: es la piedra angular de la estrategia de Amazon para liderar la próxima generación de inteligencia artificial.