Los procesadores de inteligencia artificial requieren grandes cantidades de energía, y la reducción de la eficiencia energética se corresponde con mayores pérdidas en la red de distribución de energía (PDN). ¿Cómo podemos resolver los desafíos de mantener la eficiencia y permitir la ejecución de algoritmos de alta calidad? Dijo que gracias al aprendizaje adicional, la potencia del rack en el centro de datos aumentó en más del 200%, alcanzando el rango de 20 kW. Esto llevó a Vicor a reevaluar la PDN con una solución de 48 V. El rediseño resolvió el problema de los PDN de alta corriente, pero creó nuevos desafíos para la conversión de energía.
Figura 1: Requisitos de corriente máxima de CPU/FPGA a lo largo del tiempo (Fuente: Vicor)
Aumento de la demanda de PDN
El suministro de energía y la eficiencia energética se han convertido en las principales preocupaciones en los sistemas informáticos a gran escala (Figura 1). La industria está presenciando un aumento dramático en la energía consumida por los procesadores con la aparición de ASIC y GPU para manejar funciones complejas de IA. Las demandas de energía de los racks también están creciendo en proporción a las capacidades de IA utilizadas en implementaciones de aplicaciones de aprendizaje e inferencia a gran escala. La entrega de energía es ahora el factor limitante en el rendimiento informático, ya que las nuevas CPU casi siempre consumen una corriente cada vez mayor. La entrega de energía óptima implica no solo la distribución de energía, sino también la eficiencia, el tamaño, el costo y el rendimiento térmico.
Para admitir la computación masiva de datos, los PDN tradicionales están expuestos a enormes demandas de energía, lo que afecta la gestión térmica. Se emplean dos opciones: cables más largos en el sistema PDN para reducir la resistencia o voltajes operativos más altos para reducir la corriente. Para mantenerse al día con los aumentos de energía, los diseños modernos optan por la segunda opción para satisfacer de manera más efectiva las exigentes demandas de los centros de datos.
“Hoy, la demanda de energía supera con creces la red de distribución de energía tradicional”, dijo Gendron. “Cambiar a una arquitectura de 48 V y adoptar un enfoque innovador para la entrega de energía es la única forma de brindar energía de alto rendimiento para satisfacer las enormes demandas de IA/HPC”.
Cuando la potencia del procesador comenzó a mejorar drásticamente en 2015, el consorcio Open Compute Project (OCP), el miembro más grande de las empresas de nube, servidor y CPU, continuó evolucionando los diseños de bastidores de 12 V. Yo estaba. La respuesta fue cambiar de cables a barras colectoras y colocar más convertidores de CA monofásicos de 12 V dentro del rack para minimizar la distancia de PDN y la resistencia a los servidores blade. El cambio principal es que la CA monofásica se derivó de fases individuales de alimentación trifásica a los racks debido al aumento de potencia. Luego, la introducción de la IA en los centros de datos con procesadores de 500 A a 1000 A llevó a algunas empresas a cambiar a la distribución de energía de 48 V. Esto redujo el problema de PDN de alta corriente a 250 A en un rack de 12 kW, pero introdujo nuevos desafíos para la conversión de energía en todo el sistema. El PDN que alimenta el blade cambia a 48 V, lo que requiere un cambio de conversión de energía en el blade. En cualquier caso, el cambio de distribución de 12 V a 48 V reduce los requisitos de corriente de entrada por un factor de 4 y las pérdidas por un factor de 16.
Adopción de arquitectura de 48V
Los 48 V se utilizan en sistemas de baterías de respaldo recargables que alimentan equipos de telecomunicaciones. Una arquitectura común utilizada tradicionalmente en estos sistemas se denomina arquitectura de bus intermedio, que consiste en un convertidor de bus no regulado aislado para convertir 48 V a 12 V, seguido de un reductor polifásico que alimenta un banco de reguladores para manejar la conversión y regulación a 12 V. Punto de Carga (PoL). A medida que aumentaba la corriente de los procesadores y CPU de IA, la densidad de las soluciones de suministro de energía a PoL se convirtió en el factor más importante en las aplicaciones de IA debido a la resistencia de PDN entre el regulador y PoL. La pérdida de PDN es el factor dominante en el cálculo de la eficiencia y el rendimiento de los diseños de reguladores de CC/CC.
Para reducir las pérdidas, Vicor sugiere usar un módulo de preacondicionamiento (PRM) de 48 V seguido de una etapa de conversión de voltaje (VTM) de relación fija (factor 1/K). Esta arquitectura única nos permite optimizar el rendimiento de cada etapa.
PRM usa una topología de conmutación de voltaje cero, mientras que VTM usa una topología patentada de convertidor de amplitud de onda sinusoidal (SAC) de alta frecuencia. Un VTM puede verse como un transformador CC/CC con una relación de 1/K para voltaje y K para corriente. Los VTM tienen una alta densidad de potencia y se pueden colocar muy cerca del procesador.
Debido a que el VTM implementa una topología SAC, sus emisiones son bajas y de banda estrecha en comparación con los interruptores polifásicos y los inductores asociados. También proporciona una mayor densidad de potencia que los diseños multifásicos al reemplazar seis etapas de conmutación multifásicas con un solo VTM. El VTM ocupa poco espacio y se ajusta a las limitaciones de diseño de los procesadores avanzados que admiten memoria de 4 canales sin invadir el área de diseño del subsistema de memoria.

Figura 2: Suministro de energía lateral (Fuente: Vicor)
Los suministros de alta corriente se proporcionan a través de módulos multiplicadores de corriente modulares (MCM) ubicados junto al procesador en la placa base o en la placa del procesador. La colocación del MCM en la placa minimiza las pérdidas de PDN y reduce la cantidad de pines BGA de la placa del procesador necesarios para la alimentación. LPD está diseñado para admitir los requisitos de suministro de energía y los factores de forma únicos de las tarjetas del módulo acelerador OCP y las tarjetas aceleradoras de IA personalizadas.

Figura 3: Suministro de energía vertical (Fuente: Vicor)
La entrega de energía vertical (VPD) elimina aún más las pérdidas de distribución de energía y el consumo del área de la placa PCB VR. El VPD tiene un diseño similar a la solución Vicor LPD, con la adición de capacitancia de derivación integrada en el módulo multiplicador de corriente o multiplicador de corriente engranado (GCM).
Dependiendo de la corriente del procesador, los ingenieros pueden elegir la entrega de potencia lateral (LPD) o VPD. En el primer caso, el multiplicador de corriente se puede colocar directamente en la placa base en la misma placa que el procesador AI o dentro de unos pocos milímetros, reduciendo el PDN a unos 50 µΩ. Para un rendimiento aún mayor, VPD mueve el multiplicador de corriente directamente debajo del procesador y también integra condensadores de tierra de alta frecuencia. Este tipo de multiplicador de corriente se llama multiplicador de corriente engranado. VPD reduce la resistencia de PDN a 5-7 µΩ, dejando toda la potencia a disposición del procesador de IA.

Figura 4: Esta solución de IA destaca la solución de realidad virtual de carga directa Vicor de 48 V que admite la entrega de hasta 650 A de corriente continua y más de 1000 A de corriente máxima. (Fuente: Vico)
Maximice el rendimiento del procesador de IA
En la Figura 4 se muestra una solución Vicor VR típica para un módulo de aceleración de procesador de IA avanzado. Vicor VR tiene tres módulos de tren motriz, un controlador de corriente modular (MCD) y un 48Vde ~0.8Vafuera VR con hasta 650 A de corriente continua y más de 1000 A de capacidad de corriente máxima. Al igual que el combustible para aviones en un avión, este nivel de suministro de energía permite que el procesador de IA funcione a su frecuencia de reloj óptima para obtener el máximo rendimiento.
“Si nuestra tecnología no se hubiera adoptado para estas aplicaciones avanzadas de IA, la cantidad de dispositivos VR multifásicos habría excedido el tamaño de la placa y no habría podido mantener el mismo factor de forma”, dijo Gendron. . “Además, el impacto del ruido probablemente fue demasiado grande para mantener la integridad de la señal”.
Utilizando Vico NBM2317, que mantiene la compatibilidad con la distribución de energía de rack de servidor de 12 V heredada y suministra 48 V a Vicor VR. Este convertidor de 12V a 48V también puede funcionar en la dirección “inversa”, lo que permite la conversión de 48V a 12V.
Las arquitecturas de energía tradicionales no se han mantenido al día con los procesadores de inteligencia artificial que consumen mucha energía y su adopción dentro de la computación en la nube. El enfoque de energía de Vicor permite la distribución de energía de 48 V y la realidad virtual para respaldar las necesidades avanzadas de procesamiento de IA. Alejándose de los diseños multifásicos tradicionales utilizados en las CPU, las soluciones de Vicor se han desarrollado específicamente para abordar la nueva clase de procesadores que migran rápidamente dentro de los servidores en la nube.
Se necesitan nuevos enfoques para potenciar la IA/HPC. La distribución de 12 V desde racks de servidores en la nube ya no es aceptable, ya que las grandes empresas están superando los límites de la potencia. Alimentar los ASIC y GPU de hoy en día no se trata solo de intercambiar piezas para obtener más potencia. Las soluciones más efectivas comienzan con fuentes de alimentación de alto voltaje, incorporan arquitecturas y topologías innovadoras y utilizan módulos de alimentación de alta densidad y alta eficiencia.