Red de conocimientos turísticos - Información de alquiler - La competencia de los tres magos para FPGA de alta gama (1)

La competencia de los tres magos para FPGA de alta gama (1)

Intel anunció anteriormente que ha comenzado a entregar el primer lote de sus nuevos FPGA Agilex a clientes de acceso temprano. Esto ha llevado la competencia entre los dos mayores proveedores de FPGA a una etapa "cara a cara". Xilinx envió su primera FPGA "Versal ACAP" en junio, así que después de una larga y polémica batalla de "¿quién puede enviar primero?" Resulta que ambas empresas competidoras pueden comenzar a comercializar sus líneas de productos FPGA frente a sus rivales en aproximadamente dos meses. Esto significa que, a diferencia de otras competencias que se basan en la primera introducción de nodos avanzados para mejorar el rendimiento, ninguna de las empresas tiene tiempo suficiente para utilizar una tecnología nueva y más avanzada para ganar diseños.

Sin embargo, el campo de competencia se ha ampliado esta vez, y el nuevo jugador Achronix afirma que entregará las primeras muestras de su nuevo FPGA Speedster 7t antes de finales de este año. Para los equipos de desarrollo, esto significa que para finales de año, habrá tres productos FPGA de alta gama completamente diferentes para elegir, todos utilizando tecnología de proceso similar y cada uno con capacidades únicas.

Este artículo es el primero de una serie de varias partes que comparan nuevas familias de FPGA de alta gama de estos tres proveedores. Analizaremos el proceso subyacente, la organización lógica FPGA (LUT) en sí, los recursos de refuerzo utilizados para acelerar el procesamiento y la conexión en red, la arquitectura de memoria, chip/paquete/arquitectura personalizada, recursos de E/S, estrategias de herramientas de diseño, las características únicas de cada producto. y Nuevas características y funcionalidades, y estrategias de marketing. Si eres alguien que puede divertirse con toneladas de FLOPS, un ancho de banda increíble o diseñando algunos dispositivos semiconductores potentes e interesantes, entonces este será un viaje emocionante para ti.

NOTA: Tanto Intel como Achronix participaron y contribuyeron con información para este artículo. Xilinx no respondió a nuestra solicitud de información.

Esta vez, el dominio de los FPGA de alta gama ha cambiado. En el pasado, el mercado más grande para FPGA de alta gama era el de redes, al igual que el cambio en la participación de mercado, que depende en gran medida de quién puede ofrecer los diseños más completos para productos que implementan la última ola de clientes de redes cableadas e inalámbricas. compartir. Sin embargo, el momento del lanzamiento de 5G ha cambiado esta dinámica. Incluso antes de que llegara la actual ola de tecnología FPGA, 5G ya había comenzado a acelerar su expansión. Por lo tanto, la red troncal de la primera ronda de 5G se basa en la generación anterior de lógica programable. Estos dispositivos encajarán en un ecosistema 5G ya robusto, por lo que no está claro si habrá una alineación entre la revolución completa de 5G y el nacimiento de una nueva generación de FPGA. Los diseños de estos FPGA han comprendido plenamente los mecanismos del 5G. Sin embargo, no subestime la importancia de las FPGA para 5G, ni la importancia de 5G para el mercado de FPGA. Hoy en día, cuando usa su teléfono celular, existe un 99% de posibilidades de que su llamada pase por una FPGA. Con 5G, el impacto de FPGA será aún mayor.

Este fenómeno ha generado interés a medida que el mercado emergente de aceleración de centros de datos, principalmente para cargas de trabajo de IA, se expande rápidamente. Se estima que el mercado de aceleración de IA crecerá rápidamente en los próximos años, por lo que los tres proveedores competirán por una gran parte del mercado de estos dispositivos con su impresionante rendimiento de precios y su mayor eficiencia energética, y afirman que oferta La solución se puede ampliar hasta los bordes/lados finales. Cada uno de estos proveedores es muy consciente de que ocupar estas ranuras para tarjetas aceleradoras de IA es una máxima prioridad, y todos han diseñado nuevos chips en torno a esta idea.

Veamos todos estos factores, ¿vale?

Desde la perspectiva de la tecnología de proceso subyacente, las series Xilinx y Achronix FPGA están diseñadas en base a TSMC 7 nm, mientras que Intel Agilex utiliza el proceso Intel 10 nm con un rendimiento similar. No se deje engañar por las diferencias de nombres 7/10. No se deje confundir por la diferencia de nomenclatura 7/10. Hace mucho tiempo señalamos que la comunidad de marketing en la industria de los semiconductores nombra los nodos basándose en lo que suena bien para el mercado, en lugar de derivarlos de características identificables de los propios transistores.

Según nuestra estimación, los 7 nm de TSMC y los 10 nm de Intel son procesos aproximadamente equivalentes, y los fabricantes que utilizan estos dos procesos son básicamente los mismos. Esto significa que el liderazgo de larga data de Intel en tecnología de procesos parece haber desaparecido, pero a medida que nos acercamos al cuello de botella de la Ley de Moore, es inevitable una escalada de la competencia en el procesamiento de silicio.

Los tres proveedores recibieron modestos impulsos al avanzar hacia los últimos nodos de proceso de semiconductores. Sin embargo, este avance ya no es posible para cumplir con los estándares históricos de la Ley de Moore, porque los ingresos incrementales generados por las nuevas actualizaciones de procesos en los últimos nodos de proceso han ido disminuyendo constantemente. Todo el mundo recibió un impulso temporal con la llegada de la tecnología FinFET y ahora, cuando la Ley de Moore está a punto de terminar a nivel económico, podemos encontrar que la tendencia de rendimientos marginales decrecientes continúa.

En el pasado, a medida que se reducía el tamaño de los transistores, cada nuevo nodo de proceso aumentaba considerablemente la densidad de los transistores, lo que daba como resultado un mejor rendimiento y un menor consumo de energía. Los proveedores ahora tienen que hacer concesiones entre los tres y a menudo reciben retornos menores incluso en su métrica preferida. Al mismo tiempo, los costos no recurrentes de trasladarse a nuevos nodos de proceso continúan creciendo exponencialmente. Esto significa que el riesgo asumido por las empresas de FPGA aumenta drásticamente, porque para seguir siendo competitivas, necesitan seguir invirtiendo para obtener rendimientos cada vez menores. Esto también significa que estamos entrando en una nueva era, en la que la arquitectura y las funciones de la propia FPGA, las herramientas de FPGA y las estrategias de marketing de estas tres empresas se convertirán en los factores clave que afectarán los ingresos, en lugar de quién será el primero en utilizar la FPGA. Nueva tecnología de proceso.

Teniendo en cuenta que la tecnología artesanal es literalmente un lavado, echemos un vistazo a las capacidades y características de los productos de cada proveedor. Comience con la funcionalidad FPGA más básica: la estructura LUT. A menudo lamentamos que cada empresa calcule los LUT de forma diferente y que el juego se vuelva más complejo con cada generación. Xilinx y Achronix utilizan actualmente LUT de 6 entradas, mientras que ALM de Intel es esencialmente una LUT de 8 entradas. Los proveedores están más o menos de acuerdo en que podemos usar 2,2 LUT4 por LUT6 y 2,99 LUT4 por LUT8 para convertir diferentes LUT en LUT equivalentes de 4 entradas.

Según este método, la serie Achronix Speedster 7T incluye LUT6 de 363K a 2,6M (equivalente a LUT4 de 800K a 5,76M), liderando la industria, y la serie Intel Agilex incluye ALM de 132K a 912K (Equivalente a 395K a 2,7M de LUT4 equivalente), los productos de la serie Versal de Xilinx incluyen aproximadamente 246K a 984K CLB (se puede convertir en 541K a 2,2M de LUT4 equivalente). Cada proveedor afirma que su arquitectura es superior y destaca características de diseño que mejoran la densidad lógica, el rendimiento o la enrutabilidad en algunas aplicaciones o configuraciones específicas. En este momento, no sabemos si la LUT de algún proveedor es significativamente mejor que la LUT de cualquier otro proveedor.

Sin embargo, los recursos disponibles de la FPGA no dependen únicamente del número de LUT. También se deben considerar los siguientes desafíos: el porcentaje de LUT que se utilizan de manera efectiva (lo discutiremos más adelante cuando analicemos las herramientas de diseño) y la cantidad de características mejoradas integradas en los módulos lógicos que permiten implementar la funcionalidad de diseño de una manera mínima. Participación en la estructura LUT. Dependiendo de su diseño, es posible que encuentre más contenido empaquetado en uno o más FPGA, independientemente de la cantidad de LUT.

La razón principal por la que los FPGA son "buenos" en la inferencia de inteligencia artificial es que pueden completar una gran cantidad de operaciones aritméticas (principalmente multiplicación y acumulación de varias precisiones) en paralelo, gracias a la presencia de tejido en la estructura lógica programable Una gran cantidad de "matrices de bloques DSP". Esto permite a los FPGA realizar operaciones matriciales como la convolución de manera más eficiente que los procesadores tradicionales de arquitectura von Neumann.

Al analizar los multiplicadores de hardware que son críticos para el razonamiento de la IA, el multiplicador de precisión variable de Achronix puede lograr una multiplicación de 41 000 int-8 o una multiplicación de 82 000 int-4.

Intel Agilex tiene multiplicadores de 2K-17K 18×19, Xilinx Versal tiene "motores DSP" de 500-3K, presumiblemente "porciones DSP58", incluidos multiplicadores de 27×24 y nuevas capacidades de punto flotante de hardware. La comparación es definitivamente "de manzanas a naranjas y mangos", en cuanto a qué fruta es más adecuada para su aplicación, debe "decidirlo el diseñador".

Ahora, los tres proveedores han mejorado el soporte para la multiplicación de punto flotante. Achronix ofrece una arquitectura completamente nueva para sus bloques DSP, a la que llaman "Procesador de aprendizaje automático" (MLP). Cada MLP contiene hasta 32 multiplicadores/acumuladores (MAC), modos enteros de 4 a 24 bits y varios modos de punto flotante, y puede admitir el formato Bfloat16 de TensorFlow y el formato de punto flotante en bloque. Lo más importante es que Achronix MLP acopla estrechamente el módulo de memoria integrado con la unidad de cómputo, lo que permite que las operaciones MAC se ejecuten a 750 MHz mientras se espera que se acceda a los datos a través de la FPGA.

Intel también utiliza bloques DSP de precisión variable con hardware de punto flotante (básicamente como llevan ofreciendo años). El soporte de punto flotante de Intel es quizás el más amplio y maduro de los tres. Con Agilex, introdujeron dos nuevos modos de punto flotante, punto flotante de media precisión (FP16) y punto flotante de bloque (Bfloat16), e hicieron ajustes arquitectónicos para hacer que sus operaciones DSP fueran más eficientes.

Xilinx ha actualizado sus segmentos DSP48 anteriores a DSP58, presumiblemente porque ahora incluyen hardware de punto flotante y sus multiplicadores se han actualizado a 27×24. Entonces, en esta generación, otros dos proveedores se han unido a Intel para ofrecer multiplicadores de hardware que admitan operaciones de punto flotante. Para Xilinx, esto es un cambio. Xilinx ha afirmado anteriormente que implementar multiplicadores de hardware de punto flotante en FPGA no es una buena idea porque las operaciones de punto flotante se utilizan principalmente para entrenamiento, mientras que los FPGA están dirigidos principalmente a aplicaciones de inferencia.

En cuanto a los formatos de coma flotante disponibles, tanto Versal (hasta 2,1K multiplicadores) como Agilex (hasta 8,7K multiplicadores) admiten el formato FP32. Las tres familias admiten media precisión (FP16): Versal admite hasta 2,1 000 multiplicadores, Agilex admite hasta 17,1 000 multiplicadores y Speedster admite hasta 5,1 000 multiplicadores. Agilex (hasta 17,1K multiplicadores) y Speedster (hasta 5,1K) admiten Bfloat16. Para la multiplicación de punto flotante en formato FP24, Versal y Agilex probablemente usarán unidades FP32, mientras que el Speedster tiene multiplicadores de hasta 2,6K. Achronix Speedster también admite multiplicadores de punto flotante de bloques de hasta 81,9K.

Xilinx también trae un nuevo procesador vectorial programable por software: una matriz de hasta 400 núcleos de procesamiento vectorial LIW-SIMD de 1 GHz +V con computación mejorada y memoria estrechamente acoplada. Esto proporciona un modelo de programación más simple para paralelizar operaciones vectoriales complejas y utilizar los ricos recursos informáticos de los FPGA. En general, se seleccionó "GPU/motor de inferencia" basándose en la estrategia competitiva de "fregadero de cocina" de Xilinx. Discutiremos esto en detalle más adelante.

La respuesta de Intel a los procesadores vectoriales Achronix MLP y Xilinx es una evolución de la vieja escuela. Observaron que los módulos Agilex DSP implementan la misma funcionalidad que las nuevas funciones DSP de otros proveedores. Se pueden aprovechar los flujos de diseño y desarrollo de FPGA establecidos y bien comprendidos y no se requiere que los clientes divida sus diseños entre arquitecturas de dispositivos. Esto es bueno si su equipo tiene experiencia en diseño de FPGA/RTL. Pero si su aplicación requiere que ingenieros de software desarrollen el DSP, el enfoque programable por software de Xilinx puede tener una ventaja.

Además de simplemente calcular los multiplicadores, podemos comparar estas capacidades observando las afirmaciones de los proveedores sobre el rendimiento teórico. Pero hay una advertencia: estas afirmaciones son tremendamente exageradas y difíciles de definir con precisión.

Los proveedores generalmente obtienen un número multiplicando el número de multiplicadores en el chip por la frecuencia operativa máxima de esos multiplicadores para obtener un número de "como máximo XX TOPS o TFLOPS". Obviamente, los diseños del mundo real no utilizarán el 100% de los multiplicadores. Ningún diseño puede alcanzar la velocidad de reloj teórica máxima de estos multiplicadores, y ningún diseño puede proporcionar continuamente datos de entrada a estos multiplicadores a una velocidad adecuada y la precisión de estas multiplicaciones. Las operaciones varían de un proveedor a otro.

Si tuviéramos que estimar, podemos decir que FPGA puede alcanzar realmente el 50-90% de su máximo teórico en diseños reales. Esto es mejor que las GPU, que se cree que sólo alcanzan entre el 10 y el 20% de su máximo teórico en el mundo real.

Al especular sobre el número de TOPS para operaciones INT8, si incluimos los 133 TOPS en su procesador vectorial, Xilinx Versal encabeza la lista con aproximadamente 171 TOPS. 12 de sus bloques DSP y 26 de su tejido lógico. Speedster le sigue de cerca con alrededor de 86 TOPS, 61 de los cuales provienen de su módulo MLP y 25 de su estructura lógica. El máximo de operación Agile x nt8 es 92 TOPS, de los cuales 51 son de bloques DSP y 41 son de estructuras lógicas. A juzgar por los TFLOPS del formato Bfloat16, Agilex lidera con 40, seguido de Versal con 9 y Speedster está al final con 8. Sin embargo, el Speedster obtuvo una gran ventaja en operaciones de punto flotante en bloque, con 123 TFLOPS, seguido por los 41 de Agilex y los 15 de Versal.

Estos números están extraídos de las propias fichas técnicas de la empresa. Como comentábamos, son valores máximos teóricos imposibles de alcanzar en aplicaciones prácticas reales. Las afirmaciones de "disponibilidad" de Achronix tienen cierto mérito, ya que sus MLP están diseñados exclusivamente para mantener operaciones de multiplicación de precisión variable dentro del propio módulo, ejecutándose a velocidades de reloj máximas sin la necesidad de que los datos se envíen de ida y vuelta a estructuras lógicas, es decir, puede completar la Operaciones más comunes en el razonamiento de la IA. Asimismo, la arquitectura del procesador vectorial de Xilinx debería hacer un buen trabajo manteniendo el flujo fluido de datos a través de las unidades aritméticas. Dicho esto, no hemos visto ningún punto de referencia o diseño de referencia que demuestre las afirmaciones de estas empresas de manera significativa.

Por supuesto, utilizar todos estos LUT y multiplicadores requiere que su diseño esté colocado y enrutado físicamente y cumpla con los requisitos de sincronización del chip que elija. A medida que los FPGA han evolucionado, esto se ha convertido en un desafío cada vez más difícil. Las rutas lógicas y de red de un solo bit se distribuyen en chips enormes con recursos de enrutamiento limitados, lo que hace que el cierre de sincronización tradicional sea una pesadilla. Las técnicas convencionales para lograr el cierre temporal en diseños sincrónicos se han topado con un obstáculo y no pueden escalar. Tanto Xilinx como Achronix han resuelto este problema en sus FPGA de nueva generación agregando una red en chip (NoC) que superpone la lógica tradicional y las estructuras de enrutamiento. Los NoC esencialmente cambian el juego porque ya no es necesario implementar todo el chip en una fusión mágica gigante para lograr el cierre del tiempo. Ahora, bloques de sincronización más pequeños pueden pasar datos a través del NoC, aliviando la carga de las estructuras de enrutamiento tradicionales y descomponiendo los enormes problemas que las herramientas de automatización de diseño deben resolver en problemas más pequeños y manejables.

Hace unas generaciones, Intel había adoptado otro enfoque para resolver este problema: pavimentar toda la estructura lógica con una gran cantidad de microregistros llamados "registros HyperFlex". Estos registros permiten volver a cronometrar y canalizar rutas lógicas más largas y complejas, lo que hace que todo el diseño sea esencialmente asincrónico. Curiosamente, este es también el efecto de los NoC utilizados por Xilinx y Achronix. Cada enfoque tiene sus desafíos, ya que ambos métodos añaden mucha complejidad al diseño del chip y a las herramientas de diseño que utilizamos. Según los informes, en el caso de Intel los registros HyperFlex también tienen algún impacto negativo en la velocidad general que puede alcanzar la estructura lógica. Intel dijo que la arquitectura HyperFlex en los FPGA Agilex es la segunda generación y presenta mejoras y mejoras en comparación con la arquitectura HyperFlex de la generación anterior que mejoran el rendimiento y simplifican el cierre de tiempo.

Después de que Agilex avance, tendremos que esperar y ver cómo reaccionan los usuarios.

De los dos proveedores que adoptan NoC para el enrutamiento, Xilinx y Achronix, Achronix afirma haber logrado el NoC más rápido a través de su implementación AXI de chip cruzado bidimensional. Cada fila o columna de este NoC se implementa como dos canales AXI unidireccionales de 256 bits que funcionan a 2 GHz y pueden admitir 512 Gbps de tráfico de datos en cada dirección. El NoC de Speedster tiene 197 nodos, lo que da como resultado un ancho de banda total de 27 Tbps, lo que reduce la carga de recursos del enrutamiento bit a bit tradicional en FPGA. Hasta donde sabemos, el rendimiento Versal NoC de Xilinx aún no se ha publicado, pero con aproximadamente 28 nodos, suponemos que el ancho de banda total es de aproximadamente 1,5 Tbps.

Bueno, nos quedamos sin tinta esta semana, pero continuaremos la próxima semana, observando las fascinantes y flexibles arquitecturas de memoria que estas familias de FPGA aportan, el empaquetado único de cada familia y sus capacidades de personalización. capacidades locas de SerDes IO, subsistemas de procesamiento integrados, flujos de herramientas de diseño y más.

*Haga clic al final del artículo para leer el texto original para leer el texto original en inglés.

Hoy compartimos con usted el número 2125 de "Observación de la industria de semiconductores". Bienvenido a prestar atención.

Observación de la industria de semiconductores

"El medio vertical número uno para semiconductores"

Identifique el código QR, responda las siguientes palabras clave y lea más

AI|Wafer|TSMC|RF|Huawei|Circuito integrado|Auriculares TWS|Xiaomi

Responda al envío y lea "Cómo convertirse en miembro de "Semiconductor Industry Observer""

Responder ¡Busca y podrás encontrar fácilmente otros artículos que te interesen!

Texto original en inglés

!