Red de conocimientos turísticos - Conocimientos sobre calendario chino - Eche un vistazo más de cerca al hardware de aprendizaje automático de ARM y las ventajas que tiene

Eche un vistazo más de cerca al hardware de aprendizaje automático de ARM y las ventajas que tiene

Hace unas semanas, ARM anunció el primer lote de hardware dedicado de aprendizaje automático (ML). En el marco del "Proyecto Trillium", la compañía lanzó un procesador ML dedicado para productos como teléfonos inteligentes, así como un segundo chip diseñado específicamente para acelerar los casos de uso de detección de objetos (OD). Echemos un vistazo más profundo al Proyecto Trillium y los planes más amplios de la compañía para el creciente mercado de hardware de aprendizaje automático.

Vale la pena señalar que el anuncio de ARM se relaciona completamente con el hardware de inferencia. Sus procesadores ML y OD están diseñados para ejecutar de manera eficiente tareas de aprendizaje automático entrenadas en hardware de consumo, en lugar de entrenar algoritmos en enormes conjuntos de datos. En primer lugar, ARM se centrará en dos mercados principales para el hardware de inferencia de ML: los teléfonos inteligentes y las cámaras de vigilancia/protocolo de Internet.

Nuevos procesadores de aprendizaje automático

A pesar del anuncio del Proyecto Trillium de un nuevo hardware dedicado para el aprendizaje automático, ARM sigue comprometido a soportar este tipo de tareas en sus CPU y GPU, e implementa una funcionalidad de producto punto optimizada. en sus núcleos Cortex-A75 y A55. Trillium mejora estas capacidades con hardware más optimizado, lo que permite completar las tareas de aprendizaje automático con mayor rendimiento y menor consumo de energía. Pero el procesador ML de ARM no es sólo un acelerador: es un procesador por derecho propio.

El procesador tiene un rendimiento máximo de 4,6 TOP/s en el rango de potencia de 1,5 W, lo que lo hace adecuado para teléfonos inteligentes y productos de menor consumo de energía. Basado en una implementación de 7 nm, esto le da al chip una eficiencia energética de 3 TOP/W y, al mismo tiempo, esto es un gran atractivo para los desarrolladores de productos de ahorro de energía.

Curiosamente, los procesadores ML de ARM utilizan una implementación diferente a los de Qualcomm, Huawei y MediaTek, todos los cuales rediseñan el procesador de señales digitales (DSP) para ayudarlos a ejecutar tareas de aprendizaje automático en procesadores de alta gama. En una charla en el MWC (Mobile World Congress), el vicepresidente de ARM, Jem Davies, mencionó que adquirir una empresa de DSP era una opción para ingresar a este mercado de hardware, pero finalmente, la empresa decidió construir una solución básica optimizada específicamente para los más comunes. operaciones.

El procesador ML de ARM está diseñado para operaciones con números enteros de 8 bits y redes neuronales convolucionales (CNN). Está especializado para grandes multiplicaciones de datos de tamaño pequeño en bytes, lo que lo hace más rápido y eficiente que un DSP de propósito general en este tipo de tareas. Las CNN se utilizan ampliamente para el reconocimiento de imágenes, probablemente la tarea de aprendizaje automático más común en la actualidad. Toda esta lectura y escritura en la memoria externa a menudo puede convertirse en un cuello de botella en un sistema, por lo que ARM también incluye una gran cantidad de memoria interna para acelerar la ejecución. El tamaño de este grupo de memoria es variable y ARM espera ofrecer a sus socios una gama de diseños optimizados basados ​​en casos de uso.

El procesador ML de ARM está diseñado para operaciones enteras de 8 bits y redes neuronales convolucionales.

El núcleo del procesador ML se puede configurar desde un solo núcleo hasta 16 núcleos para aumentar el rendimiento. Cada componente incluye un motor optimizado de función fija y una capa programable. Esto brinda a los desarrolladores un nivel de flexibilidad y garantiza que el procesador pueda manejar nuevas tareas de aprendizaje automático a medida que evolucionan. El control de la unidad es monitoreado por una unidad de control de red.

Finalmente, el procesador contiene una unidad de acceso directo a la memoria (DMA) para garantizar un acceso rápido y directo a la memoria en otras partes del sistema. El procesador ML está disponible como su propio módulo IP independiente con una interfaz ACE-Lite, que puede incorporarse al SoC, o como un módulo fijo fuera del SoC, o incluso con CPU Armv8.2-A como el Cortex-A75. y A55 ) están integrados en el clúster DynamIQ. La integración en un clúster DynamIQ puede ser una solución muy poderosa para proporcionar acceso a datos de baja latencia y programación de tareas eficiente a otras CPU o procesadores ML en el clúster.

Se adapta a todo

El año pasado, ARM lanzó los procesadores de CPU Cortex-A75 y A55, así como la GPU Mali-G72 de gama alta, pero no lanzó hardware de aprendizaje automático dedicado. hasta un año después.

Sin embargo, ARM se centra bastante en acelerar las operaciones generales de aprendizaje automático en sus últimos dispositivos de hardware, y esto sigue siendo parte de la estrategia de la empresa en el futuro.

Su último procesador de gráficos Mali-G52 para dispositivos convencionales mejora el rendimiento de las tareas de aprendizaje automático 3,6 veces, gracias a la compatibilidad con productos Dot (Int8) y cuatro veces por canal para multiplicar y acumular operaciones. La compatibilidad con productos Dot también está presente en los modelos A75, A55 y G72.

Incluso con los nuevos procesadores OD y ML, ARM continúa admitiendo tareas aceleradas de aprendizaje automático en sus últimas CPU y GPU. Su próximo hardware de aprendizaje automático dedicado existe para hacer que estas tareas sean más eficientes a su debido tiempo, pero es parte de una amplia cartera de soluciones diseñadas para satisfacer su amplia gama de socios de productos.

Desde CPU y GPU de un solo núcleo hasta procesadores de aprendizaje automático opcionales que escalan a 16 núcleos (disponibles dentro y fuera del clúster central de SoC), ARM puede admitir de todo, desde simples parlantes inteligentes hasta vehículos autónomos. y centros de datos, que requieren hardware más potente. Por supuesto, la empresa también proporciona software para gestionar esta escalabilidad.

La biblioteca de computación de la empresa sigue siendo la herramienta para manejar tareas de aprendizaje automático en las CPU, GPU y ahora componentes de hardware de aprendizaje automático de la empresa. Esta biblioteca proporciona funciones de software de bajo nivel para procesamiento de imágenes, visión por computadora, reconocimiento de voz y más, todo ejecutándose en el hardware más adecuado. ARM incluso admite aplicaciones integradas para microprocesadores Cortex-M con su núcleo CMSIS-NN. En comparación con la funcionalidad básica, CMSIS-NN proporciona un rendimiento de hasta 5,4 veces y una eficiencia energética de 5,2 veces.

Esta amplia gama de posibilidades de implementación de hardware y software requiere una biblioteca de software flexible, que es donde entra en juego el software de redes neuronales de ARM. La empresa no pretende reemplazar marcos populares como TensorFlow o Caffe, sino convertir estos marcos en bibliotecas que sean relevantes para el hardware de cualquier producto específico. Entonces, si su teléfono no tiene un procesador ARM ML, la biblioteca seguirá funcionando ejecutando tareas en la CPU o GPU. Su objetivo es ocultar la configuración detrás de escena para simplificar el desarrollo.

Aprendizaje automático hoy

Actualmente, ARM se centra en brindar soporte para la inferencia en el campo del aprendizaje automático, lo que permite a los consumidores ejecutar de manera eficiente algoritmos complejos en sus dispositivos (aunque la compañía tiene No se descarta la posibilidad de involucrar hardware para la capacitación en aprendizaje automático). Con el advenimiento de la era de las redes 5G de alta velocidad y las crecientes preocupaciones sobre la privacidad y la seguridad, la decisión de ARM de promover la informática ML en el borde en lugar de centrarse en la nube como Google parece ser la opción correcta.

Lo más importante es que las capacidades de aprendizaje automático de ARM no se limitan a productos estrella. Al admitir una variedad de tipos de hardware y opciones de escalabilidad, los teléfonos inteligentes que suben y bajan en la escala de precios pueden beneficiarse, al igual que todo, desde parlantes inteligentes de bajo costo hasta servidores costosos. Incluso antes de que el hardware ML dedicado de ARM ingrese al mercado, los SoC modernos que aprovechan sus productos Dot para mejorar las CPU y GPU verán mejoras en el rendimiento y la eficiencia energética.

Probablemente no veremos el procesador de detección de objetos y aprendizaje automático dedicado de ARM en ningún teléfono inteligente este año, ya que ha habido una gran cantidad de anuncios de SoC. En cambio, tendremos que esperar hasta 2019 para que algunos de los primeros teléfonos se beneficien del Proyecto Trillium y su hardware asociado.