¿Cómo construir modelos a gran escala y nueva infraestructura para la conducción autónoma en centros de computación inteligentes?
Ya sea la "entrada en la ciudad" de la conducción autónoma o la "evolución" de ChatGPT, detrás está el crecimiento exponencial de la demanda de datos y potencia informática, así como el entrenamiento de grandes modelos. A medida que aumenta la demanda, la industria menciona cada vez más los centros informáticos inteligentes como la "nueva infraestructura" para la conducción autónoma.
El centro de computación inteligente, también conocido como centro de computación inteligente, se basa en la teoría de la inteligencia artificial y adopta una arquitectura informática de inteligencia artificial líder para proporcionar servicios informáticos, servicios de datos y servicios de algoritmos necesarios para las nuevas infraestructuras informáticas. En otras palabras, el centro de computación inteligente es en realidad una plataforma de producción y suministro de energía informática. Entonces, ¿por qué la "conducción autónoma asistida" puede convertirse en "conducción autónoma"?
"Renunciar" al coste marginal de la conducción autónoma y el centro de computación inteligente de conducción autónoma se "dedica a la nube"
Algunas personas dicen que el centro de computación inteligente es un impulso para el El desarrollo de la conducción autónoma se debe al modelo de algoritmo de conducción autónoma. La capacitación es uno de los escenarios típicos del aprendizaje automático. Su detección visual, predicción de trayectoria, planificación de conducción y otros modelos de algoritmo necesitan completar cálculos paralelos de alta concurrencia al mismo tiempo, lo que requiere. La informática inteligente proporciona una gran potencia informática para mejorar la madurez del modelo de algoritmo.
En el ámbito de la conducción autónoma, cuando se trata de centros de computación inteligentes, hay que mencionar en primer lugar a Tesla. En 2017, la aparición de la red de transformadores sentó las bases para la arquitectura de algoritmos convencional en el campo de los modelos grandes. Luego, en 2020, Tesla introdujo el modelo transformador en el campo de la conducción autónoma, que fue el comienzo de la aplicación de modelos de IA a la conducción autónoma. Después de eso, Tesla comenzó a construir su propio centro de computación de IA, Dojo, utilizando un total de 14.000 GPU NVIDIA para entrenar modelos de IA. Para mejorar aún más la eficiencia, Tesla lanzó el chip de aceleración de IA D1 de desarrollo propio en 2021 y planea empaquetar 25 D1 juntos para formar un mosaico de entrenamiento y luego formar un Dojo ExaPOD. En el último Tesla AI DAY, Musk dijo que el grupo de supercomputadoras Tesla ExaPOD se implementará en el primer trimestre de 2023.
A nivel nacional, en agosto de 2022, Xpeng Motors y Alibaba Cloud establecieron conjuntamente el centro de computación inteligente de conducción autónoma más grande de China en ese momento, dedicado al entrenamiento de modelos de conducción autónoma, con una potencia informática de 600 PFLOPS, equivalente a 600 PFLOPS. por segundo Completó 6 mil millones de operaciones de punto flotante. Sin embargo, este récord duró poco más de cuatro meses.
Desde junio de 5438 hasta octubre de este año, Millie Smart y Volcano Engine lanzaron conjuntamente MANA OASIS (Snow Lake Oasis), el centro de computación inteligente más grande en la industria de la conducción autónoma, con 6,7 mil millones de operaciones de punto flotante por segundo. Ancho de banda de almacenamiento de 2T por segundo y ancho de banda de comunicación de 800G por segundo. Geely también lanzó el Centro de Computación Inteligente Geely Star el 28 de junio de 2018. En la actualidad, se ha accedido a casi 100 PB de datos experimentales de conducción inteligente e Internet de vehículos, y el soporte informático simultáneo de vehículos alcanza el millón.
A juzgar por la situación actual, el coste y la demanda son dos factores que constituyen el atractivo de los centros de computación inteligentes.
En términos de coste, la potencia informática, como elemento básico de la conducción autónoma, requiere centros de computación inteligentes de mayor rendimiento para completar la formación, el etiquetado y otras tareas. Tomando MANA OASIS como ejemplo, al implementar la biblioteca de operadores de alto rendimiento de Lego, las capacidades de optimización de comunicación ByteCCL y un gran marco de entrenamiento de modelos, la potencia informática se optimiza al extremo. En términos de eficiencia de entrenamiento, basado en MoE escaso, a través del intercambio entre máquinas * * *, se puede completar fácilmente el entrenamiento de modelos grandes con cientos de miles de millones de parámetros. El costo de entrenamiento es de un millón de clips (la unidad de etiquetado más pequeña de nivel milimétrico). video) es de solo 100 semanas de tarjeta, lo que reduce el costo de capacitación en 100 veces.
Construir un sistema de inteligencia de datos eficiente y de bajo costo es la base para el desarrollo saludable de la tecnología de conducción autónoma. Es un vínculo importante en el progreso iterativo continuo de los sistemas de conducción autónoma y también es la clave para. la comercialización de circuito cerrado de la conducción autónoma.
He Zeng, presidente de Xpeng Motors, dijo: "Si la potencia informática no se reserva de antemano a través de este método (centro de computación inteligente), el costo de la potencia informática para las empresas aumentará de cientos de millones a miles de millones". en los próximos cinco años. ”
Si continúa utilizando los servicios de nube pública, el aumento de los costos marginales es solo un aspecto. Más importante aún, los centros informáticos inteligentes pueden permitir que las empresas de conducción autónoma implementen "nubes dedicadas". El desarrollo de la conducción autónoma incluye recopilación de datos, filtrado de datos, etiquetado, entrenamiento de modelos, verificación de reproducción, pruebas de simulación, etc. La esencia de la computación en la nube es alquilar equipos informáticos y los equipos del proveedor de servicios en la nube se compran de manera uniforme. Para poder ganar más clientes, estos dispositivos tienen una gran versatilidad. Los modelos y especificaciones de la CPU, el acelerador GPU/AI y la memoria utilizados dentro del dispositivo son relativamente fijos, lo que dificulta la adaptación óptima a los algoritmos de las empresas de automóviles y de conducción autónoma. Además, los proveedores de servicios en la nube no tienen un conocimiento profundo de los algoritmos de conducción autónoma, lo que inevitablemente conducirá a pérdidas e ineficiencia en la programación de la potencia informática.
Entonces, desde la perspectiva de la demanda, parece que los centros de computación inteligentes pueden convertirse en un artefacto para las empresas automovilísticas y de conducción autónoma.
Tomemos a Milly como ejemplo. Con el apoyo de MANA OASIS, se han actualizado cinco modelos Milly MANA y la arquitectura de detección del lado del automóvil se ha actualizado a lo largo de generaciones. El diseño de la pila de tecnología de Milli continúa manteniendo una tendencia completa y líder, especialmente en términos de percepción y cognición, liderando la industria, liderando la dirección de desarrollo de modelos grandes, gran potencia informática y big data, y corriendo hacia la era de la autonomía. conducción 3.0.
En términos de recopilación, detección y anotación de datos, el sistema de conducción autónoma necesita recopilar una gran cantidad de datos del entorno de la carretera en las primeras etapas de desarrollo para que el vehículo pueda identificar de forma rápida y precisa carriles, peatones, obstáculos, etc. como un conductor humano información crítica en el entorno. La única forma es acercar gradualmente el nivel cognitivo del entorno de la carretera del vehículo a la escena real mediante entrenamiento y verificación repetidos basados en datos masivos, y mejorar continuamente la precisión del juicio en el proceso.
Además, los datos recopilados por las empresas de automóviles requieren entrenamiento de modelos. Los algoritmos generan modelos operando con datos. El centro de computación inteligente será un acelerador que impulse modelos grandes y entrenamiento de datos masivo. Basado en MoE disperso, la activación dispersa se realiza de acuerdo con las características informáticas para mejorar la eficiencia informática y lograr el efecto de que una sola máquina pueda entrenar modelos a gran escala con decenas de miles de millones de parámetros. Esto permite el disfrute de métodos expertos entre máquinas. entrenamiento de modelos a gran escala con cientos de miles de millones de parámetros, y entrenará El costo se ha reducido al nivel de 100 tarjetas por semana. Millimeter ha diseñado e implementado un sistema de entrenamiento paralelo multitarea líder en la industria que puede procesar múltiples tareas simultáneamente; -Información modal como imágenes, nubes de puntos y texto estructurado, asegurando la escasez del modelo y asegurando la escasez del modelo. La eficiencia del entrenamiento de Mana Oasis aumentó 100 veces.
Gu Haowei, director ejecutivo de Mimo Zhixing, también explicó en detalle la lógica subyacente de la construcción de un centro informático inteligente: "El primer requisito para la conducción autónoma en los centros informáticos inteligentes es definitivamente la potencia informática. La superpotencia informática de los centros informáticos inteligentes representa ¿Cuántos ingenieros de inteligencia artificial pueden fabricar modelos grandes en este campo de las artes marciales y cuántos modelos grandes se pueden cultivar?
¿Qué problemas ha ayudado a resolver la conducción asistida inteligente MANA OASIS?
Ahora muchas empresas de automóviles y empresas de tecnología de conducción autónoma han comenzado a construir centros de computación inteligentes como la siguiente etapa de la competencia. En el Día de la IA de Mohao en junio y octubre de este año, Zhang Kai, presidente de Mohao Zhixing, dio las diez nuevas predicciones principales sobre las tendencias de la industria de la conducción autónoma en 2023, y el centro de supercomputación estaba entre ellas. "El centro de supercomputación se convertirá en la configuración básica para las empresas de conducción autónoma".
De hecho, dado que las marcas de vehículos de nueva energía generalmente incluyen la conducción asistida en escenarios de carretera como equipo estándar, el campo de competencia ha cambiado silenciosamente de alta velocidad hacia La carretera gira hacia la ciudad. En comparación con la conducción asistida por navegación de alta velocidad, la conducción urbana implica una serie de problemas como semáforos, intersecciones, peatones y vehículos eléctricos, oclusiones, obstáculos fijos, frenadas y arranques frecuentes, y su complejidad aumenta en varios órdenes de magnitud.
Si solo utilizamos vehículos reales probados para desafiar estos casos extremos, el costo, la seguridad y el tiempo se convertirán en barreras para el desarrollo empresarial. Por tanto, la simulación virtual se convierte en la clave para resolver algunos de los costes y la diversidad de escenarios. Entre ellos, los escenarios de cola larga a gran escala requieren suficiente soporte informático por parte del centro de datos. Al mismo tiempo, el proceso de retorno de escenas simuladas a la realidad también requiere una enorme potencia informática para brindar soporte.
Con el apoyo de MANA OASIS, se han actualizado los cinco modelos del sistema de inteligencia de datos MANA. Con la ayuda de cinco modelos, la última arquitectura de percepción del lado del vehículo de MANA se integra a partir de múltiples tareas posteriores que estaban dispersas en el pasado para formar una arquitectura más integral, que incluye reconocimiento general de obstáculos, redes de carreteras locales, predicción de comportamiento y otras tareas . La arquitectura de detección del lado del vehículo se ha mejorado a lo largo de generaciones. Esto también significa que Milly tiene capacidades de percepción más sólidas y capacidades de producto más sólidas, y está acelerando hacia la conducción totalmente autónoma.
El primero es el modelo de autocontrol visual, que convierte a Millie en la primera en China en realizar anotaciones automáticas de clips 4D. Millimeters utiliza clips de vídeo masivos para entrenar previamente modelos grandes mediante el autocontrol de vídeo, y utiliza una pequeña cantidad de datos de clips etiquetados manualmente para ajustar y entrenar el modelo de detección y seguimiento, de modo que el modelo tenga capacidades de etiquetado automático y luego extraiga; El video original corresponde a los datos de un solo cuadro etiquetado y lo organiza en clips, entre ellos, el 10% son cuadros etiquetados y el 90% son cuadros sin etiquetar. Luego, estos fragmentos se ingresan en el modelo para completar el etiquetado automático del 90% de los. fotogramas sin etiquetar Todo el etiquetado de un solo fotograma se convierte automáticamente en etiquetado de clip al 100%, al tiempo que se reduce en un 98%. El modelo de autocontrol de vídeo de ondas milimétricas tiene excelentes efectos de generalización y puede completar con precisión la anotación automática incluso en algunas escenas muy difíciles, como ciclistas muy oscurecidos, objetivos pequeños en la distancia, mal tiempo e iluminación, etc.
En segundo lugar, la reconstrucción tridimensional de modelos grandes ayuda a generar datos, resuelve el problema de la distribución de datos a un menor costo y mejora el efecto de percepción. Ante el problema de la industria de que es difícil y costoso acumular casos de esquina completamente a partir de datos reales, Millicent aplica la tecnología NeRF a la reconstrucción de escenas de conducción autónoma y la generación de datos. Al cambiar el ángulo de visión, la iluminación y los materiales de textura, se generan datos altamente realistas para lograr una adquisición de casos normales de bajo costo y generar varios casos de esquina de alto costo. Los datos generados por la reconstrucción 3D de modelos grandes no sólo son mejores que los métodos tradicionales de modelado explícito manual y renderizado de texturas, sino que también son más baratos. Después de agregar los datos generados por NeRF, la tasa de error de percepción se puede reducir en más del 30% y todo el proceso de generación de datos se automatiza sin ninguna participación manual.
El modelo grande de supervisión mutua multimodal puede completar el reconocimiento de los obstáculos generales. Después de lograr con éxito una detección precisa de líneas de carril y obstáculos comunes, Millie está pensando y explorando una solución más general para detectar de manera estable varios obstáculos con formas especiales en la ciudad. El modelo milimétrico de monitoreo mutuo multimodal actual introduce LIDAR como una señal de supervisión visual y utiliza directamente datos de video para inferir la expresión estructural aproximada de la escena. La detección de esta estructura general puede complementar la detección semántica de obstáculos existente y mejorar efectivamente la tasa de aprobación del sistema de conducción autónoma en condiciones urbanas complejas.
Los grandes modelos de entornos dinámicos pueden predecir con precisión las relaciones topológicas de la carretera, permitiendo que los vehículos permanezcan siempre en el carril correcto. En el camino de centrarse en la tecnología de detección para minimizar la dependencia de mapas de alta precisión, Milly enfrenta el desafío de la "inferencia en tiempo real de la topología de las carreteras". Por lo tanto, basándose en el mapa de características BEV y utilizando el mapa estándar como información de guía, se utiliza la red de codificación y decodificación autorregresiva para decodificar las características BEV en una secuencia de puntos topológicos estructurados para lograr la predicción de la topología del carril. Bajo las indicaciones de navegación de los mapas estándar, la capacidad de percepción es similar a la de los humanos y se puede lograr una inferencia en tiempo real de la topología de la carretera.
Creo que resolver el problema de las intersecciones en realidad resuelve el problema del NOH en la mayoría de las ciudades. Actualmente, en Baoding y Beijing, el 85% de las tasas de precisión de la inferencia de topología de intersección llegan al 95%. Puede predecir con precisión incluso intersecciones muy complejas e irregulares y es mucho más antiguo que los conductores veteranos.
El modelo cognitivo de autocontrol de la conducción humana se actualizó oficialmente a DriveGPT en febrero de este año, que también es el primer modelo cognitivo de conducción autónoma del mundo. Puede hacer que la estrategia de conducción sea más personalizada, más segura y más fluida. En la actualidad, DriveGPT de ondas milimétricas ha completado la construcción del modelo y la operación de datos de la primera etapa, y la escala de parámetros puede alcanzar el estándar GPT-2. A continuación, DriveGPT continuará introduciendo datos de adquisiciones reales a gran escala y mejorará continuamente el efecto de la evaluación mediante el aprendizaje reforzado de la retroalimentación de los datos de conducción humana. Al mismo tiempo, DriveGPT también se utilizará como modelo de evaluación en la nube para evaluar el efecto de conducción de modelos pequeños en el lado del vehículo.
Las pruebas de simulación pueden acortar eficazmente el ciclo de desarrollo de tecnología y productos y reducir los costos de I+D. Los escenarios de cola larga típicos de la industria no son lo suficientemente ricos. La plataforma de simulación puede generar fácilmente escenarios extremos que se encuentran pero que no se esperan en la realidad. Dado que el entorno de simulación en las pruebas de simulación necesita implementar una fusión multimodal para soportar la complejidad del módulo del sensor, también requiere el soporte de una gran potencia informática.
Además de los detalles, el Centro de Supercomputación de Tesla tiene casi 20.000 GPU, lo que tiene un efecto inmediato en la eficiencia del entrenamiento de conducción autónoma y maximiza la eficiencia del desarrollo del grupo de alta potencia informática de Continental; el ciclo se ha acortado de semanas a horas, lo que permite implementar la conducción autónoma en planes de negocio a corto y medio plazo; la reducción del tiempo de aprendizaje automático ha acelerado la entrada de nuevas tecnologías en el mercado; Los modelos de conducción se han acortado de 7 días a 1 hora, la velocidad aumenta significativamente en casi 1,70 veces...
Actualmente, las empresas de automóviles con planes a largo plazo en el campo de la conducción autónoma, ya sea son nuevas fuerzas de fabricación de automóviles, marcas tradicionales o proveedores de tecnología, están construyendo los suyos propios. Es un hecho indiscutible que el centro de supercomputación tiene recursos informáticos estables, acorta el ciclo de desarrollo y acelera el lanzamiento de productos de conducción autónoma. Por el contrario, sin un centro de supercomputación, la velocidad de la formación en conducción autónoma será significativamente más lenta y la brecha entre las empresas de conducción autónoma será cada vez más evidente.
El uso de centros informáticos inteligentes para construir nuevas infraestructuras digitales para fosos de datos se ha convertido gradualmente en un estándar de desarrollo.
Desde el desarrollo de la conducción autónoma, la industria ha descubierto que la conducción asistida inteligente de turismos es el escenario empresarial con más probabilidades de implementarse a gran escala. Los datos del Instituto de Investigación de Vehículos Inteligentes de Ingeniería Avanzada muestran que la tasa de instalación estándar de conducción asistida de nivel L2 para turismos en el mercado chino (excluyendo importaciones y exportaciones) en 2022 superó el 30% por segundo mes consecutivo. Según datos de Zhiyan Consulting, se espera que la tasa global de penetración de la conducción autónoma L2 de automóviles nuevos alcance el 53,99% en 2025.
Este año también se inició la producción en masa de la conducción asistida por navegación urbana. Western Securities predice que de 2023 a 2025, habrá 700.000, 16.900 y 3,48 millones de automóviles equipados con conducción asistida por navegación urbana en el mercado nacional, lo que representa el 17%, 40% y 70% respectivamente.
En el contexto de la aceleración de la conducción asistida por navegación urbana, se ha prestado más atención a las soluciones de redetección que son más fáciles de copiar y ampliar. Ante el desafío de la "inferencia en tiempo real de la topología de la carretera" bajo la ruta de tecnología de detección pesada, la opción es utilizar el mapa estándar como información de guía basada en el mapa de características, utilizar la red de codificación y decodificación autorregresiva y decodificar. la secuencia de puntos de topología estructurada para realizar la predicción de topología de carril. No es difícil ver que la industria ha alcanzado gradualmente la ruta de la repercepción del conocimiento * *, que depende más de la potencia informática que de las soluciones cartográficas de alta precisión.
La inteligencia artificial es un acelerador de la innovación y los centros de computación inteligentes pueden brindar soporte para diversas innovaciones tecnológicas. Por un lado, el centro de computación inteligente puede proporcionar instalaciones informáticas para construir un entorno de investigación y desarrollo de tecnología seguro, confiable y reutilizable, proporcionar servicios de computación inteligente para la investigación y el desarrollo científicos en diversos campos y acelerar el proceso de investigación y desarrollo científico; Por otro lado, el centro de computación inteligente es una nueva generación de portadores integrales de aplicaciones de tecnología de la información. La rápida construcción, promoción y aplicación a gran escala de centros informáticos inteligentes promoverá la rápida iteración de redes de servicios de comunicaciones, big data, inteligencia artificial y otras tecnologías, promoviendo así la innovación tecnológica.
Los datos de conducción autónoma están fragmentados, se caracterizan por muchos archivos pequeños que alcanzan decenas de miles de millones y es necesario intercambiar muchos datos durante el entrenamiento. El centro de computación inteligente puede proporcionar suficiente ancho de banda, lo que permite que el modelo de conducción autónoma tenga un mejor marco de computación paralela y aproveche al máximo los recursos de hardware durante el entrenamiento.
El 20 de abril de 2020, la Comisión Nacional de Desarrollo y Reforma aclaró por primera vez el alcance de la nueva infraestructura, incluida la infraestructura informática representada por centros de computación inteligentes. El 65438 de junio + 10 de octubre de 2023, el Centro Nacional de Investigación para el Desarrollo de la Seguridad de la Información Industrial publicó el "Informe futuro del Centro de Computación Inteligente 2.0" indicando que después de más de cinco años de desarrollo, el centro de computación inteligente está pasando de la etapa de expansión extensa de 1.0. a la depurada planificación de la etapa 2.0.
Según estadísticas y cálculos relevantes, más de 30 ciudades en China están construyendo o preparándose para construir centros de computación inteligente. En los próximos cinco años, la tasa de crecimiento anual compuesta de las capacidades de computación inteligente de China alcanzará el 52,3. %. El desarrollo innovador del centro de computación inteligente consolidará aún más la "base informática" de la inteligencia artificial y se convertirá en un nuevo motor que impulsará el rápido desarrollo de la inteligencia artificial y las industrias relacionadas.
“Estimamos que la optimización de costos aportada por el centro de computación inteligente es asombrosa y alcanzará el nivel de 100 millones de yuanes”. Esta es la predicción de Zhang Kai en 65438+ de octubre de este año. A juzgar por la escala de producción en masa planificada actual y futura, la construcción de un centro de computación inteligente autoconstruido puede ahorrar enormes costos y su mejora de eficiencia también es muy obvia;
Con el rápido desarrollo de la inteligencia artificial y la aparición de nuevos algoritmos, es necesario introducir nuevas tecnologías y modelos lo antes posible. Al mismo tiempo, los datos son el principal motor del desarrollo inteligente y también representan una gran cantidad de componentes de costes. El uso de centros de computación inteligentes autoconstruidos para construir un foso de datos no solo puede mejorar el ecosistema de inteligencia industrial, sino que también brinda a las empresas una ventaja de ser pioneras en inteligencia. Como nuevo tipo de infraestructura digital, los centros informáticos inteligentes liderarán inevitablemente la actualización iterativa continua de la futura tecnología de conducción autónoma.
Este artículo proviene de la perspectiva de la industria automotriz del autor de Bitauto, y los derechos de autor pertenecen al autor. Por favor contacte al autor en cualquier forma. El contenido sólo representa la opinión del autor y no tiene nada que ver con la modificación del coche.