¡La compresión 20x sigue siendo fuerte! El algoritmo "cool" del maestro sublima los equipos de visión integrados.
Cualquier sistema inteligente con funciones potentes, hardware liviano y bajo costo es el primer principio que los desarrolladores deben considerar. Es lo mismo que la "producción máxima bajo restricciones de producción" y la "utilidad máxima bajo presupuesto personal" reveladas por la economía. Como dijo el profesor Shen Bin de la Universidad de Tongji, los países extranjeros se centran en vender software, mientras que las empresas nacionales se centran en vender productos. En términos de software, a algunas empresas de Hangzhou les va mejor.
Para la visión artificial y la visión por computadora, los sistemas complejos como la conducción autónoma y la inteligencia artificial requieren una mayor eficiencia, y las redes neuronales convolucionales se utilizan ampliamente en el campo de la visión inteligente. Recientemente, el equipo de FaceBook encontró una nueva forma y propuso un nuevo método de compresión de redes neuronales: BitGoesdown, que promueve en gran medida la reducción de los requisitos de hardware del sistema. ¿Qué implicaciones trae esto?
Pequeño pero preciso
El equipo de FaceBook comprimió la máscara de detección de imágenes R-CNN (He) 25 veces y la entrenó con 8 GPU V100. Los resultados muestran que la máscara del modelo comprimido AP solo cae aproximadamente 4. El equipo también comparó los resultados de compresión de modelos de redes residuales de clasificación de imágenes como ResNet-18 y ResNet-50, y descubrió que ResNet-50 tenía el mejor rendimiento cuando se comprimió a 5 MB.
Por cierto, el Sr. He acaba de ganar el premio Young Scholar Award en la 31ª Conferencia de Reconocimiento de Patrones y Visión por Computadora el año pasado. Anteriormente, como primer autor, el estudiante también ganó el premio al mejor artículo estudiantil en CVPR 2009, CVPR 2016, ICCV 2017 (Premio Marr) y el premio al mejor artículo estudiantil en ICCV 2017. En 2009, se convirtió en el primer académico chino en ganar el "Premio al Mejor Artículo" de CVPR, una de las tres principales conferencias internacionales en el campo de la visión por computadora. Mingkai también fue recomendado para la Universidad de Tsinghua como máximo puntaje en el examen de ingreso a la Universidad de Guangdong. Se graduó con un doctorado de la Universidad de Hong Kong y se unió a FaceBook en 2016.
La máscara R-CNN de He Mingkai se extiende desde el R-CNN rápido. Basado en el R-CNN rápido, se agrega una rama de predicción de máscaras de destino, que es paralela a la rama de clasificación del cuadro delimitador existente. El entrenamiento con Mask R-CNN es simple. Solo aumenta o disminuye el consumo de tiempo en función del R-CNN más rápido, y la velocidad de carrera alcanza los 5 fps. Además, Mask R-CNN se puede aplicar fácilmente a otras tareas.
Cree un nuevo camino único para usted: desarrolle un nuevo estilo único
La comunidad académica ha explorado la compresión de redes neuronales convolucionales. El pensamiento convencional actual se centra principalmente en MobileNets, que tiene una alta tasa de precisión, pero aún está lejos de ser un estado excelente. Esta vez, el equipo de FaceBook volverá al marco de red convolucional tradicional. La característica más importante es centrarse en la cantidad de activaciones en lugar de los pesos en sí. La implementación específica incluye cuantificación de capas y cuantificación de red. El método de implementación específico es el siguiente:
De hecho, este método de aprendizaje no está supervisado. El equipo enseñó a los "estudiantes" la compresión de redes utilizando una técnica de destilación propuesta por Hinton et al.
Materiales de referencia:
1.QbitAI "El nuevo algoritmo de compresión de Facebook beneficia a los dispositivos integrados"
2.ICCV2017 La mejor máscara de papel del Dr. He Mingkai R- CNN; informe tutorial;
3. El profesor Shen Bin, director del Departamento de Ingeniería Mecánica de la Universidad de Tongji, pronunció un discurso.
Fin
El diseño del sistema visual es gratuito.