Red de conocimientos turísticos - Conocimientos sobre calendario chino - Reconstrucción tridimensional del cuerpo humano (5): una breve descripción del método de reconstrucción de la postura humana

Reconstrucción tridimensional del cuerpo humano (5): una breve descripción del método de reconstrucción de la postura humana

La reconstrucción tridimensional de la postura humana generalmente se refiere al uso de equipos externos para restaurar la postura tridimensional del cuerpo humano. Comparado con la densa geometría humana, el esqueleto humano es una representación compacta de la postura humana. Este artículo presenta principalmente la reconstrucción postural basada en el esqueleto humano.

En la actualidad, la industria cuenta con una solución de reconstrucción de postura tridimensional relativamente madura, es decir, un sistema de captura de movimiento por contacto, como el famoso sistema óptico de captura de movimiento Vicon (Figura 1). Primero, se colocan marcadores ópticos especiales (marcadores) en partes clave del cuerpo humano (como las articulaciones del cuerpo humano). Múltiples cámaras especiales de captura de movimiento pueden detectar los puntos marcadores en tiempo real desde diferentes ángulos. Luego, las coordenadas espaciales de los puntos marcadores se calculan con precisión según el principio de triangulación y luego se utiliza el algoritmo de cinemática inversa (IK) para calcular los ángulos de las articulaciones del esqueleto humano. Debido a las limitaciones de las escenas y los equipos, así como al alto precio, los consumidores comunes y corrientes tienen dificultades para utilizar la captura de movimiento por contacto. Por lo tanto, los investigadores centraron su atención en una tecnología de reconstrucción de acciones sin contacto y de bajo costo. Este artículo presenta principalmente el trabajo de reconstrucción de actitudes utilizando cámaras monoculares RGB-D o cámaras monoculares RGB en los últimos años.

Reconstrucción de postura basada en cámara monocular RGB-D

Los métodos de reconstrucción de postura tridimensional basados ​​en RGB-D se pueden dividir en dos categorías, ángulos articulares, etc. Todo el trabajo anterior utiliza una fuerte supervisión para el entrenamiento. Dado que los datos de entrenamiento se recopilan en un entorno controlado, los modelos entrenados suelen ser difíciles de generalizar a escenas naturales.

Para mejorar la capacidad de generalización del modelo, algunos trabajos intentan utilizar una supervisión débil para supervisar imágenes en escenas naturales, como el uso de discriminadores de dominio o ajuste de modelos [76] para actualizarlas a tres dimensiones. espacio.

Martínez et al. [62] diseñaron una estructura de red completamente conectada simple pero efectiva, que toma posiciones de puntos de unión bidimensionales como entrada y genera posiciones de puntos de unión tridimensionales, como se muestra en la Figura 2.

Posteriormente, Zhao et al. [75] propusieron utilizar el módulo de capa de convolución de gráficos semánticos para capturar la correlación topológica entre los puntos de articulación del cuerpo humano (como la simetría del cuerpo humano), mejorando aún más la precisión de los tres puntos. Reconstrucción de pose dimensional. Sin embargo, el mapeo de una pose 2D a una pose 3D en sí mismo es un problema de ambigüedad porque múltiples poses 3D pueden proyectar la misma pose 2D [77]. Algunos trabajos recientes intentan incorporar más conocimientos previos para aliviar la ambigüedad [78–80].

Todos los trabajos anteriores son modelos discriminativos y las posiciones tridimensionales predichas de los puntos de articulación pueden no cumplir con las restricciones anatómicas humanas (como que no se cumple la simetría y la relación de longitud del hueso no es razonable) o restricciones cinemáticas. (Los ángulos de las articulaciones exceden el límite). Mehta et al. [63] adaptaron una plantilla de esqueleto humano a los puntos de articulación bidimensionales y a las posiciones de los puntos de articulación tridimensionales previstos, y propusieron el primer sistema de reconstrucción de postura tridimensional en tiempo real, VNect, basado en cámaras RGB, que logró más. Resultado preciso de la reconstrucción postural. Como se muestra en la Figura 3.

Referencias

Continuación de la referencia anterior

[47] PLAGEMANN C, GANAPATHI V, KOLLER D, etal. Identificación y localización en tiempo real de partes del cuerpo. de Depthimages[C]//Conferencia internacional IEEE 2010 sobre robótica y automatización IEEE,2010: 3108-3113.

[48] Shotton J, Fitzgibbon A, Cook M, et al. reconocimiento en partes a partir de imágenes de profundidad única[C]//CVPR2011. 2011: 1297-1304.

[49] TAYLOR J, SHOTTON J, SHARP T, et al. La variedad de Vitruvio: Inferir correspondencias densas para estimación de la pose humana de una sola vez[C]//Conferencia IEEE 2012 sobre visión por computadora y reconocimiento de patrones.IEEE, 2012: 103-110.

[50] GANAPATHI V, PLAGEMANN C, KOLLER D, et al. Captura de movimiento en tiempo real utilizando una única cámara de tiempo de vuelo[C]//2010 IEEEComputer Society Conference on Computer Vision and Pattern Recognition IEEE,2010: 755-762.

[51] GANAPATHI V,. PLAGEMANN C, KOLLER D, etal. Seguimiento de la postura humana en tiempo real a partir de datos de alcance[C]//Conferencia europea sobre visión por computadora Springer, 2012: 738-751.

[52] IONESCU C, PAPAVA D. , OLARUV, et al.Human3.6m: conjuntos de datos a gran escala y métodos predictivos para la detección humana en 3D en entornos naturales [J]. IEEE Transactions on Pattern Analysis and MachineIntelligence, 2013, 36(7):1325-1339.

[53] SIGAL L, BALAN A O, BLACK M J.Humaneva: Conjunto de datos de captura de movimiento y video sincronizado y algoritmo de referencia para la evaluación del movimiento humano articulado [J]. Revista internacional de visión por computadora, 2010, 87 (1-2): 4.

[54] LI S, CHANA B. 3

d estimación de la pose humana a partir de imágenes monoculares con una red neuronal convolucional profunda[C]//Conferencia asiática sobre visión por computadora Springer, 2014: 332-347.

[55] POPA A I, ZANFIR M, SMINCHISESCU C.Deep. Arquitectura multitarea para detección humana integrada en 2D y 3D[C]//Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones 2017: 6289-6298.

[56] PAVLAKOS G, ZHOU X, DERPANIS K G, etal. Predicción volumétrica de grueso a fino para pose humana 3D de una sola imagen//Conferencia IEEE sobre visión por computadora y reconocimiento de patrones 2017:7025-7034.

[57] FANG H S, XU Y. , WANG W, et al.Aprendiendo gramática de pose para codificar la configuración del cuerpo humano para la estimación de pose 3d[C]//Actas de la Conferencia AAAI sobre Inteligencia Artificial: volumen 32. 2018.

[58] SUN X, XIAO B, WEI F, et al. Regresión de pose integralhumana[C]//Actas de la Conferencia Europea sobre ComputerVision (ECCV 2018): 529-545.

[59] LEE K, LEE I, LEE S. Propagación de lstm: estimación de pose 3d basada en interdependencia conjunta [C]//Actas de la Conferencia Europea sobre Visión por Computadora (ECCV 2018): 119-135.

[60] HABIBIE I, XU W. , MEHTA D, et al. Estimación de la pose humana en la naturaleza utilizando características 2D explícitas y representaciones 3D intermedias[C]//Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones 2019: 10905-10914.

[61] FABBRI M, LANZI F, CALDERARA S, et al.Mapas de calor volumétricos comprimidos para estimación de poses 3D multipersona[C]//Actas de IEEE/CVF Con

Conferencia sobre visión por computadora y reconocimiento de patrones 2020: 7204-7213.

[62] MARTINEZ J, HOSSAIN R, ROMERO J, et al. Una línea de base simple pero efectiva para la estimación de pose humana en 3D[C]//Proceedings of. la Conferencia Internacional IEEE sobre ComputerVision 2017: 2640-2649.

[63] MEHTA D, SRIDHAR S, SOTNYCHENKO O, etal. VNect: Estimación de la pose humana en 3D en tiempo real con una sola cámara RGB[J]. ]. ACMTransactions on Graphics (TOG), 2017, 36 (4):44.

[64] LUO C, CHU X, YUILLE A. Orinet: Red totalmente convolucional para la estimación de la pose humana en 3D[J] arXiv preprintarXiv:1811.04989, 2018.

[65] JOO H, SIMON T, SHEIKH Y. Totalcapture: Un modelo de deformación 3D para rastrear rostros, manos y cuerpos[C]//Conferencia IEEE sobre visión por computadora. y reconocimiento de patrones 2018: 8320-8329.

[66] HABERMANN M, XU W, ZOLLHOEFER M, etal. Deepcap: captura monocular del desempeño humano mediante supervisión débil[J].arXiv: Visión por computadora y patrón. Reconocimiento, 2020.

[67] SUN

[68] SUN >

[69] YANGW, OUYANGW,WANGX, et al. Estimación de pose humana 3D en la naturaleza mediante aprendizaje adversario. [C]//Conferencia IEEE sobre visión por computadora y reconocimiento de patrones 2018: 52555264.

[70] ZHOU X, HUANG Q, SUN X, et al. Hacia la estimación de la pose humana en 3D en la naturaleza: un enfoque débilmente supervisado[C]//Conferencia Internacional IEEE sobre Visión por Computadora 2017: 398-. 407.

[71] WEI S E, RAMAKRISHNA V, KANADE T, etal. Máquinas de pose convolucionales[C]// Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones 2016: 4724-4732.

[72] NEWELL A, YANG K, DENG J. Redes de reloj de arena apiladas para la estimación de la pose humana [C]//Conferencia europea sobre visión por computadora 2016: 483-499.

[73] CHEN. Y, WANG Z, PENG Y y otros. Red piramidal en cascada para estimación de poses de varias personas[C]//Conferencia IEEE sobre visión por computadora y reconocimiento de patrones (CVPR 2018).

[74] XIAO. B, WU H, WEI Y. Líneas de base simples para la estimación y el seguimiento de la pose humana[C]//La Conferencia Europea sobre ComputerVision (ECCV) 2018.

[75] ZHAO L, PENG X, TIANY, et al. Redes convolucionales de gráficos semánticos para regresión de pose humana en 3D.

[76] CHENC H,RAMANAND. Estimación de pose humana en 3D = estimación de pose en 2D + coincidencia[C]// Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones 2017: 7035-7043.

[77] HOSSAINMR I, LITTLE J J. Exploitingtemporal information. para estimación de pose humana en 3D [C]//Actas de la Conferencia Europea sobre Visión por Computadora (ECCV 2018: 68-84).

[78] TEKIN B, M?RQUEZ-NEILA P, SALZMANN M, et al. Aprendiendo a fusionar imágenes 2D y 3D.

Señales electrónicas para la estimación de la pose del cuerpo monocular[C]//Actas de la Conferencia Internacional IEEE sobre ComputerVision 2017: 3941-3950.

[79] WANG J, HUANG S, WANG X, et al. se crean iguales: estimación de pose 3D mediante el modelado de dependencias bidireccionales de partes del cuerpo[C]//Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computadora 2019: 7771-7780.

[80] PAVLAKOS G,. ZHOU