La investigación conjunta de cinco universidades permite que los humanos digitales naveguen de forma autónoma en escenas 3D mediante visión, con una tasa de éxito aproximadamente un 30% superior a la línea base óptima.

robot
Generación de resúmenes en curso

ME News Noticias, 14 de abril (UTC+8), según la monitorización de 1M AI News, un equipo conjunto de la Universidad de Pekín, la Universidad Carnegie Mellon, la Universidad Tongji, la Universidad de California en Los Ángeles y la Universidad de Michigan publicó en arXiv VGHuman, un marco de IA embodied que permite a los humanos digitales actuar de forma autónoma en entornos 3D desconocidos solo con percepción visual. Anteriormente, los sistemas de humanos digitales dependían en general de guiones predefinidos o información privilegiada, mientras que VGHuman parte de dar a los humanos digitales verdaderos ojos, permitiéndoles ver, planificar y actuar por sí mismos. El marco se divide en dos capas. La capa World reconstruye escenas 3D de Gauss con anotaciones semánticas y mallas de colisión a partir de videos monoculares, con un diseño de percepción de oclusiones que le permite reconocer objetos pequeños bloqueados en entornos exteriores complejos. La capa Agent equipa al humano digital con percepción RGB-D (color + profundidad) en primera persona, generando planificación mediante indicios visuales de percepción espacial y razonamiento iterativo, que finalmente se transforma en una secuencia de movimientos corporales mediante un modelo de difusión para impulsar el movimiento del personaje. En la prueba de navegación en 200 escenarios, en niveles de dificultad que incluyen rutas simples, esquivar obstáculos y peatones dinámicos, VGHuman supera en aproximadamente 30 puntos porcentuales a las líneas base más fuertes como NaVILA, NaVid, Uni-NaVid en tasa de éxito en tareas, con tasas de colisión iguales o menores. El marco también soporta estilos de movimiento como correr y saltar, así como planificación a largo plazo para acceder a múltiples objetivos consecutivos. El código y los modelos planean ser de código abierto, y ya se ha establecido un repositorio en GitHub. (Fuente: BlockBeats)

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado