VGHuman es un marco de IA embodied publicado en arXiv por un equipo conjunto de Peking University, CMU, Tongji, UCLA y Michigan, que permite acciones autónomas en escenas 3D desconocidas mediante visión. El marco se divide en la capa World (campos gaussianos 3D con reconstrucción monocular, semántica y malla de colisiones, considerando oclusiones) y la capa Agent (percepción RGB-D en primera persona, razonamiento iterativo para generar planificación, y modelos de difusión que transforman en movimientos corporales completos). En 200 escenas de prueba, la tasa de éxito supera en aproximadamente 30 puntos porcentuales a baselines como NaVILA, con tasas de colisión más bajas o iguales; soporta acciones como correr y saltar, así como planificación a largo plazo, el código planea ser de código abierto, y ya se ha creado un repositorio en GitHub.

MeNews

2026-05-01 07:33:18

Generación de resúmenes en curso

ME News Noticias, 14 de abril (UTC+8), según la monitorización de 1M AI News, un equipo conjunto de la Universidad de Pekín, la Universidad Carnegie Mellon, la Universidad Tongji, la Universidad de California en Los Ángeles y la Universidad de Michigan publicó en arXiv VGHuman, un marco de IA embodied que permite a los humanos digitales actuar de forma autónoma en entornos 3D desconocidos solo con percepción visual. Anteriormente, los sistemas de humanos digitales dependían en general de guiones predefinidos o información privilegiada, mientras que VGHuman parte de dar a los humanos digitales verdaderos ojos, permitiéndoles ver, planificar y actuar por sí mismos. El marco se divide en dos capas. La capa World reconstruye escenas 3D de Gauss con anotaciones semánticas y mallas de colisión a partir de videos monoculares, con un diseño de percepción de oclusiones que le permite reconocer objetos pequeños bloqueados en entornos exteriores complejos. La capa Agent equipa al humano digital con percepción RGB-D (color + profundidad) en primera persona, generando planificación mediante indicios visuales de percepción espacial y razonamiento iterativo, que finalmente se transforma en una secuencia de movimientos corporales mediante un modelo de difusión para impulsar el movimiento del personaje. En la prueba de navegación en 200 escenarios, en niveles de dificultad que incluyen rutas simples, esquivar obstáculos y peatones dinámicos, VGHuman supera en aproximadamente 30 puntos porcentuales a las líneas base más fuertes como NaVILA, NaVid, Uni-NaVid en tasa de éxito en tareas, con tasas de colisión iguales o menores. El marco también soporta estilos de movimiento como correr y saltar, así como planificación a largo plazo para acceder a múltiples objetivos consecutivos. El código y los modelos planean ser de código abierto, y ya se ha establecido un repositorio en GitHub. (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
459.21K Popularidad
#
USSeeksStrategicBitcoinReserve
58.7M Popularidad
#
IsraelStrikesIranBTCPlunges
37.42K Popularidad
#
BitcoinETFOptionLimitQuadruples
992.35K Popularidad
#
#FedHoldsRateButDividesDeepen
31.16K Popularidad

Anclado

La investigación conjunta de cinco universidades permite que los humanos digitales naveguen de forma autónoma en escenas 3D mediante visión, con una tasa de éxito aproximadamente un 30% superior a la línea base óptima.

Temas de actualidad

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Anclado