Una evaluación exhaustiva de Veo 3 acaba de analizar más de 18,000 videos en benchmarks tanto cualitativos como cuantitativos. Lo que resulta sorprendente es la capacidad del modelo para percibir, editar e interactuar con el entorno visual a partir de solo entradas de imagen y texto. El sistema demuestra capacidades de razonamiento tempranas que surgieron sin entrenamiento explícito en estas áreas, marcando un avance notable en cómo la IA entiende y manipula contenido visual. Este tipo de competencia multimodal está redefiniendo lo que esperamos de los modelos de generación de video de próxima generación.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
8 me gusta
Recompensa
8
5
Republicar
Compartir
Comentar
0/400
BtcDailyResearcher
· 2025-12-31 20:30
Vaya, ¿Veo 3 puede entender el entorno visual directamente desde las imágenes y textos? Esta capacidad emergente es un poco aterradora.
Ver originalesResponder0
ForkInTheRoad
· 2025-12-31 13:33
¡Madre mía, más de 18000 videos de prueba? La cantidad de datos debe ser muy sólida, parece que Veo 3 realmente está trabajando en silencio en grandes cosas
Ver originalesResponder0
mev_me_maybe
· 2025-12-28 21:47
ngl esta capacidad de emergencia realmente no puede mantenerse, se me ocurrió sin entrenamiento... siento que estamos un poco más cerca de una AGI general
Ver originalesResponder0
gas_fee_therapy
· 2025-12-28 21:39
veo3, la cantidad de datos es realmente impresionante, más de 18000 muestras de video que permiten desarrollar esta capacidad de razonamiento... aunque, para ser sincero, todavía está un poco lejos del razonamiento visual real
Ver originalesResponder0
MetaEggplant
· 2025-12-28 21:28
veo3 esta vez realmente fue fuerte, sin decirlo claramente en el entrenamiento, aprendió a razonar por sí mismo, esa es la parte realmente aterradora
Una evaluación exhaustiva de Veo 3 acaba de analizar más de 18,000 videos en benchmarks tanto cualitativos como cuantitativos. Lo que resulta sorprendente es la capacidad del modelo para percibir, editar e interactuar con el entorno visual a partir de solo entradas de imagen y texto. El sistema demuestra capacidades de razonamiento tempranas que surgieron sin entrenamiento explícito en estas áreas, marcando un avance notable en cómo la IA entiende y manipula contenido visual. Este tipo de competencia multimodal está redefiniendo lo que esperamos de los modelos de generación de video de próxima generación.