字节跳动与浙大联合推多模态大语言模型 Vista-LLaMA，可解读视频内容

2024-01-09 05:19:41

巴比特讯字节跳动与浙江大学合作推出了多模态大语言模型 Vista-LLaMA，该模型专为视频内容理解而设计，能够输出高质量视频描述。通过创新的视觉与语言 token 处理方式，Vista-LLaMA 解决了在视频内容中出现“幻觉”现象的问题。

Vista-LLaMA 在多个开放式视频问答基准测试中表现卓越，尤其在 NExT-QA 和 MSRVTT-QA 测试中取得了突破性成绩。其在零样本 NExT-QA 测试中实现了 60.7% 的准确率，在 MSRVTT-QA 测试中达到了 60.5% 的准确率，超过了目前所有的 SOTA 方法。这些结果证明了 Vista-LLaMA 在视频内容理解和描述生成方面的高效性和精准性。

TOKEN-1.12%

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

1人点赞了这条动态

赞赏
1
1
转发
分享

0/400

笑谈币生

· 2024-03-14 21:37

梭哈 All in 🙌

WendyCS

热门话题查看更多
#CoinDesk11月报告Gate战绩来袭
2.75万热度
#广场发币瓜分千U奖池
10.1万热度
#XRP现货ETF将上线
2.86万热度
#美停摆危机或将结束？
2.44万热度
#ETH反弹开启，能否延续？
1.14万热度

热门 Gate Fun查看更多

1
FL珐琅币
市值:$3993.1持有人数:1
0.00%
2
TenGateTenMillion Gate
市值:$4006.89持有人数:1
0.00%
3
22250272XRP Mini Reward
市值:$3941.37持有人数:1
0.00%
4
KASTKey
市值:$3948.27持有人数:1
0.00%
5
OneKey
市值:$3958.62持有人数:1
0.00%