随着多模态大模型(MLLMs)的飞速发展,模型已经能够很好地理解视频中 “发生了什么(What)”,却无法精准地定位到事件在视频中 “何时发生(When)”。这种视频时序定位(Video Temporal Grounding, VTG)能力的严重缺陷 ...
点击上方“Deephub Imba”,关注公众号,好文章不错过 ...
TimeLens的推出不仅为VTG领域带来了一个新的开源模型,更为后续研究提供了宝贵的参考方法和设计蓝图。随着TimeLens的代码、模型、训练数据和评测基准的开源,未来的视频时序定位研究将迎来更加广阔的发展空间。此举无疑将推动整个行业在视频理解技术上的进步,开启新的篇章。 返回搜狐,查看更多 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果