新一代视觉语言模型来袭!阿里通义千问支持20分钟长视频创作,颠覆你的想象!
|
【ITBEAR】9月2日消息,近日,阿里云通义千问宣布推出全新升级的第二代视觉语言模型Qwen2-VL,该模型在视觉和语言理解能力上实现了质的飞跃。
新一代视觉语言模型来袭!阿里通义千问支持20分钟长视频创作,颠覆你的想象! ...
与上一代相比,Qwen2-VL展现出了更为出色的性能。它不仅能够轻松解读各种分辨率和尺寸的图片,更在多项基准测试中,包括DocVQA、RealWorldQA和MTVQA,取得了令人瞩目的全球领先成绩。值得一提的是,该模型还具备了对长视频内容的深度理解能力,可以处理超过20分钟的视频,并支持基于视频的问答、对话以及内容创作等多种应用场景。
据ITBEAR了解,Qwen2-VL此次推出了2B和7B两种尺寸的模型,同时还提供了量化版本以供选择。此外,旗舰级的Qwen2-VL-72B模型也已通过API形式在阿里云百炼平台上开放,供用户直接调用,大大提升了使用的便捷性。
在功能方面,Qwen2-VL还展现了强大的视觉智能体实力。它能够自主操作手机和机器人,根据所处的视觉环境和文字指令进行智能化的自动操作,这一功能的加入无疑将极大地拓展模型的应用范围。
值得一提的是,Qwen2-VL还具备多语言文本理解能力,可以处理包括中文、英文、多数欧洲语言、日语、韩语、阿拉伯语以及越南语等在内的多种语言。这一特性将极大地提升其在国际市场中的竞争力。
在技术层面,Qwen2-VL延续了ViT加Qwen2的经典串联结构,并在此基础上进行了多项创新。所有尺寸的模型都采用了统一的600M规模ViT,这使得模型能够同时支持图像和视频的输入。为了进一步提升模型的感知和理解能力,团队还实现了对原生动态分辨率的全面支持,并引入了创新的多模态旋转位置嵌入(M-ROPE)方法。
|
|
|
|
|
|