智谱开源新一代多模态大模型CogVLM2

AI新闻
5月22日

大鹏大鹏Ai自学室

核心内容：

智谱·AI最近宣布推出新一代多模态大模型CogVLM2，该模型在关键性能指标上相较于前一代CogVLM有了显著提升，同时支持8K文本长度和高达1344*1344分辨率的图像。CogVLM2在OCRbench基准上性能提升了32%，在TextVQA基准上性能提升了21.9%，显示出强大的文档图像理解能力。尽管CogVLM2的模型大小为19B，但其性能接近或超过了GPT-4V的水平。

技术创新：

CogVLM2的技术架构在上一代模型的基础上进行了优化，包括一个50亿参数的视觉编码器和一个70亿参数的视觉专家模块，这些模块通过独特的参数设置，精细地建模了视觉与语言序列的交互。这种深度融合策略使得视觉模态与语言模态能够更加紧密地结合，同时保持了模型在语言处理上的优势。此外，CogVLM2在推理时实际激活的参数量仅约120亿，这得益于其精心设计的多专家模块结构，显著提高了推理效率。

原文连接

{{userData.name}}已认证

智谱开源新一代多模态大模型CogVLM2

核心内容：

技术创新：

帮助中心

本站说明

服务内容

常见问题

联系与合作

关于我们

版权声明

在线工单