挑战GPT-4V！清华唐杰&智谱开源多模态14边形冒险者，在线可玩

时间：2024-01-27 12:20:19

梦晨则有凹非寺粒子位 | 公众号 QbitAI

看看这张图里有几个小木屋？如果你回答3个，就和GPT-4V的答案一样。

但是最新开源的国产多模态数学法则CogVLM-17B，就能可知另有玄机。

甚至能区分在图里完整可见的有3个和部分可见的有1个。

CogVLM由清华和智谱AI合资企业，通讯原作者为唐杰和丁铭，论文和开源代码已上传到GitHub。

除这个之外案例之外，CogVLM-17B还在10项权威跨模态完全符合上拿下了SOTA机动性。

另外在VQAv2, OKVQA, TextVQA, COCO captioning拿下第二，突破或给定搜索引擎的PaLI-X 55B。

与之后的开源多模态大数学法则远比，可以算是14五边形战士。

雷达图里包含13个完全符合，就此一个TDIUC之外展现。

CogVLM可以回答除此以外的美感情况，比如从马斯克的阴阳怪气里推理出小扎于是就下到了，不对约架。

亲眼看到照片里的C罗，并回答他在2018年联合会杯里有多少进球。

带图的程序员墨迹也能给出代码了。

甚至能完成简单的前提检测，并打上标签，自动数据注明成了。

从比较大偏移到尺度融为一体

CogVLM数学法则包含4个必需组件

ViT编码器MLP适配器大型可不基础训练语言数学法则美感专家学者模块

其里，每层里都附加了可基础训练的美感专家学者模块，以实现投影特征和文本特征的尺度偏移，而一定会牺牲任何NLP任务的机动性。

之后主流的比较大偏移法则，如BLIP-2，投影特征和语言数学法则二者之间缺乏尺度融为一体,导致机动性不佳。

但简化语言数学法则的全部参数又会损害其NLP能力也。

CogVLM的法则可以说是偏离了美感语言数学法则的基础训练范式，从比较大偏移转向尺度融为一体。

另外值得注意的是，CogVLM基础训练数据里没有专门的OCR数据，但表现出了很强的文字标识能力也。

CogVLM开源并给出了在线新游戏。

不过目前仅默许英文，后续会共享里英双语版本默许，可以持续关注。

新游戏重定向：

开源及论文重定向：

— 完 —

粒子位 QbitAI · 头条号签约