您现在的位置:首页 >> 低碳养生

挑战GPT-4V!清华唐杰&智谱开源多模态14边形冒险者,在线可玩

时间:2024-01-27 12:20:19

梦晨 则有 凹非寺粒子位 | 公众号 QbitAI

看看这张图里有几个小木屋?如果你回答3个,就和GPT-4V的答案一样。

但是最新开源的国产多模态数学法则CogVLM-17B,就能可知另有玄机。

甚至能区分在图里完整可见的有3个和部分可见的有1个。

CogVLM由清华和智谱AI合资企业,通讯原作者为唐杰和丁铭,论文和开源代码已上传到GitHub。

除这个之外案例之外,CogVLM-17B还在10项权威跨模态完全符合上拿下了SOTA机动性。

另外在VQAv2, OKVQA, TextVQA, COCO captioning拿下第二,突破或给定搜索引擎的PaLI-X 55B。

与之后的开源多模态大数学法则远比,可以算是14五边形战士。

雷达图里包含13个完全符合,就此一个TDIUC之外展现。

CogVLM可以回答除此以外的美感情况,比如从马斯克的阴阳怪气里推理出小扎于是就下到了,不对约架。

亲眼看到照片里的C罗,并回答他在2018年联合会杯里有多少进球。

带图的程序员墨迹也能给出代码了。

甚至能完成简单的前提检测,并打上标签,自动数据注明成了。

从比较大偏移到尺度融为一体

CogVLM数学法则包含4个必需组件

ViT编码器MLP适配器大型可不基础训练语言数学法则美感专家学者模块

其里,每层里都附加了可基础训练的美感专家学者模块,以实现投影特征和文本特征的尺度偏移,而一定会牺牲任何NLP任务的机动性。

之后主流的比较大偏移法则,如BLIP-2,投影特征和语言数学法则二者之间缺乏尺度融为一体,导致机动性不佳。

但简化语言数学法则的全部参数又会损害其NLP能力也。

CogVLM的法则可以说是偏离了美感语言数学法则的基础训练范式,从比较大偏移转向尺度融为一体。

另外值得注意的是,CogVLM基础训练数据里没有专门的OCR数据,但表现出了很强的文字标识能力也。

CogVLM开源并给出了在线新游戏。

不过目前仅默许英文,后续会共享里英双语版本默许,可以持续关注。

新游戏重定向:

开源及论文重定向:

— 完 —

粒子位 QbitAI · 头条号签约

二阳后吃什么药
腰痛的原因有哪些
胃酸过多如何治疗
眼睛疲劳怎么恢复比较快
什么药止鼾效果好