挑战GPT-4V!清华唐杰&智谱开源多模态14边形冒险者,在线可玩
时间:2024-01-27 12:20:19
梦晨 则有 凹非寺粒子位 | 公众号 QbitAI
看看这张图里有几个小木屋?如果你回答3个,就和GPT-4V的答案一样。
但是最新开源的国产多模态数学法则CogVLM-17B,就能可知另有玄机。
甚至能区分在图里完整可见的有3个和部分可见的有1个。
CogVLM由清华和智谱AI合资企业,通讯原作者为唐杰和丁铭,论文和开源代码已上传到GitHub。
除这个之外案例之外,CogVLM-17B还在10项权威跨模态完全符合上拿下了SOTA机动性。
另外在VQAv2, OKVQA, TextVQA, COCO captioning拿下第二,突破或给定搜索引擎的PaLI-X 55B。
与之后的开源多模态大数学法则远比,可以算是14五边形战士。
雷达图里包含13个完全符合,就此一个TDIUC之外展现。
CogVLM可以回答除此以外的美感情况,比如从马斯克的阴阳怪气里推理出小扎于是就下到了,不对约架。
亲眼看到照片里的C罗,并回答他在2018年联合会杯里有多少进球。
带图的程序员墨迹也能给出代码了。
甚至能完成简单的前提检测,并打上标签,自动数据注明成了。
从比较大偏移到尺度融为一体CogVLM数学法则包含4个必需组件
ViT编码器MLP适配器大型可不基础训练语言数学法则美感专家学者模块其里,每层里都附加了可基础训练的美感专家学者模块,以实现投影特征和文本特征的尺度偏移,而一定会牺牲任何NLP任务的机动性。
之后主流的比较大偏移法则,如BLIP-2,投影特征和语言数学法则二者之间缺乏尺度融为一体,导致机动性不佳。
但简化语言数学法则的全部参数又会损害其NLP能力也。
CogVLM的法则可以说是偏离了美感语言数学法则的基础训练范式,从比较大偏移转向尺度融为一体。
另外值得注意的是,CogVLM基础训练数据里没有专门的OCR数据,但表现出了很强的文字标识能力也。
CogVLM开源并给出了在线新游戏。
不过目前仅默许英文,后续会共享里英双语版本默许,可以持续关注。
新游戏重定向:
开源及论文重定向:
— 完 —
粒子位 QbitAI · 头条号签约
二阳后吃什么药腰痛的原因有哪些
胃酸过多如何治疗
眼睛疲劳怎么恢复比较快
什么药止鼾效果好
- .赵俊霞:“用实际行动回馈故乡”
- .谈房色变?调查显示:超80%的家庭仍不肯买房,更可怕的还在后面
- .七爪源码:有用的 git 应用软件和功能
- .河南保税物流园区将建农资分拨区域内
- .2023年的契税车费标准为:
- .微软 Xbox Elite 无线控制器 2 代青春版本开启预售,国行 999 元
- .一张“平安镇网”办妥妇女儿童关心事
- .房子该买在市中心还是城郊?
- .乐视将发布中高端手机:搭载联发科芯片,2K 曲面光,素皮材质
- .打造海上新广东,湛江率先迈向坚实一步
- .楼市降温,卖房者急了?三大利好消息,明年房价或将回落
- .时隔五年半,我们复测了小米的第一款自研闪存
- .京津冀联合征求意见通知:进一步加强京津消费帮扶助力河北乡村振兴
- .太疯狂了,慢速醒醒吧,不要再买房了,房价下跌,买房人扛不住了?
- .智能手机上也曾有过独显,这些产品你用过吗?
- .Keep:香港IPO发行价指导区间为每股28.92港元-61.46港元 预计于7月12日在创业板开始买卖
- .超级重磅!逐首付+利率,2024年北京楼市小阳春肯定要出现了!
- .疑为 iPhone 14 Pro “灵动岛”药丸挖孔屏将延续几代
- .市区大里路(北新道—新华道) 全幅提出抗议施工
- .楼市变局揭开帷幕:金融体系决策为退房提供明确指引!