小扎亲自官宣Meta视觉大模型!自监督学习无需微调 环球今日讯

来源:腾讯网

2023-04-18 19:40:18

萧箫 发自 凹非寺

量子位 | 公众号 QbitAI


(相关资料图)

无需文字标签,完全自监督的Meta视觉大模型来了!

小扎亲自官宣,发布即收获大量关注度——

在语义分割、实例分割、深度估计和图像检索等任务中,这个名叫DINOv2的视觉大模型均取得了非常不错的效果。

甚至有超过当前最好的开源视觉模型OpenCLIP之势。

虽然此前Meta就发布过自监督学习视觉大模型DINO,不过这次AI识别图像特征的能力显然更进一步,准确分割出了视频中的主体:

可别以为DINOv2通过自监督学会的只有图片分割。事实上,它已经能根据不同类别、不同场景下的照片,准确识别出同种物体(狗)的头部、身体和四肢长在哪:

换而言之,DINOv2自己学会了找图像特征。

目前Meta官方不仅已经放出了开源代码,而且还给了网页版Demo试玩。有网友内涵:

什么叫开源,LLaMA,SAM,DINOv2这才叫开源!

一起来看看,DINOv2的效果究竟如何。

准确识别不同画风的同种物体

事实上,DINOv2是基于上一代DINOv1打造的视觉大模型。

这个模型参数量是10亿级,也仍然是视觉Transformer架构(ViT),但与DINO不太一样的是,这次DINOv2在数据集上经过了精心挑选。

具体来说,DINOv2构建了一个数据筛选pipeline,将内容相似的图片精心筛选出来,同时排除掉相同的图片:

最终呈现给DINOv2的训练数据图片虽然没有文字标签,但这些图片的特征确实是相似的。

采用这类数据训练出来的视觉模型,效果如何?

这是DINOv2在8个视觉任务上的表现,包括语义分割、分类、深度估计等,其中橙色是自监督方法的效果,深粉色是弱监督方法的效果。

可以看见,经过自监督学习的视觉模型,表现上已经与经过弱监督学习的模型性能相当。

实际效果也不错,即便在一系列照片中,相同物体的画风并不相似,DINOv2也能准确识别它们的特征,并分到相似的列表中。

如(a)组中都具有翅膀的鸟和飞机、(b)组中的大象和大象雕塑、(c)组中的汽车和汽车玩具模型、(d)组中的马和涂鸦版马:

而且从PCA(主成分分析)图像效果来看,DINOv2不仅能准确分类,还能用不同颜色标出它们“相同”的部分,例如象鼻都是绿色、车轮都是红色、马的尾巴是黄色等。

换而言之,DINOv2能理解这些图像中的相似之处,就像人会形容飞机“看起来像一只鸟”一样。

目前DINOv2已经放出Demo,我们也试了试它的实际效果。

Demo直接可玩

官网已经开放语义分割、图像检索和深度估计三大功能的试玩。

据Meta介绍,这几个任务中,DINOv2在大多数基准上超过了目前开源视觉模型中表现最好的OpenCLIP。

我们先来看看深度估计的效果。

值得一提的是,在效果更好的情况下,DINOv2运行的速度也比iBOT更快,相同硬件下只需三分之一的内存,运行速度就能比DINOv2快上2倍多。

这是Meta论文中与OpenCLIP在实际例子上的比较效果:

我们用这张猛男版新宝岛试一下,看起来还不错,即使是高糊图片也能比较好地估计出深度:

接下来是语义分割的效果,这里也先给出Meta论文中的数据对比情况:

这里也给出OpenCLIP和DINOv2的对比,中间的图片是OpenCLIP的效果,右边是DINOv2分割的效果:

我们也用一张办公室的图片试了一下,看起来DINOv2还是能比较准确地分割人体、物体的,但在细节上会有一些噪点:

最后是图片检索

官网上给出的图片效果还是挺不错的,输入铁塔照片,可以生成不少含铁塔的相似艺术图片:

这里我们也试了试,输入一张华强买瓜,给出来的艺术图片大多数与西瓜有关:

那么,这样的自监督视觉大模型可以用在哪里?

从Meta给出的视频来看,目前有一些比较环保的用途,例如用于估计全球各地的树木高度:

除此之外,如同扎克伯格所说,DINOv2还能被用于改善医学成像、粮食作物生长等。当然这里小扎还进一步强调:

可以被用于制作更具沉浸感的元宇宙。

嗯,看来Meta的元宇宙路线还将继续…

关键词:

小扎亲自官宣Meta视觉大模型!自监督学习无需微调 环球今日讯

萧箫发自凹非寺量子位|公众号QbitAI无需文字标签,完全自监督的Meta视觉大模型来了!小扎亲自官宣,发布即收获大量关注度——在语义分割、实例[详细]
2023-04-18

银联云闪付的特点有哪些(银联云闪付有什么弊端)|每日动态

现在手机移动支付的两大软件就要数微信和支付宝了,但是作为银联就显得尴尬了很多,现在很多人在购物的时候已经渐渐的放弃了使用银联支付[详细]
2023-04-18

头条:深圳网红盘1.07亿天价起拍

深圳法拍豪宅王出现了。近日,京东法拍上架了一套超级豪宅,位于深圳市南山区蛇口街道恒裕滨城花园二期的5座A单元40B房源,起拍价1 07亿元,总[详细]
2023-04-18

环球热头条丨苏丹侨胞亲历武装冲突:猝不及防的枪声

中新社北京4月18日电(门睿金旭)苏丹首都喀土穆冲突仍在持续,多位在苏侨胞连线中新社记者,讲述亲历武装冲突场景。“15日早晨密集的枪声突然响[详细]
2023-04-18

全球聚焦:韦尔股份:一季度净利润同比下降77.81%

  上证报中国证券网讯(记者孔子元)韦尔股份发布一季报。2023年一季度实现营业收入43 35亿元,同比下降21 72%;归属于上市公司股东的净利润[详细]
2023-04-18

【天天播资讯】巴彦淖尔到福州物流专线 福州专线运输 双向往返/整车零担/准时到达

巴彦淖尔到福州物流专线福州专线运输双向往返 整车零担 准时到达北京鸿缘物流是经市行政管理局登记注册与市路管处及各级管理部门批准的合法大[详细]
2023-04-18

世界观速讯丨刚刚,国家统计局发布!

4月18日,国家统计局发布3月份能源生产情况。3月份,规模以上工业主要能源产品生产均保持同比增长。与1—2月份比,原煤、天然气生产有所放缓,[详细]
2023-04-18

研究:美国财富不平等越发极端 亿万富翁财富比疫情初期增加1/3|时讯

海外网4月18日电据美国道琼斯旗下新闻网站“市场观察”4月16日报道,美国乐施会近日发布的一份报告显示,美国的财富不平等情况越发极端和危险[详细]
2023-04-18

幽鬼丸的音乐_火影忍者中幽鬼丸草笛声 天天观焦点

今天小编肥嘟来为大家解答以上的问题。幽鬼丸的音乐,火影忍者中幽鬼丸草笛声相信很多小伙伴还不知道,现在让我们一起来看看吧!1、《红莲》。2[详细]
2023-04-18

为什么 Apple 从未添加收音机调谐器应用程序 环球热消息

移动应用程序使我们能够充分发挥智能手机硬件的潜力。听音乐是数百万用户的首选娱乐方式。流媒体服务非常受欢迎。许多人也喜欢在[详细]
2023-04-18
版权所有: 亚洲制冷网 All Rights Reserved
豫ICP备20022870号-9
联系邮箱:553 138 779@qq.com