
开云体育包括住宅、办公室、本质室等多样环境-开云(中国)kaiyun网页版登录入口
新闻动态
李飞飞谢赛宁再发新搁置: 径直把 o1 式想考拉至下一个 level ——多模态大言语模子的空间想维! 这项经营系统评估了多模态大模子的视觉空间智能,搁置发现: 现时,即使是起初进的多模态大模子,在空间表示方面与东谈主类比较仍有权贵差距,测试中约71% 的乖张皆源于空间推理方面的劣势,即空间推理才调是现时主要瓶颈。 更为好奇好奇的是,在这种情况下,想维链、想维树等常用的言语指示技能径直失灵了—— 不仅莫得普及模子在空间任务上的发达,反而会使性能下落。 而在问答流程中明确生成表示舆图则会增强多模
详情

李飞飞谢赛宁再发新搁置:
径直把 o1 式想考拉至下一个 level ——多模态大言语模子的空间想维!

这项经营系统评估了多模态大模子的视觉空间智能,搁置发现:
现时,即使是起初进的多模态大模子,在空间表示方面与东谈主类比较仍有权贵差距,测试中约71% 的乖张皆源于空间推理方面的劣势,即空间推理才调是现时主要瓶颈。

更为好奇好奇的是,在这种情况下,想维链、想维树等常用的言语指示技能径直失灵了——
不仅莫得普及模子在空间任务上的发达,反而会使性能下落。
而在问答流程中明确生成表示舆图则会增强多模态大模子的空间距离才调。

这项责任声威止境豪华,合文章者中不仅有李飞飞,还有纽约大学诡计机科学助理阐扬注解、CV 大牛谢赛宁。
而剩下的四位作家,沿途共团结作。

这项经营眩惑了不少网友的关心,大伙儿一边看论文,一边已迫不足待搓搓手期待 2025 年的新进展。

多模态大模子的空间想维
诚然现时多模态大言语模子在言语通晓和一般视觉任务上取得了权贵进展,但在空间表示和通晓方面的才调仍未得到充分经营。
反不雅东谈主类,濒临情绪旋转测试、挑选居品这些任务时,会同期依赖于空间和视觉想考。

多模态大言语模子能否"进行空间想考"?能否构建一个准确的、隐式的"表示舆图"来匡助它们复兴联系空间的问题?使用多模态大言语模子来增强空间智能的上风和局限性是什么?
为了探索这些问题,团队经营了视觉空间智能。
作家解释,之是以在"空间智能"前加上"视觉"一词,是因为空间智能不受感官方式达成,比如盲东谈主也可以通过别的感官感知空间,而该经营专注于视频输入,是以议论视觉空间智能。

VSI-Bench 视觉空间智能基准测试集
开始团队提议了一个名为VSI-Bench的基准测试集。
基于之前的诡计机视觉责任,团队再行期骗现存的空间扫描视频(当先用于 3D 重建)过火真确标注来自动生成视觉问答(VQA)问题。
具体来说,这个测试集基于 ScanNet、ScanNet++ 和 ARKitScenes 等数据集中的 288 个真确室内场景视频,包括住宅、办公室、本质室等多样环境。
团队想象了超5000 个问答对,将评测任务分为三大类:
成就型任务:物体计数、相对距离、相对见解、路子盘算
测量忖度:物体尺寸、房间大小、统统距离
时空任务:物体出现律例等
并遴选东谈主工审核确保数据质料,吊销歧义和乖张标注。

随后,他们全面评估了15 种撑捏视频的多模态大言语模子,开源、闭源的皆有。

搁置,东谈主类在 VSI-Bench 上的平均准确率达到 79%,在成就型和时空任务上准确率更高,处于 94%-100% 之间。
比较之下,发达最佳的闭源模子是Gemini-1.5 Pro,平均准确率为 48.8%,开源模子 LLaVA-NeXT-Video-72B 和 LLaVA-OneVision-72B 与之附进。
在需要精准忖度统统距离 / 大小的三个测量任务上,大模子和东谈主类发达差距相对较小。
团队还进一步证明了视频输入对模子性能的雄壮性,盲测本质中,在统统距离忖度等特定任务上,即使是起初进的模子也难以超过立时基线的发达。
言语视觉两个层面分析模子想维流程
为了深远通晓模子的表示机制,团队又从言语和视觉两个层面分析了模子的想维流程。


在言语层面,通过让模子进行自我解释,发现它们确乎具备可以的视频通晓和言语推理才调。
但详备的乖张分析炫夸,超 70% 的乖张源于其空间推理才调的不足。


接着,团队用常用的言语指示技能矫正,包括想维链、想维树、自洽性。
搁置不仅莫得普及模子在空间任务上的发达,反而导致了性能下落,也即是说隧谈的言语推理技能难以处治空间表示问题。
在视觉层面,他们又使用表示舆图来分析模子的空间追想才调。
搁置炫夸,模子在通晓局部空间关系时发达较好,相邻物体位置关系的准确率达到 64%。但跟着物体之间距离的加多,模子的空间关系通晓才调权贵下落。
这阐扬模子倾向于设立局部空间模子,而不是变成完满的全局空间通晓。


不外,他们经营了一种新想路:
使用表示舆图提拔空间推理。

加入这种机制,模子在相对距离任务上的准确率普及了 10 个百分点,这为普及模子空间智能提供了一个潜在的处治见解。
李飞飞谢赛宁领衔,四位共团结作
论文也曾公布,几位作家就姿色当起了自个儿的首批自来水(doge)。
谢赛宁暗示:
视频通晓是下一个前沿限度,但并非所有视频皆是一样的。
这项经营探索了多模态大言语模子怎样不雅察、追想和回忆空间。

" AI 教母"李飞飞也转发开麦:
这是东谈主类智能中极为雄壮的一个方面,2025 年还有更多值得期待,鼓舞空间智能的界限!

这项经营共团结作有四位,正如李飞飞阐扬注解披露,多位皆是谢赛宁的学生。
Jihan Yang

Jihan Yang 是纽约大学 Courant 经营所博士后经营员,导师是谢赛宁。在此之前,Jihan Yang 于香港大学得到了博士学位,中山大学得到了学士学位。
他的经营好奇集中在机器学习和诡计机视觉限度,止境关心多模态和具身智能。
Shusheng Yang

Shusheng Yang 当今是纽约大学博士生。
领英炫夸,他是华中科技大学学友,也曾在阿里和腾讯有过责任资格。

Anjali Gupta

Anjali Gupta 是纽约大学 Courant 经营所博士生,导师是谢赛宁阐扬注解。
她的经营限度是机器学习和诡计机视觉,止境是以视觉为中心的多模态大言语模子。
Rilyn Han

Rilyn Han 来自耶鲁大学,主修诡计机科学和经济学,经营主要关心探索多模态大言语模子的才调。
论文聚合:https://arxiv.org/pdf/2412.14171
技俩主页:https://vision-x-nyu.github.io/thinking-in-space.github.io/
参考聚合:
[ 1 ] https://x.com/sainingxie/status/1870877202595958791
[ 2 ] https://x.com/drfeifei/status/1870881981703291097
[ 3 ] https://vision-x-nyu.github.io/thinking-in-space.github.io/
— 完 —
点这里� � 关心我,铭记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日相遇 ~
