3月18日,昆仑万维正式开源首款工业界多模态思维链推理模型Skywork R1V,即日起开源模型权重和技术报告。

模型权重下载
Hugging Face:
https://huggingface.co/Skywork/Skywork-R1V-38B
GitHub:
https://github.com/SkyworkAI/Skywork-R1V
详细技术报告
https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf
开启多模态思考新时代
继OpenAI o1和DeepSeek-R1在全球掀起长思考模型热潮后,大模型进入新技术范式。昆仑万维秉持实现 AGI 的初心,积极贡献开源社区,正式开源Skywork R1V多模态视觉推理模型,成为中国第一个开源「多模态推理模型」的企业。
什么是视觉推理模型?
视觉推理模型是一类能够解决需要思维链(Chain-of-Thought)的视觉任务的模型,通过对视觉信息进行多步逻辑推理与分析,逐步推导出最终结果。这种模型不仅关注图像内容的识别与理解,更强调通过层层递进的推理路径,实现复杂视觉问题的精准求解,例如视觉逻辑推理、视觉数学问题、图像中的科学现象分析、医学影像的诊断推理等,从而有效拓展了视觉大模型的应用边界。
无论是日常繁琐的工作任务、复杂的数据分析、难以解答的学术问题,还是前所未见的陌生场景,都可以交给Skywork R1V进行高效处理。
快速体验下来,R1V的视觉理解和推理能力双双在线。这样的模型能力是如何炼成的呢?
强大推理能力,刷新跨模态任务新高度
在Reasoning推理能力方面,Skywork R1V实现了模型的顶尖逻辑推理与数学分析能力。在权威的MATH500和AIME基准测试中,Skywork R1V分别取得了94.0和72.0的高分,明显领先于行业内众多主流模型。Skywork R1V在纯文本复杂推理任务中展现出卓越性能,使其在逻辑推理和数学问题求解领域展现出人类专家级别的水准。
在Vision视觉理解能力方面,Skywork R1V成功地将其强大的文本推理与思维链推导能力高效迁移到视觉任务中。凭借创新的跨模态迁移技术与推理优化框架,Skywork R1V能够高效解决需要多步视觉推理的问题,在MMMU与MathVista等视觉推理基准中分别取得了69和67.5的优异成绩。这些结果不仅明显超越了多个近似大小的开源竞争模型,更达到与规模更大的闭源模型媲美的水准,充分证实了Skywork R1V在需要视觉思维链推理的跨模态任务中的领先优势。
Skywork R1V通过视觉与文本能力的深度融合和视觉思维链推理能力的突破,推动了多模态推理模型的进一步发展,标志着人工智能领域的又一重大进步。
目前,Skywork R1V已全面开源,期望助力全球范围内更多视觉推理任务的学术研究与产业应用探索。
和开源同规模或更大规模模型的对比,Skywork R1V 38B体现出行业显著优异的推理能力,以及领先的多模态视觉理解能力。如下图,与开源同规模或更大规模模型的对比:

与闭源头部模型性能对比,R1V 38B模型性能媲美甚至超越更大开源模型以及主流闭源模型。如下图,与开源大尺寸模型与闭源专有模型的对比:

三大核心技术创新,引领视觉推理新突破
Skywork R1V能够达到当前的性能高度,依赖于以下三项关键技术创新:
1、文本推理能力的多模态高效迁移
昆仑万维团队首次提出利用Skywork-VL的视觉投影器,无需重新训练语言模型和视觉编码器,即可实现文本推理能力的高效迁移到视觉任务,同时保留了优秀的原本推理文本能力(AIME 72.0,MATH500 94.0)。
2、多模态混合式训练(Iterative SFT+GRPO)
通过结合迭代监督微调(Iterative SFT)和GRPO强化学习,分阶段对齐视觉-文本表征,实现跨模态任务的高效融合,极大提升跨模态任务的表现。推动模型在MMMU基准达到69分的能力,同时在MathVista达到67.5分,与更大规模的闭源模型基本持平。通过反复迭代地利用高质量数据与高难度数据的组合,实现模型持续的知识巩固与错误纠正,显著提升了多模态推理的精度与泛化性能。

图丨多模态混合式训练(来源:Skywork R1V技术报告)
3、自适应长度思维链蒸馏
团队提出了一种基于视觉-文本复杂度的自适应推理链长度控制机制,动态优化模型推理过程,避免模型“过度思考”,提升推理效率。结合多阶段自蒸馏策略,进一步提升了数据生成与推理过程的质量,促进了模型在复杂多模态任务中的表现。

图丨自适应长度思维链蒸馏(来源:Skywork R1V技术报告)
Skywork R1V在训练过程中创新性地采用了三阶段方法,使得文本端强大的推理能力得以高效迁移至视觉任务上,具体训练流程如下:
1、STEP1 视觉语言表征的初始对齐
训练时首先使用轻量级的视觉适配器(MLP)连接视觉编码器(ViT)与语言模型,在已有的200万条常规多模态数据上进行训练,使得MLP初步学习如何将图像特征映射至语言空间。这一阶段仅训练MLP适配器,视觉编码器和语言模型参数保持冻结不变,快速、高效地实现视觉与语言表征的初步对齐。
2、STEP2 推理能力迁移
利用第一阶段训练好的MLP适配器,直接将视觉编码器与原始的强推理语言模型(R1-distilled-Qwen-32B)连接,形成Skywork-R1V视觉推理模型。虽然此时语言模型的参数发生了改变,但得益于语言模型架构的高度相似性和MLP的泛化能力,重新组装后的模型已能表现出一定的视觉推理能力,初始性能即达到业内同等规模的先进水平。
3、STEP3 视觉与文本模态精准对齐
最后,采用创新的“混合优化框架”,进一步精准对齐视觉和语言模态的表征。这一阶段分为两大步骤:迭代监督微调(Iterative SFT)和群组相对策略优化(GRPO)强化学习。在整个训练过程中,Skywork-R1V还创新性地引入了“自适应长度思维链蒸馏技术”,动态优化推理链长度,防止模型过度思考,从而提升了推理效率和质量。
通过以上的训练策略,Skywork R1V在视觉推理任务上取得突破性进展,并在多个公开评测基准中达到或超过了现有领先模型的性能。
此外,Skywork团队多模态理解模型也在进行"全面贯通"的进化,将视觉多模态扩展为全模态模型,引入语音理解能力。当前,全模态模型往往受限于特定领域不仅需要独立训练多个专业模型,更面临跨模态协同的算力挑战。
基于R1V模型,Skywork团队设计了一种灵活在R1V中扩展语音理解模态的方式,从而实现一个全模态思考大模型,该在单个模型中同时实现图像、视频、语音的全模态理解能力,并在语音和视觉理解评测中斩获多项SOTA成绩。我们将陆续公布测评成绩、开源全模态思考大模型。
持续开源回馈社区,坚定迈向AGI
2023年10月以来,昆仑万维陆续开源了百亿级大语言模型「天工」Skywork-13B系列、数字智能体全流程研发工具包AgentStudio、4000亿参数MoE超级模型、2千亿稀疏大模型Skywork-MoE、推理模型Skywork-o1-Open等。2025年2月18日,昆仑万维同时将SOTA级别的SkyReels-V1和SkyReels-A1进行开源。
在语言生成模型、AI Agent、推理模型、视频生成模型等相继开源、多点开花之后,我们正式开源Skywork R1V多模态推理模型,在文本-视觉多模态推理方向再下一城,成为中国第一家开源多模态思考模型的企业。
中国企业过去一年在AI领域的开源贡献,让全世界AI从业者和开发者享受到了技术共享带来的普惠发展。DeepSeek的开源为AI行业提供了新的发展范本,多项开源成果显著降低了AI技术的应用门槛、促进全球AI技术的民主化。昆仑万维作为中国AI领军企业,我们将持续开源优秀的模型、数据集等,共建开发者生态、加速技术创新、降低应用门槛、推动技术平权和AI行业发展。
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
 三大航货运业务逆势增长,燃油附加费翻番 三大航去年亏损仍在加剧,航空业出路何在。3月30日晚间,国内三大航司相继发布2021年年报,三大航营收均录得增...
 三大航货运业务逆势增长,燃油附加费翻番 三大航去年亏损仍在加剧,航空业出路何在。3月30日晚间,国内三大航司相继发布2021年年报,三大航营收均录得增...  3999元起,小米11Ultra手机限时特惠150 日前,小米春季发布会上正式推出了小米11Ultra,该机拥有黑白两色,精密陶瓷工艺机身,黑色沉稳大气,白色优雅...
 3999元起,小米11Ultra手机限时特惠150 日前,小米春季发布会上正式推出了小米11Ultra,该机拥有黑白两色,精密陶瓷工艺机身,黑色沉稳大气,白色优雅...  新北洋:累计回购605万股占比0.9088% 每经AI快讯,新北洋3月31日晚间发布公告称,截至2022年3月31日,公司累计通过回购专用证券账户以集中竞价...
 新北洋:累计回购605万股占比0.9088% 每经AI快讯,新北洋3月31日晚间发布公告称,截至2022年3月31日,公司累计通过回购专用证券账户以集中竞价...  中青旅:2021年营收同比增长两成持续布局“旅游+ 中青旅3月31日披露2021年报,公司全年实现营业收入86.35亿元,较上年增加20.76%,实现归属于上市公...
 中青旅:2021年营收同比增长两成持续布局“旅游+ 中青旅3月31日披露2021年报,公司全年实现营业收入86.35亿元,较上年增加20.76%,实现归属于上市公...  高值设计·重构未来——SK瓷砖x金堂奖战略合作云发 SKCERAMICS2022随着消费新升级,新生代消费群体对居住空间的诉求,越来越艺术化、多元化、个性化。SK...
 高值设计·重构未来——SK瓷砖x金堂奖战略合作云发 SKCERAMICS2022随着消费新升级,新生代消费群体对居住空间的诉求,越来越艺术化、多元化、个性化。SK...  605389长龄液压3月24日收盘小幅上涨0.57 2022年3月24日长龄液压(605389)收盘点评:长龄液压今日小幅上涨.57%,早盘低开-0.50%,报4...
 605389长龄液压3月24日收盘小幅上涨0.57 2022年3月24日长龄液压(605389)收盘点评:长龄液压今日小幅上涨.57%,早盘低开-0.50%,报4...  600358国旅联合3月24日全天上涨2.48%, 2022年3月24日国旅联合(600358)收盘点评:国旅联合今日上涨2.48%,早盘低开-0.41%,报7....
 600358国旅联合3月24日全天上涨2.48%, 2022年3月24日国旅联合(600358)收盘点评:国旅联合今日上涨2.48%,早盘低开-0.41%,报7....  600386北巴传媒3月24日收盘数据:较昨日下跌 2022年3月24日北巴传媒(600386)收盘点评:北巴传媒今日微跌-.25%,早盘高开0.25%,报4.0...
 600386北巴传媒3月24日收盘数据:较昨日下跌 2022年3月24日北巴传媒(600386)收盘点评:北巴传媒今日微跌-.25%,早盘高开0.25%,报4.0...  601598中国外运3月24日股价收盘3.88元与 2022年3月24日中国外运(601598)收盘点评:中国外运今日股价与昨日持平早盘高开0.77%,报3.91...
 601598中国外运3月24日股价收盘3.88元与 2022年3月24日中国外运(601598)收盘点评:中国外运今日股价与昨日持平早盘高开0.77%,报3.91...  601138工业富联3月24日收盘报10.39元, 2022年3月24日工业富联(601138)收盘点评:工业富联今日上涨1.96%,早盘高开2.55%,报10....
 601138工业富联3月24日收盘报10.39元, 2022年3月24日工业富联(601138)收盘点评:工业富联今日上涨1.96%,早盘高开2.55%,报10.... 
 陈小春开启京东汽车超级直播夜 11月9日晚18点,京东汽车11.11超...
 陈小春开启京东汽车超级直播夜 11月9日晚18点,京东汽车11.11超...  挑战善行者丨2021速8酒店 热爱不止,善行不息善行者是一种勇气善行者...
 挑战善行者丨2021速8酒店 热爱不止,善行不息善行者是一种勇气善行者...  布局宠物蓝海市场安心养宠物计 京东健康宠物医院作为安心养宠物最重要的升...
 布局宠物蓝海市场安心养宠物计 京东健康宠物医院作为安心养宠物最重要的升...  体育赛事招商的三大注意事项 今年4月姚明和篮协对CBA商务开发权的争...
 体育赛事招商的三大注意事项 今年4月姚明和篮协对CBA商务开发权的争...  
 
 苏炳添用9秒83的佳绩带领亚 每0.01秒的提升都是汗水与泪水...
 苏炳添用9秒83的佳绩带领亚 每0.01秒的提升都是汗水与泪水...  4×100米接力决赛 中国男 4×100米接力·决赛中国女队4...
 4×100米接力决赛 中国男 4×100米接力·决赛中国女队4...  JBL/UA PROJECT 在这七月热汗运动季,由高保真至潮...
 JBL/UA PROJECT 在这七月热汗运动季,由高保真至潮...  中国队“00后”纷纷登上东京 杨倩、管晨辰、李雯雯、全红婵……...
 中国队“00后”纷纷登上东京 杨倩、管晨辰、李雯雯、全红婵……...  传统体育文化的两大现代价值 中国传统体育文化丰富多彩,内容博大精深,...
 传统体育文化的两大现代价值 中国传统体育文化丰富多彩,内容博大精深,...  当今世界体育对人的价值体现在 不知你想过没有,在当今这个高度互联网化、...
 当今世界体育对人的价值体现在 不知你想过没有,在当今这个高度互联网化、...  体育分析中机器学习的标准:预 运动分析有相当一部分属于机器学习,即从数...
 体育分析中机器学习的标准:预 运动分析有相当一部分属于机器学习,即从数...  进行冬奥会体育营销的五个关键 明年冬奥会将在北京和张家口举行,关于奥运...
 进行冬奥会体育营销的五个关键 明年冬奥会将在北京和张家口举行,关于奥运...  父母如何从家庭教育当中反思自 某天晚上睡不着,忽然想到能够写这么一个角...
 父母如何从家庭教育当中反思自 某天晚上睡不着,忽然想到能够写这么一个角...  思维教育对幼儿的四大好处 思想教育对幼儿的益处,幼儿思想处于直观行...
 思维教育对幼儿的四大好处 思想教育对幼儿的益处,幼儿思想处于直观行...  父母教育孩子前必须要知道的前 网上的很多文章提到过,一些懵懂型鸡娃的家...
 父母教育孩子前必须要知道的前 网上的很多文章提到过,一些懵懂型鸡娃的家...  华为是第一大客户EDA第一股 在半导体芯片设计领域,EDA软件也是卡脖...
 华为是第一大客户EDA第一股 在半导体芯片设计领域,EDA软件也是卡脖...  新的设计和技术风向奥迪gra 2021年9月3日消息,奥迪将在2021...
 新的设计和技术风向奥迪gra 2021年9月3日消息,奥迪将在2021...  台积电三星等芯片代工厂涨价O 据媒体报道,韩国晶圆代工厂商KeyFou...
 台积电三星等芯片代工厂涨价O 据媒体报道,韩国晶圆代工厂商KeyFou...