DeepSeek-R1是一款强大的中文推理大模型,拥有出色的性能表现,参数量达到惊人的程度,该模型具有广泛的应用场景,包括自然语言处理、智能问答、文本生成等,值得一提的是,DeepSeek-R1还提供免费使用服务,为开发者提供了极大的便利,这款模型的出现将极大地推动中文自然语言处理技术的发展和应用。
千亿参数内最强推理大模型,刚刚易主了。
32B——DeepSeek-R1的1/20参数量;免费商用;全面开源——模型权重、训练数据集和完整训练代码,都开源了。
这就是刚刚亮相的Skywork-OR1 (Open Reasoner 1)系列模型——
通用32B尺寸(Skywork-OR1-32B)完全超越同规模阿里QwQ-32B;代码生成媲美DeepSeek-R1,但性价比更高。
△Skywork-OR1-32B-Preview
数学推理方面:7B、32B都达到同规模最优,数学专项模型(Skywork-OR1-Math-7B)表现更突出。
Skywork,天工是也,来自AIGC巨头玩家昆仑万维。
Skywork-OR1系列模型现已全面开源,模型权重、训练数据集和完整训练代码,所有资源均已上传至GitHub和Huggingface平台。配套的技术博客已发布于Notion平台,详细阐述了数据处理流程、训练方法和关键技术发现,为社区提供了完全可复现的实践参考。
Skywork-OR1系列开源地址:https://github.com/SkyworkAI/Skywork-OR1(包含模型,代码,数据)
昆仑万维天工团队更多开源项目:https://huggingface.co/Skywork
目前Skywork-OR1-7B和Skywork-OR1-32B的能力还在持续提升,在两周内会发布两个模型的正式版本,同时也会推出更为系统详尽的技术报告,分享推理模型训练中的经验与洞察。
3款模型全量开源
Skywork-OR1 (Open Reasoner 1) 系列开源共有3款模型:
Skywork-OR1-Math-7B:专注数学领域的专项模型,同时也具有较强的代码能力。
Skywork-OR1-7B-Preview:融合数学与代码能力,兼顾通用与专业性。
Skywork-OR1-32B-Preview:面向高复杂度任务、具备更强推理能力的旗舰版本。
团队对比了Skywork-OR1系列在AIME24、AIME25、LiveCodeBench上的表现。
AIME24/25是美国数学邀请赛基准测试,LiveCodeBench主要评估大语言模型代码生成和编程能力。
在评测方面,Skywork-OR1系列模型引入avg@k作为核心评估指标,用于衡量模型在进行k次尝试时成功解决问题的平均表现。
传统的pass@k指标仅关注“至少一次成功”,相对而言avg@k更关注模型的稳定性和整体推理能力,为模型实际落地提供更全面真实的参考。
在数学方面,通用模型Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview在AIME24与AIME25数据集上均实现了同参数规模下最优表现,32B整体表现基本与DeepSeek-R1齐平。
编程方面,通用模型Skywork-OR1-7B-Preview与Skywork-OR1-32B-Preview在LiveCodeBench上均取得了同等参数规模下的最优性能。
整体而言,Skywork-OR1-32B-Preview甚至与DeepSeek-R1的差距非常微小。要知道后者的参数规模是前者的20倍,这意味着Skywork-OR1能带来更具性价比的性能表现。
由此综合来看,Skywork-OR1-32B-Preview成为当前同规模最强中文推理模型,也是现役支持免费商用的模型中最强且最具性价比的成员之一。
此外,数学专项模型Skywork-OR1-Math-7B在AIME24/25的表现远超当前主流7B级模型,甚至接近蒸馏版Deepseek-32B模型同等水平(DeepSeek-R1-Distill-Qwen-32B)。
如下为该模型在AIME24上的训练准确率曲线。
最终模型在AIME24和AIME25上分别达到69.8%和52.3%,超越了OpenAI-o3-mini (low),达到了当前尺寸SOTA性能。与此同时,该专项模型在代码领域也表现出了较好的泛化性(训练后,Livecodebench从37.6%提升到43.6%)。
△OpenAI-o3-mini(low)的AIME24分数来自官网,AIME25分数来自评测网站https://matharena.ai/
去年11月,昆仑万维发布国内首款中文复杂推理模型Skywork-o1,Skywork-OR1系列模型正是在此基础上迭代而来。
不同于简单复刻OpenAI o1模型,Skywork-o1内生出了思考、计划、反思等能力。它共包括三款模型Skywork-o1-Open、SI’m kywork-o1-Lite和Skywork-o1-Preview,分别适用于不同的应用场景,可以满足开源到高性能推理的多样化需求。
Skywork-OR1系列站在Skywork-o1的肩膀上有了更强基座,但想要如此强大,也离不开一系列先进技术加持。
背后秘诀:AGI技术洞藏,训练效率提升50%
Skywork-OR1在数据处理、训练策略等方面都做了进一步创新。
首先在数据方面。
为提升模型在数学和代码方面能力,Skywork-OR1构建了一个高质量数学和代码数据集。
团队设计了三个标准进行数据筛选:可验证性(Verifiable)、正确性(Correct)与挑战性(Challenging),剔除无法自动验证的证明类题目、有误题目、和缺少unit test的代码问题。
数学领域共计收集11万道题目,主要依赖NuminaMath-1.5(含约89.6万题),选用如AIME和Olympiads等较难子集,并补充了如DeepScaleR、Omni-MATH、AIME 1983-2023难题来源。
代码领域收集了13.7k条高质量代码问题,主要以LeetCode和TACO数据为主,保留了单元测试完整、验证通过的问题,并进行向量级语义去重。
在数据过滤部分,团队对每道题进行了多轮采样并验证答案,以避免“全对”或“全错”现象对策略学习无效——模型生成全部错误,无法提供有效的学习信号;“全对”意味着模型已完全掌握,继续学习会浪费计算资源。
并通过人类审核结合LLM自动判题机制,对语义不清、信息不全、格式错误或含有无关内容的项目进行清理。使用LLM-as-a-Judge剔除掉约1-2K道质量不达标的数学题。
其次在强化学习部分,Skywork-OR1使用GRPO(Group Relative Policy Optimization)进行训练,并引入一系列优化策略。
在训练时数据优化上,一方面采用双重过滤策略:
离线过滤:训练前使用待训练模型评估数据,剔除正确率为0或1的样本;在线过滤:每个epoch动态移除上一轮已完全掌握的数据,确保模型持续面对有挑战性的内容。
另一方面使用拒绝采样(Rejection Sampling)进行更精细的实时筛选,在每个训练步骤中动态剔除当前训练步中采样正确率为0或1的样本。这样可以维持policy loss、entropy loss和KL loss的合理比例,防止非policy loss比重异常增加导致的训练不稳定。
在训练Pipeline优化上主要做了两方面的探索。
(1)多阶段训练(Multi Stage Training):
从小窗口开始,逐步增加上下文长度(seq_len),可以促使模型在有限token内高效完成任务;随后逐步扩展窗口大小,迭代增加生成长度,使模型逐渐掌握更复杂的长链思维能力。实验证明,多阶段训练能显著缩短训练时间,同时完全保持模型的长度扩展能力。
(2)截断优势掩码(Truncated Advantage Mask):
在多阶段训练初期,由于上下文窗口限制,复杂问题的回答可能被截断。因此团队研究了两种处理窗口限制下截断样本的策略Adv-Mask Before(计算优势前排除截断样本)和Adv-Mask After(计算后将截断样本优势置零)。证明即使不屏蔽截断样本,模型也能有效适应并迅速提升性能,也证明多阶段训练框架的鲁棒性。
此外,在强化学习训练中还要保障模型的探索能力。
团队进行了三方面探索。
第一,高温度采样。采用τ=1.0(高于常见的0.6)维持更高群组内多样性,既保证足够正确样本提供学习信号,又允许模型探索更广泛解决路径。
第二,提升内在训练多样性。通过精细数据过滤、增加批量大小和减少数据重复使用,可以从源头上防止模型过早优化到单一输出方向,同时也保持较高熵值,避免局部最优。
第三,自适应熵控制。只有在熵值低于阈值时才提供熵增加鼓励,设定目标熵值并动态调整损失系数,同时最小化对正常训练轨迹的干扰。
最后在保障强化学习训练的稳定性,团队对损失函数进行优化。
第一,移除KL损失。研究中发现即使基于高质量SFT模型训练,KL损失仍限制性能提升。因此,除特定阶段外,团队在所有公开发布的Skywork-OR1系列模型中均未使用KL损失项,这使模型能够更充分地探索和优化推理能力。
第二,token级策略损失。移除了策略损失中的长度归一化项,并将损失在训练批次内的所有token上进行平均,以提升优化过程的一致性与稳定性。
(更多技术细节和实验对比可以参照技术博客https://capricious-hydrogen-41c.notion.site/Skywork-Open-Reaonser-Series-1d0bc9ae823a80459b46c149e4f51680,或继续关注后续发布的技术报告。)
在此训练策略下,Skywork-OR1-7B和Skywork-OR1-32B-Preview通用推理模型仍处于持续提升状态,本次开源是当前训练过程中性能最佳的checkpoint。
预计两周后,具备更全面能力提升及更强大推理能力的Skywork-OR1正式版本将与大家见面,同样全面开源。
Hugging Face单月下载量超7万
自2023年以来,在全面拥抱AIGC后,昆仑万维一直坚持开源,推动技术平权。代表性动作包括:
2023年:开源百亿级大语言模型Skywork-13B系列及600GB高质量数据集。2024年:陆续开源数字智能体研发工具包AgentStudio、4000亿参数MoE超级模型、Skywork-MoE、 Skywork-RM/PRM,Skywork-o1。
今年以来,开源的频率变得更高。第一季度开源动作包括:
面向AI短剧生成的视频生成模型SkyReels-V1:下载量周榜前十R1V视觉思维链推理模型:单月下载8.75kSkywork-OR1新系列:长思维链推理模型。
不难发现,昆仑万维开源全面且彻底,同时兼顾产业需求。
一方面,它的基础模型布局非常全面,覆盖AIGC全领域,文生文、文生视频、文生音乐等。
另一方面,这些模型从底层设计上即考虑了实际落地的需求。提供更高性价比、更节省算力,如SkyReels-V1则是看到了垂直领域的落地前景,模型下载量迅速增长也验证了这一市场需求。
最关键的是,这些模型的开源程度也相当彻底,十分利于开发者使用。
在Hugging Face上,昆仑万维开源模型的下载量相当可观,累计上月下载量超过7万。
△部分展示
如今,底层模型竞争日趋白热化,全球AI领域正以惊人的速度迭代演进,几乎每个月都有值得关注的模型发布,这种创新密度前所未有。
作为国内最早All in AIGC赛道的先行者之一,昆仑万维自2023年起便构建了全方位的前沿布局:从基础大模型到垂直应用,从技术研发到生态建设。尤其值得注意的是,昆仑万维持续为开发者社区提供高质量的模型和工具链,这种坚持普惠的技术理念也为其提供了独特竞争力。
当前,开源生态正展现出前所未有的活力。
这些开源创新正快速渗透到互联网、制造业、医疗、教育等领域,推动着AI技术真正实现规模化落地。在这一进程中,以昆仑万维为代表的开源践行者的每一步探索,都将深刻影响AI产业的发展轨迹。
据说Skywork-OR1正式版,也已经快马加鞭,即将对外发布。
Skywork开源系列(2025)传送门:
1、中文推理模型Skywork-OR1:
https://github.com/SkyworkAI/Skywork-o1
2、视觉思维链推理模型Skywork-R1V:
https://github.com/SkyworkAI/Skywork-R1V
3、AI短剧生成模型SkyReels-V1:
https://github.com/SkyworkAI/SkyReels-V1