字节跳动推出MOLE‑SYN 以分子键结构提升长链思考与强化学习稳定性
•22 阅读•3分钟•前沿
强化学习字节跳动MOLE‑SYN长链思考
•22 阅读•3分钟•前沿

背景
ByteDance Seed 近期在 arXiv(2601.06002)上发布论文,聚焦大语言模型在长链思考(Long Chain‑of‑Thought, Long CoT)与强化学习训练中的不稳定问题。过去的研究多依赖关键词模仿或单一教师蒸馏,导致模型在多步骤推理时易出现逻辑断裂。
关键发现
研究团队将推理过程比作分子结构,提出三类“化学键”:
- 深度推理键(共价键):构成思考骨架,确保一步必须为下一步提供逻辑依据,骨折会导致整体答案崩塌。
- 自我反思键(氢键):在后期步骤对前序进行修正或强化,类似蛋白质折叠提升整体稳定性。实验显示,81.72% 的反思步骤成功重新连入已有簇。
- 自我探索键(范德华力):在远距离逻辑簇之间搭建弱桥梁,允许模型探索新假设再转化为强键。
此外,团队发现“语义异构体”(Semantic Isomers)——结构相同但键分布不同的推理链,会导致跨模型混合训练出现结构冲突,性能显著下降。
MOLE‑SYN 方法
为解决上述问题,论文提出 MOLE‑SYN(Molecular Synthesis)框架:
- 从强教师模型中估计行为转移图(behavior transition graph)。
- 将图谱中的键结构映射到学生模型,而非直接复制文本。
- 学生模型在更廉价的指令 LLM 上自行合成符合分子结构的长链思考。
该方法在 GSM8K、MATH‑500、OlympBench 等六大基准上均实现稳定提升,且在强化学习阶段表现出更低的波动性。
安全防护视角
研究还指出,完整的推理轨迹泄露会让竞争方复制内部“思考分子”。通过摘要压缩或 token 数量削减(平均降低 45% 以上),可以破坏键分布,从而提升模型的防克隆能力。
业界影响
MOLE‑SYN 为长链思考提供了结构化的建模思路,为后续的多模态推理、复杂任务规划以及 RL 训练奠定了理论基础。尤其在中文大模型竞争加剧的背景下,字节跳动的此项工作可能成为提升模型稳健性的关键技术。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。