字节跳动推出MOLE‑SYN 以分子键结构提升长链思考与强化学习稳定性

2026/02/23 (周一)•22 阅读•3分钟•前沿

强化学习字节跳动MOLE‑SYN长链思考

2026/02/23 (周一)•22 阅读•3分钟•前沿

字节跳动推出MOLE‑SYN 以分子键结构提升长链思考与强化学习稳定性

背景

ByteDance Seed 近期在 arXiv（2601.06002）上发布论文，聚焦大语言模型在长链思考（Long Chain‑of‑Thought, Long CoT）与强化学习训练中的不稳定问题。过去的研究多依赖关键词模仿或单一教师蒸馏，导致模型在多步骤推理时易出现逻辑断裂。

关键发现

研究团队将推理过程比作分子结构，提出三类“化学键”：

深度推理键（共价键）：构成思考骨架，确保一步必须为下一步提供逻辑依据，骨折会导致整体答案崩塌。
自我反思键（氢键）：在后期步骤对前序进行修正或强化，类似蛋白质折叠提升整体稳定性。实验显示，81.72% 的反思步骤成功重新连入已有簇。
自我探索键（范德华力）：在远距离逻辑簇之间搭建弱桥梁，允许模型探索新假设再转化为强键。

此外，团队发现“语义异构体”（Semantic Isomers）——结构相同但键分布不同的推理链，会导致跨模型混合训练出现结构冲突，性能显著下降。

MOLE‑SYN 方法

为解决上述问题，论文提出 MOLE‑SYN（Molecular Synthesis）框架：

从强教师模型中估计行为转移图（behavior transition graph）。
将图谱中的键结构映射到学生模型，而非直接复制文本。
学生模型在更廉价的指令 LLM 上自行合成符合分子结构的长链思考。

该方法在 GSM8K、MATH‑500、OlympBench 等六大基准上均实现稳定提升，且在强化学习阶段表现出更低的波动性。

安全防护视角

研究还指出，完整的推理轨迹泄露会让竞争方复制内部“思考分子”。通过摘要压缩或 token 数量削减（平均降低 45% 以上），可以破坏键分布，从而提升模型的防克隆能力。

业界影响

MOLE‑SYN 为长链思考提供了结构化的建模思路，为后续的多模态推理、复杂任务规划以及 RL 训练奠定了理论基础。尤其在中文大模型竞争加剧的背景下，字节跳动的此项工作可能成为提升模型稳健性的关键技术。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方，仅供参考使用。点击此处查看消息源。