Anthropic频繁改题防Claude作弊，招聘测评陷入AI对决

2026/01/22 (周四)•47 阅读•2分钟•应用

ClaudeAnthropicAI招聘技术面试AI作弊

Russell Brandom•2026/01/22 (周四)•47 阅读•2分钟•应用

Anthropic频繁改题防Claude作弊，招聘测评陷入AI对决

背景

自2024年起，Anthropic 为技术岗位设立了居家完成的编程测评，原本侧重硬件优化与系统设计，以检验候选人的底层能力。然而，随着Claude系列模型的快速迭代——从Claude Opus 4到Opus 4.5——这些模型在限定时间内已能完整解答原题，导致人类与AI的成绩难以区分。

挑战

AI作弊的隐蔽性：无需现场监考，求职者只需在本地运行Claude，即可获得精准答案。
评估失效：当AI的输出与顶尖候选人的水平持平或超越时，传统笔试失去筛选价值。
行业连锁反应：高校、企业等也在面临相同的AI辅助作业、考试作弊危机，招聘体系的公平性受到冲击。

解决方案

Anthropic的测试团队在技术负责人Tristan Hume的带领下，重新设计了测评内容：

降低硬件优化比重，转向更具创造性和开放式的问题，例如系统架构的权衡、异常案例的调试思路。
引入多阶段评估，包括代码实现、解释说明以及现场问答，增加AI难以一次性覆盖的环节。
动态题库，每批候选人获得的题目都有细微差别，防止模型通过训练数据提前学习答案。
公开原始题目，邀请社区尝试突破，以在公开竞争中验证题目的“AI抗性”。

前景展望

招聘流程的演进：AI的强大能力促使企业重新审视技术测评的形式，更多面向思维过程而非单纯答案。
行业标准化：或将出现针对AI作弊的行业指南，类似学术界的“反作弊协议”。
AI与招聘的共生：在防作弊的同时，企业也可能利用AI辅助评审，如自动化代码风格检查、性能基准报告等。

Anthropic的这场“人与机器的对决”不仅是一次内部的技术迭代，更为整个招聘生态敲响了警钟：在AI日益渗透的时代，评估真实能力的方式必须同步升级。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方，仅供参考使用。点击此处查看消息源。