Anthropic频繁改题防Claude作弊,招聘测评陷入AI对决
•47 阅读•2分钟•应用
ClaudeAnthropicAI招聘技术面试AI作弊
Russell Brandom••47 阅读•2分钟•应用

背景
自2024年起,Anthropic 为技术岗位设立了居家完成的编程测评,原本侧重硬件优化与系统设计,以检验候选人的底层能力。然而,随着Claude系列模型的快速迭代——从Claude Opus 4到Opus 4.5——这些模型在限定时间内已能完整解答原题,导致人类与AI的成绩难以区分。
挑战
- AI作弊的隐蔽性:无需现场监考,求职者只需在本地运行Claude,即可获得精准答案。
- 评估失效:当AI的输出与顶尖候选人的水平持平或超越时,传统笔试失去筛选价值。
- 行业连锁反应:高校、企业等也在面临相同的AI辅助作业、考试作弊危机,招聘体系的公平性受到冲击。
解决方案
Anthropic的测试团队在技术负责人Tristan Hume的带领下,重新设计了测评内容:
- 降低硬件优化比重,转向更具创造性和开放式的问题,例如系统架构的权衡、异常案例的调试思路。
- 引入多阶段评估,包括代码实现、解释说明以及现场问答,增加AI难以一次性覆盖的环节。
- 动态题库,每批候选人获得的题目都有细微差别,防止模型通过训练数据提前学习答案。
- 公开原始题目,邀请社区尝试突破,以在公开竞争中验证题目的“AI抗性”。
前景展望
- 招聘流程的演进:AI的强大能力促使企业重新审视技术测评的形式,更多面向思维过程而非单纯答案。
- 行业标准化:或将出现针对AI作弊的行业指南,类似学术界的“反作弊协议”。
- AI与招聘的共生:在防作弊的同时,企业也可能利用AI辅助评审,如自动化代码风格检查、性能基准报告等。
Anthropic的这场“人与机器的对决”不仅是一次内部的技术迭代,更为整个招聘生态敲响了警钟:在AI日益渗透的时代,评估真实能力的方式必须同步升级。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。