Anthropic频繁改题防Claude作弊,招聘测评陷入AI对决

47 阅读2分钟应用
Anthropic频繁改题防Claude作弊,招聘测评陷入AI对决

背景

自2024年起,Anthropic 为技术岗位设立了居家完成的编程测评,原本侧重硬件优化与系统设计,以检验候选人的底层能力。然而,随着Claude系列模型的快速迭代——从Claude Opus 4到Opus 4.5——这些模型在限定时间内已能完整解答原题,导致人类与AI的成绩难以区分。

挑战

  • AI作弊的隐蔽性:无需现场监考,求职者只需在本地运行Claude,即可获得精准答案。
  • 评估失效:当AI的输出与顶尖候选人的水平持平或超越时,传统笔试失去筛选价值。
  • 行业连锁反应:高校、企业等也在面临相同的AI辅助作业、考试作弊危机,招聘体系的公平性受到冲击。

解决方案

Anthropic的测试团队在技术负责人Tristan Hume的带领下,重新设计了测评内容:

  1. 降低硬件优化比重,转向更具创造性和开放式的问题,例如系统架构的权衡、异常案例的调试思路。
  2. 引入多阶段评估,包括代码实现、解释说明以及现场问答,增加AI难以一次性覆盖的环节。
  3. 动态题库,每批候选人获得的题目都有细微差别,防止模型通过训练数据提前学习答案。
  4. 公开原始题目,邀请社区尝试突破,以在公开竞争中验证题目的“AI抗性”。

前景展望

  • 招聘流程的演进:AI的强大能力促使企业重新审视技术测评的形式,更多面向思维过程而非单纯答案。
  • 行业标准化:或将出现针对AI作弊的行业指南,类似学术界的“反作弊协议”。
  • AI与招聘的共生:在防作弊的同时,企业也可能利用AI辅助评审,如自动化代码风格检查、性能基准报告等。

Anthropic的这场“人与机器的对决”不仅是一次内部的技术迭代,更为整个招聘生态敲响了警钟:在AI日益渗透的时代,评估真实能力的方式必须同步升级。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。