Hugging Face推出Ettin重排序模型族 实现跨规模检索精度新标杆
•21 阅读•6分钟•开源
Hugging FaceEttincross-encoderMTEBFlash Attention 2
•21 阅读•6分钟•开源

背景与意义
在检索系统中,检索‑重排序(retrieve‑then‑rerank)是提升答案相关性的关键环节。传统的交叉编码器(cross‑encoder)虽然精度高,却因需要对每对(query, document)独立推理而成本昂贵。Hugging Face 本次发布的 Ettin Reranker 系列,通过高效的ModernBERT‑style 编码器和 un‑padded Flash Attention 2,实现了在保持高精度的同时,大幅降低了时延和算力需求。
模型规格与性能
| 模型 | 参数量 | 主干编码器 | 关键特性 | MTEB Retrieval NDCG@10 |
|---|---|---|---|---|
| cross‑encoder/ettin‑reranker‑17m‑v1 | 17 M | jhu‑clsp/ettin‑encoder‑17m | 支持 8K token 上下文 | 0.5576 |
| cross‑encoder/ettin‑reranker‑32m‑v1 | 32 M | jhu‑clsp/ettin‑encoder‑32m | Flash Attention 2 + bf16 | 0.5779 |
| cross‑encoder/ettin‑reranker‑68m‑v1 | 68 M | jhu‑clsp/ettin‑encoder‑68m | 1.7‑8.3× 加速 | 0.5915 |
| cross‑encoder/ettin‑reranker‑150m‑v1 | 151 M | jhu‑clsp/ettin‑encoder‑150m | 8192‑token 长上下文 | 0.5994 |
| cross‑encoder/ettin‑reranker‑400m‑v1 | 401 M | jhu‑clsp/ettin‑encoder‑400m | 2.3× 速度优势 | 0.6091 |
| cross‑encoder/ettin‑reranker‑1b‑v1 | 1 B | jhu‑clsp/ettin‑encoder‑1b | 与 1.54 B 老师模型误差 <0.0001 | 0.6114 |
在 NanoBEIR 子集上,1B 模型达到 0.7237 的 NDCG@10,几乎追平教师模型(0.7318),而 17M‑32M 小模型仍显著超越传统 MiniLM 系列,提供了低成本的高性价比选项。速度测试显示,17M 模型在 H100 上可达 7517 对/秒,是所有公开重排序模型中最快的。
训练与蒸馏方法
- 蒸馏教师:mixedbread‑ai/mxbai‑rerank‑large‑v2(1.54 B 参数)
- 蒸馏目标:点式 MSE 损失,直接对教师的原始 logits 进行回归
- 训练数据:约 1.43 亿 (query, document, teacher_score) 三元组,来源于 LightOn 的大规模预训练语料以及经教师重新打分的检索数据
- 单轮训练:所有模型只跑 1 epoch,学习率与全局 batch size 按规模调节
- 硬件优化:默认启用 bf16 与 Flash Attention 2,模型内部实现全链路 un‑padding,最大化算力利用率
实际使用指南
from sentence_transformers import CrossEncoder
# 以 32M 版本为例
model = CrossEncoder(
"cross-encoder/ettin-reranker-32m-v1",
model_kwargs={"dtype": "bfloat16", "attn_implementation": "flash_attention_2"}
)
# 直接调用 rank 接口完成重排序
ranked = model.rank(
query="Where was Apple founded?",
documents=[
"Apple Inc. was founded in Cupertino, California in 1976.",
"The Fuji apple is an apple cultivar developed in the late 1930s."
],
top_k=2,
return_documents=True,
)
for r in ranked:
print(f"({r['score']:.2f}): {r['text']}")
所有模型均支持 8K token 长上下文,适用于长文档检索与法律、金融等领域的细粒度排序。建议在 GPU 环境下开启 bf16 与 Flash Attention 2,以获得最佳吞吐。
业界影响与展望
Ettin 系列的发布标志着 开源检索‑重排序 进入了一个全新阶段:
- 性能闭环:即使是 17M 参数的模型,也能在公开基准上超越传统 MiniLM‑系列,提供了极具竞争力的低成本选项。
- 算力友好:通过模块化 Transformer 与 un‑padding,实现了在 H100、RTX 3090 甚至 CPU 上的可观加速。
- 生态驱动:模型、训练脚本、数据集全部在 Hugging Face Hub 开源,配合 Sentence‑Transformers 5.5.0 的 Agent Skill,普通开发者亦可复现或微调。
随着检索需求向更长上下文与更高实时性迁移,Ettin Reranker 系列有望成为企业级搜索、LLM‑augmented‑retrieval 以及 RAG 系统的首选组件。未来,社区若能提供更强大的教师模型或更丰富的领域标注数据,现有蒸馏框架仍具备显著提升空间。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。