Hugging Face推出Ettin重排序模型族实现跨规模检索精度新标杆

背景与意义

在检索系统中，检索‑重排序（retrieve‑then‑rerank）是提升答案相关性的关键环节。传统的交叉编码器（cross‑encoder）虽然精度高，却因需要对每对(query, document)独立推理而成本昂贵。Hugging Face 本次发布的 Ettin Reranker 系列，通过高效的ModernBERT‑style 编码器和 un‑padded Flash Attention 2，实现了在保持高精度的同时，大幅降低了时延和算力需求。

模型规格与性能

模型	参数量	主干编码器	关键特性	MTEB Retrieval NDCG@10
cross‑encoder/ettin‑reranker‑17m‑v1	17 M	jhu‑clsp/ettin‑encoder‑17m	支持 8K token 上下文	0.5576
cross‑encoder/ettin‑reranker‑32m‑v1	32 M	jhu‑clsp/ettin‑encoder‑32m	Flash Attention 2 + bf16	0.5779
cross‑encoder/ettin‑reranker‑68m‑v1	68 M	jhu‑clsp/ettin‑encoder‑68m	1.7‑8.3× 加速	0.5915
cross‑encoder/ettin‑reranker‑150m‑v1	151 M	jhu‑clsp/ettin‑encoder‑150m	8192‑token 长上下文	0.5994
cross‑encoder/ettin‑reranker‑400m‑v1	401 M	jhu‑clsp/ettin‑encoder‑400m	2.3× 速度优势	0.6091
cross‑encoder/ettin‑reranker‑1b‑v1	1 B	jhu‑clsp/ettin‑encoder‑1b	与 1.54 B 老师模型误差 <0.0001	0.6114

在 NanoBEIR 子集上，1B 模型达到 0.7237 的 NDCG@10，几乎追平教师模型（0.7318），而 17M‑32M 小模型仍显著超越传统 MiniLM 系列，提供了低成本的高性价比选项。速度测试显示，17M 模型在 H100 上可达 7517 对/秒，是所有公开重排序模型中最快的。

训练与蒸馏方法

蒸馏教师：mixedbread‑ai/mxbai‑rerank‑large‑v2（1.54 B 参数）
蒸馏目标：点式 MSE 损失，直接对教师的原始 logits 进行回归
训练数据：约 1.43 亿 (query, document, teacher_score) 三元组，来源于 LightOn 的大规模预训练语料以及经教师重新打分的检索数据
单轮训练：所有模型只跑 1 epoch，学习率与全局 batch size 按规模调节
硬件优化：默认启用 bf16 与 Flash Attention 2，模型内部实现全链路 un‑padding，最大化算力利用率

实际使用指南

from sentence_transformers import CrossEncoder
# 以 32M 版本为例
model = CrossEncoder(
    "cross-encoder/ettin-reranker-32m-v1",
    model_kwargs={"dtype": "bfloat16", "attn_implementation": "flash_attention_2"}
)
# 直接调用 rank 接口完成重排序
ranked = model.rank(
    query="Where was Apple founded?",
    documents=[
        "Apple Inc. was founded in Cupertino, California in 1976.",
        "The Fuji apple is an apple cultivar developed in the late 1930s."
    ],
    top_k=2,
    return_documents=True,
)
for r in ranked:
    print(f"({r['score']:.2f}): {r['text']}")

所有模型均支持 8K token 长上下文，适用于长文档检索与法律、金融等领域的细粒度排序。建议在 GPU 环境下开启 bf16 与 Flash Attention 2，以获得最佳吞吐。

业界影响与展望

Ettin 系列的发布标志着 开源检索‑重排序 进入了一个全新阶段：

性能闭环：即使是 17M 参数的模型，也能在公开基准上超越传统 MiniLM‑系列，提供了极具竞争力的低成本选项。
算力友好：通过模块化 Transformer 与 un‑padding，实现了在 H100、RTX 3090 甚至 CPU 上的可观加速。
生态驱动：模型、训练脚本、数据集全部在 Hugging Face Hub 开源，配合 Sentence‑Transformers 5.5.0 的 Agent Skill，普通开发者亦可复现或微调。

随着检索需求向更长上下文与更高实时性迁移，Ettin Reranker 系列有望成为企业级搜索、LLM‑augmented‑retrieval 以及 RAG 系统的首选组件。未来，社区若能提供更强大的教师模型或更丰富的领域标注数据，现有蒸馏框架仍具备显著提升空间。

Hugging Face推出Ettin重排序模型族 实现跨规模检索精度新标杆