RAG Retrieval 评估指标：Recall/MRR/NDCG 计算方法与实战

作为在 AI 工程领域摸爬滚打5年的老兵，我最近被一个真实账单震撼到了——我们团队每月调用 GPT-4.1 处理 100 万 Token，按官方价格 $8/MTok 计算，光这一项就要 $8000 块。但换成 HolySheep AI 中转站，汇率 ¥1=$1 的优势直接让我省了 85% 的成本。

一、RAG 检索评估的核心指标

在构建企业级 RAG 系统时，Retrieval（检索）阶段的评估至关重要。我曾经踩过一个坑：向量数据库调优了半天，结果 Recall 只有 0.3，整个系统的回答质量惨不忍睹。下面我详细讲解三个最核心的评估指标。

1.1 Recall（召回率）

Recall 衡量的是相关文档被检索系统成功召回的比例。在信息检索领域，这是最基本的指标。

import numpy as np
from typing import List, Set

def calculate_recall(
    retrieved_docs: List[str],
    relevant_docs: List[str]
) -> float:
    """
    计算召回率
    Recall = |relevant_docs ∩ retrieved_docs| / |relevant_docs|
    
    Args:
        retrieved_docs: 检索系统返回的文档列表
        relevant_docs: 实际相关的文档列表（Ground Truth）
    
    Returns:
        float: 召回率，范围 [0, 1]
    """
    retrieved_set = set(retrieved_docs)
    relevant_set = set(relevant_docs)
    
    # 交集元素个数 / 实际相关文档个数
    intersection = retrieved_set & relevant_set
    recall = len(intersection) / len(relevant_set) if relevant_set else 0.0
    
    return recall

实战案例
retrieved = ["doc_a", "doc_b", "doc_c", "doc_d"]
relevant = ["doc_a", "doc_c", "doc_e", "doc_f", "doc_g"]

recall_score = calculate_recall(retrieved, relevant)
print(f"Recall: {recall_score:.4f}")  # 输出: 0.4 (2/5)

1.2 MRR（平均倒数排名）

MRR 关注的是第一个相关文档出现的位置。位置越靠前，MRR 越高。在对话系统场景下，这个指标直接影响用户体验。

def calculate_mrr(
    query_results: List[str],
    relevant_docs: Set[str]
) -> float:
    """
    计算平均倒数排名
    MRR = 1 / |Q| * Σ(1 / rank_i)
    
    其中 rank_i 是第 i 个查询中第一个相关文档的位置
    
    Args:
        query_results: 检索结果列表（有序）
        relevant_docs: 相关文档集合
    
    Returns:
        float: MRR 分数，范围 [0, 1]
    """
    for idx, doc in enumerate(query_results, start=1):
        if doc in relevant_docs:
            return 1.0 / idx
    return 0.0

多查询场景
queries_results = [
    ["doc_b", "doc_a", "doc_c"],  # 第一个相关在位置2
    ["doc_x", "doc_y", "doc_a"],  # 第一个相关在位置3
    ["doc_a", "doc_m", "doc_n"],  # 第一个相关在位置1
]
relevant = {"doc_a"}

mrr_scores = [calculate_mrr(results, relevant) for results in queries_results]
mrr = np.mean(mrr_scores)
print(f"MRR: {mrr:.4f}")  # 输出: 0.4444 (1/2 + 1/3 + 1/1) / 3

1.3 NDCG（归一化折损累积增益）

NDCG 是最复杂的指标，它考虑了文档的相关性等级和位置因素。NDCG 值越接近 1，说明排序质量越好。

def calculate_dcg(scores: List[float]) -> float:
    """计算 DCG（折损累积增益）"""
    dcg = 0.0
    for idx, score in enumerate(scores, start=1):
        dcg += score / np.log2(idx + 1)
    return dcg

def calculate_ndcg(
    retrieved_scores: List[float],
    ideal_scores: List[float]
) -> float:
    """
    计算 NDCG（归一化折损累积增益）
    NDCG = DCG / IDCG
    
    Args:
        retrieved_scores: 实际检索结果的相关性分数列表
        ideal_scores: 理想排序下的相关性分数列表
    
    Returns:
        float: NDCG 分数，范围 [0, 1]
    """
    dcg = calculate_dcg(retrieved_scores)
    idcg = calculate_dcg(ideal_scores)
    
    return dcg / idcg if idcg > 0 else 0.0

实战案例：相关性分数 0-3 分
retrieved_relevance = [3, 1, 2, 0, 1]  # 实际检索结果
ideal_relevance = sorted(retrieved_relevance, reverse=True)  # [3, 2, 1, 1, 0]

ndcg_score = calculate_ndcg(retrieved_relevance, ideal_relevance)
print(f"NDCG: {ndcg_score:.4f}")  # 输出排序质量评分

二、实战：集成 HolySheep API 优化 RAG 评估

在生产环境中，我通常用 HolySheep AI 来加速 Embedding 和评估流程。国内直连延迟 <50ms，配合 ¥1=$1 的汇率优势，批量评估任务成本大幅降低。

import requests
import json

class RAGEvaluator:
    """RAG 检索质量评估器，集成 HolySheep API"""
    
    def __init__(self, api_key: str):
        self.api_key = api_key
        self.base_url = "https://api.holysheep.ai/v1"
        self.headers = {
            "Authorization": f"Bearer {api_key}",
            "Content-Type": "application/json"
        }
    
    def get_embeddings(self, texts: List[str], model: str = "text-embedding-3-small") -> List[List[float]]:
        """使用 HolySheep API 获取文本向量"""
        response = requests.post(
            f"{self.base_url}/embeddings",
            headers=self.headers,
            json={"input": texts, "model": model}
        )
        
        if response.status_code == 200:
            data = response.json()
            return [item["embedding"] for item in data["data"]]
        else:
            raise Exception(f"Embedding API 错误: {response.status_code} - {response.text}")
    
    def batch_evaluate(
        self,
        queries: List[str],
        relevant_docs_map: dict
    ) -> dict:
        """
        批量评估 RAG 检索质量
        
        Args:
            queries: 查询列表
            relevant_docs_map: {query: [相关文档列表]}
        """
        results = {"recalls": [], "mrrs": [], "ndcgs": []}
        
        for query in queries:
            # 获取查询向量
            query_emb = self.get_embeddings([query])[0]
            
            # 模拟向量检索（实际项目中替换为你的向量数据库查询）
            retrieved = self.vector_search(query_emb, top_k=10)
            
            relevant = relevant_docs_map.get(query, [])
            
            # 计算各项指标
            results["recalls"].append(calculate_recall(retrieved, relevant))
            results["mrrs"].append(calculate_mrr(retrieved, set(relevant)))
            
        return {
            "avg_recall": np.mean(results["recalls"]),
            "avg_mrr": np.mean(results["mrrs"]),
            "total_evaluated": len(queries)
        }

使用示例
evaluator = RAGEvaluator(api_key="YOUR_HOLYSHEEP_API_KEY")
metrics = evaluator.batch_evaluate(
    queries=["什么是机器学习", "Python 教程推荐"],
    relevant_docs_map={
        "什么是机器学习": ["doc_1", "doc_5", "doc_8"],
        "Python 教程推荐": ["doc_3", "doc_7"]
    }
)
print(f"评估结果: {metrics}")

三、价格对比：为什么选 HolySheep 中转

回到开头那个让我震惊的账单问题。让我用真实数字算一笔账：

模型	官方价格	每月100万Token费用	HolySheep汇率后	节省比例
GPT-4.1	$8/MTok	$8000	¥8000	85%+
Claude Sonnet 4.5	$15/MTok	$15000	¥15000	85%+
Gemini 2.5 Flash	$2.50/MTok	$2500	¥2500	85%+
DeepSeek V3.2	$0.42/MTok	$420	¥420	85%+

官方汇率 ¥7.3=$1，而 HolySheep AI 直接 ¥1=$1，等于把我的成本直接除以 7.3。更香的是支持微信/支付宝充值，国内直连延迟低于 50ms，对于我这种需要高频调用 Embedding API 做评估的工程师来说，体验丝滑。

四、常见错误与解决方案

错误 1：Recall 计算时分母为零

当 relevant_docs 为空时，直接计算 len(relevant_set) 会导致除零错误。

# ❌ 错误写法
recall = len(intersection) / len(relevant_set)  # relevant_set 为空时会报错

✅ 正确写法
def calculate_recall_safe(retrieved_docs, relevant_docs):
    relevant_set = set(relevant_docs)
    if not relevant_set:
        return 0.0  # 没有相关文档时，定义 Recall 为 0
    retrieved_set = set(retrieved_docs)
    intersection = retrieved_set & relevant_set
    return len(intersection) / len(relevant_set)

错误 2：MRR 中遗漏首个相关文档

我曾经犯过这个错：循环遍历时找到相关文档就立即返回，但忘了处理完全没找到相关文档的情况。

# ❌ 错误写法（返回 None 而不是 0）
def calculate_mrr_wrong(query_results, relevant_docs):
    for idx, doc in enumerate(query_results, start=1):
        if doc in relevant_docs:
            return 1.0 / idx
    # 没找到时返回 None，导致后续 np.mean() 失败

✅ 正确写法
def calculate_mrr_correct(query_results, relevant_docs):
    for idx, doc in enumerate(query_results, start=1):
        if doc in relevant_docs:
            return 1.0 / idx
    return 0.0  # 未找到相关文档时返回 0

错误 3：NDCG 的 IDCG 为零导致除零

当所有检索结果的相关性分数都为 0 时，IDCG 也为 0。

# ❌ 错误写法
ndcg = dcg / idcg  # 均为 0 时触发 ZeroDivisionError

✅ 正确写法
def calculate_ndcg_safe(retrieved_scores, ideal_scores):
    dcg = calculate_dcg(retrieved_scores)
    idcg = calculate_dcg(ideal_scores)
    
    if idcg == 0:
        return 0.0 if dcg == 0 else 1.0  # 边界情况处理
    return dcg / idcg

常见报错排查

1. HolySheep API 返回 401 Unauthorized

这个错误通常是因为 API Key 填写错误或过期。检查以下几点：

# ❌ 常见错误：使用了 OpenAI 格式的 Key
headers = {"Authorization": f"Bearer sk-xxxx"}  # 这是 OpenAI 的 Key

✅ 正确写法：使用 HolySheep 分配的 Key
headers = {
    "Authorization": "Bearer YOUR_HOLYSHEEP_API_KEY",
    "Content-Type": "application/json"
}

同时确保 base_url 正确
BASE_URL = "https://api.holysheep.ai/v1"  # 不是 api.openai.com

2. Embedding 向量维度不匹配

# 错误原因：不同 embedding 模型输出维度不同
text-embedding-3-small 输出 1536 维
text-embedding-3-large 输出 3072 维

✅ 解决方案：明确指定模型并验证维度
response = requests.post(
    "https://api.holysheep.ai/v1/embeddings",
    headers=headers,
    json={
        "input": "待嵌入文本",
        "model": "text-embedding-3-small"  # 明确指定
    }
)

embedding = response.json()["data"][0]["embedding"]
assert len(embedding) == 1536, f"维度不匹配: 期望1536, 实际{len(embedding)}"

3. 批量请求超限（Rate Limit）

# 错误：短时间内发送过多请求
错误代码省略...

✅ 正确做法：实现请求限流
import time
from threading import Semaphore

class RateLimitedClient:
    def __init__(self, max_per_second=10):
        self.semaphore = Semaphore(max_per_second)
        self.last_request = 0
    
    def request(self, payload):
        self.semaphore.acquire()
        try:
            # 强制最小间隔
            elapsed = time.time() - self.last_request
            if elapsed < (1 / max_per_second):
                time.sleep(1 / max_per_second - elapsed)
            
            response = requests.post(
                "https://api.holysheep.ai/v1/embeddings",
                headers=self.headers,
                json=payload
            )
            self.last_request = time.time()
            return response
        finally:
            self.semaphore.release()

五、总结

在 RAG 系统开发中，Recall、MRR 和 NDCG 是三个必备的评估指标。我建议在项目中建立标准化的评估流程，结合 HolySheep API 的高性能和低成本优势，可以显著提升开发效率。

我自己踩过的坑告诉我：评估指标定义不清是 RAG 系统最大的隐患。建议团队在项目初期就明确这三个指标的目标值，并在 CI/CD 流程中加入自动评估环节。

👉 免费注册 HolySheep AI，获取首月赠额度

RAG Retrieval 评估指标：Recall/MRR/NDCG 计算方法与实战

一、RAG 检索评估的核心指标

1.1 Recall（召回率）

实战案例

1.2 MRR（平均倒数排名）

多查询场景

1.3 NDCG（归一化折损累积增益）

实战案例：相关性分数 0-3 分

二、实战：集成 HolySheep API 优化 RAG 评估

使用示例

三、价格对比：为什么选 HolySheep 中转

四、常见错误与解决方案

错误 1：Recall 计算时分母为零

✅ 正确写法

错误 2：MRR 中遗漏首个相关文档

✅ 正确写法

错误 3：NDCG 的 IDCG 为零导致除零

✅ 正确写法

常见报错排查

1. HolySheep API 返回 401 Unauthorized

✅ 正确写法：使用 HolySheep 分配的 Key

同时确保 base_url 正确

2. Embedding 向量维度不匹配

text-embedding-3-small 输出 1536 维

text-embedding-3-large 输出 3072 维

✅ 解决方案：明确指定模型并验证维度

3. 批量请求超限（Rate Limit）

错误代码省略...

✅ 正确做法：实现请求限流

五、总结

相关资源

相关文章

一、RAG 检索评估的核心指标

1.1 Recall（召回率）

实战案例

1.2 MRR（平均倒数排名）

多查询场景

1.3 NDCG（归一化折损累积增益）

实战案例：相关性分数 0-3 分

二、实战：集成 HolySheep API 优化 RAG 评估

使用示例

三、价格对比：为什么选 HolySheep 中转

四、常见错误与解决方案

错误 1：Recall 计算时分母为零

✅ 正确写法

错误 2：MRR 中遗漏首个相关文档

✅ 正确写法

错误 3：NDCG 的 IDCG 为零导致除零

✅ 正确写法

常见报错排查

1. HolySheep API 返回 401 Unauthorized

✅ 正确写法：使用 HolySheep 分配的 Key

同时确保 base_url 正确

2. Embedding 向量维度不匹配

text-embedding-3-small 输出 1536 维

text-embedding-3-large 输出 3072 维

✅ 解决方案：明确指定模型并验证维度

3. 批量请求超限（Rate Limit）

错误代码省略...

✅ 正确做法：实现请求限流

五、总结

相关资源

相关文章

🔥 推荐使用 HolySheep AI