AI Agent 异常恢复机制：任务失败重试与人工介入设计

凌晨三点，你部署的 AI 客服 Agent 突然在生产环境报错：

ConnectionError: HTTPSConnectionPool(host='api.holysheep.ai', port=443): 
Max retries exceeded with url: /v1/chat/completions (Caused by 
ConnectTimeoutError: <ConnectionTimeoutError> "Connection timeout after 30000ms"))

同时，你还可能遇到：
httpx.HTTPStatusError: 401 Unauthorized - Invalid API key
openai.RateLimitError: Rate limit exceeded for model gpt-4.1
json.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

这是我去年双十一期间亲身经历的噩梦。当晚流量峰值达到日常的 15 倍，API 请求失败率飙升至 23%，客服机器人彻底瘫痪了近 40 分钟，直接损失订单超过 200 单。从那以后，我花了三个月时间重新设计 AI Agent 的异常恢复机制，终于把请求成功率从 77% 提升到了 99.7%。本文将完整分享这套方案，包括指数退避重试、断路器模式、人工介入触发条件，以及如何用 HolySheep AI 的高可用接口作为兜底方案。

为什么 AI Agent 的异常处理如此关键

与普通 HTTP 接口不同，AI API 调用有几个独特的复杂性：

请求耗时不可预测：正常情况下 800ms，但峰值可能超过 30 秒
Token 消耗不可逆：请求失败也可能产生部分计费
幂等性难以保证：同样的重试可能产生不同的 AI 回复
级联失败风险：一个 Agent 失败可能拖垮整个业务流程

根据我的实测，使用 HolySheep AI 的国内直连线路，正常延迟可以控制在 <50ms，配合完善的异常恢复机制，能将整体可用性提升至 99.9% 以上。

一、分层异常分类与处理策略

在设计恢复机制前，必须先对异常进行准确分类。不同类型的异常需要不同的处理策略：

from enum import Enum
from dataclasses import dataclass
from typing import Optional, Any, Dict
import httpx
import openai

class ErrorSeverity(Enum):
    """异常严重程度分级"""
    RETRY_IMMEDIATELY = 1  # 网络抖动，立即重试
    RETRY_WITH_BACKOFF = 2  # 服务端限流，需指数退避
    MANUAL_INTERVENTION = 3  # 需要人工介入
    FATAL = 4  # 致命错误，无法恢复

class AIAgentError(Exception):
    """AI Agent 基础异常类"""
    def __init__(self, message: str, severity: ErrorSeverity, 
                 original_error: Optional[Exception] = None,
                 context: Optional[Dict[str, Any]] = None):
        super().__init__(message)
        self.severity = severity
        self.original_error = original_error
        self.context = context or {}

@dataclass
class ErrorHandlingConfig:
    """错误处理配置"""
    max_retries: int = 3
    base_delay: float = 1.0  # 基础延迟（秒）
    max_delay: float = 60.0  # 最大延迟
    timeout: float = 30.0  # 请求超时
    circuit_breaker_threshold: int = 5  # 断路器熔断阈值
    circuit_breaker_timeout: float = 60.0  # 断路器恢复时间

def classify_error(error: Exception, response: Optional[httpx.Response] = None) -> AIAgentError:
    """将原始错误分类为结构化异常"""
    
    # 网络连接类错误 - 立即重试
    if isinstance(error, (httpx.ConnectError, httpx.ConnectTimeout)):
        return AIAgentError(
            message=f"连接失败: {str(error)}",
            severity=ErrorSeverity.RETRY_IMMEDIATELY,
            original_error=error
        )
    
    # 超时错误 - 退避重试
    if isinstance(error, (httpx.TimeoutException, httpx.ReadTimeout)):
        return AIAgentError(
            message=f"请求超时: {str(error)}",
            severity=ErrorSeverity.RETRY_WITH_BACKOFF,
            original_error=error
        )
    
    # 认证错误 - 致命
    if isinstance(error, openai.AuthenticationError):
        return AIAgentError(
            message="API Key 无效或已过期",
            severity=ErrorSeverity.FATAL,
            original_error=error
        )
    
    # 限流错误 - 退避重试
    if isinstance(error, openai.RateLimitError):
        return AIAgentError(
            message="请求频率超限",
            severity=ErrorSeverity.RETRY_WITH_BACKOFF,
            original_error=error
        )
    
    # 服务端错误 - 退避重试
    if isinstance(error, openai.APIError) and response and response.status_code >= 500:
        return AIAgentError(
            message=f"服务端错误: {response.status_code}",
            severity=ErrorSeverity.RETRY_WITH_BACKOFF,
            original_error=error
        )
    
    # 业务逻辑错误 - 人工介入
    if isinstance(error, openai.APIError) and response and response.status_code == 422:
        return AIAgentError(
            message="请求参数异常，可能需要调整业务逻辑",
            severity=ErrorSeverity.MANUAL_INTERVENTION,
            original_error=error
        )
    
    # 默认按需要退避重试处理
    return AIAgentError(
        message=f"未知错误: {str(error)}",
        severity=ErrorSeverity.RETRY_WITH_BACKOFF,
        original_error=error
    )

二、指数退避重试策略实现

指数退避（Exponential Backoff）是处理临时性故障的标准方案。核心思想是：每次重试的等待时间翻倍，配合随机抖动（Jitter）避免惊群效应。

import asyncio
import random
import time
from typing import Callable, TypeVar, Optional
from functools import wraps

T = TypeVar('T')

class ExponentialBackoffRetry:
    """指数退避重试器"""
    
    def __init__(self, config: ErrorHandlingConfig):
        self.config = config
        self.attempt_counts = {}  # 按操作名记录重试次数
        self.last_error_times = {}  # 记录最后错误时间
    
    def calculate_delay(self, attempt: int, base_delay: Optional[float] = None) -> float:
        """计算带抖动的指数延迟"""
        base = base_delay or self.config.base_delay
        # 指数退避: 1s, 2s, 4s, 8s, 16s...
        exponential_delay = base * (2 ** attempt)
        # 添加随机抖动，避免惊群效应
        jitter = random.uniform(0, 0.3 * exponential_delay)
        # 限制最大延迟
        return min(exponential_delay + jitter, self.config.max_delay)
    
    async def execute_with_retry(
        self,
        operation_name: str,
        func: Callable[..., T],
        *args,
        **kwargs
    ) -> T:
        """带重试机制的执行包装器"""
        
        last_error = None
        key = f"{operation_name}_{id(func)}"
        
        # 获取当前重试计数
        current_attempt = self.attempt_counts.get(key, 0)
        
        for attempt in range(current_attempt, self.config.max_retries):
            try:
                self.attempt_counts[key] = attempt
                
                # 同步函数包装
                if asyncio.iscoroutinefunction(func):
                    result = await asyncio.wait_for(
                        func(*args, **kwargs),
                        timeout=self.config.timeout
                    )
                else:
                    result = await asyncio.wait_for(
                        asyncio.to_thread(func, *args, **kwargs),
                        timeout=self.config.timeout
                    )
                
                # 成功后重置计数
                if key in self.attempt_counts:
                    del self.attempt_counts[key]
                    
                return result
                
            except asyncio.TimeoutError:
                last_error = AIAgentError(
                    message=f"操作 {operation_name} 第 {attempt + 1} 次执行超时",
                    severity=ErrorSeverity.RETRY_WITH_BACKOFF
                )
                
            except Exception as e:
                # 获取响应信息用于分类
                response = kwargs.get('_response')
                agent_error = classify_error(e, response)
                last_error = agent_error
                
                # 根据错误级别决定处理方式
                if agent_error.severity == ErrorSeverity.FATAL:
                    raise agent_error
                    
                if agent_error.severity == ErrorSeverity.MANUAL_INTERVENTION:
                    raise agent_error
                
                # 达到最大重试次数
                if attempt >= self.config.max_retries - 1:
                    break
                
                # 计算延迟并等待
                delay = self.calculate_delay(attempt)
                print(f"[重试] {operation_name} 第 {attempt + 1} 次失败，"
                      f"{delay:.2f}秒后重试... 错误: {agent_error}")
                
                await asyncio.sleep(delay)
        
        # 所有重试都失败
        raise last_error

使用示例：封装 HolySheep API 调用
class HolySheepAIClient:
    """HolySheep AI API 客户端封装"""
    
    def __init__(self, api_key: str, config: Optional[ErrorHandlingConfig] = None):
        self.api_key = api_key
        self.config = config or ErrorHandlingConfig()
        self.retry_handler = ExponentialBackoffRetry(self.config)
        
        # 初始化 OpenAI 兼容客户端
        self.client = openai.OpenAI(
            api_key=self.api_key,
            base_url="https://api.holysheep.ai/v1",  # HolySheep API 地址
            timeout=httpx.Timeout(self.config.timeout)
        )
    
    async def chat_completion(
        self,
        messages: list,
        model: str = "gpt-4.1",
        **kwargs
    ) -> str:
        """带重试的对话补全"""
        
        async def _call_api():
            response = self.client.chat.completions.create(
                model=model,
                messages=messages,
                **kwargs
            )
            return response.choices[0].message.content
        
        return await self.retry_handler.execute_with_retry(
            operation_name=f"chat_completion_{model}",
            _call_api
        )

三、断路器模式：防止级联失败

当某个服务持续失败时，继续向它发送请求只会加重系统负担。断路器（Circuit Breaker）模式可以在检测到故障后快速失败（Fail Fast），避免资源耗尽。

import time
from enum import Enum
from threading import Lock

class CircuitState(Enum):
    CLOSED = "closed"      # 闭合状态：正常调用
    OPEN = "open"          # 打开状态：快速失败
    HALF_OPEN = "half_open"  # 半开状态：探测恢复

class CircuitBreaker:
    """断路器实现"""
    
    def __init__(
        self,
        failure_threshold: int = 5,
        recovery_timeout: float = 60.0,
        expected_exception: type = Exception
    ):
        self.failure_threshold = failure_threshold
        self.recovery_timeout = recovery_timeout
        self.expected_exception = expected_exception
        
        self._failure_count = 0
        self._last_failure_time: Optional[float] = None
        self._state = CircuitState.CLOSED
        self._lock = Lock()
    
    @property
    def state(self) -> CircuitState:
        """检查并转换断路器状态"""
        with self._lock:
            if self._state == CircuitState.OPEN:
                # 检查是否超时，可以尝试恢复
                if (time.time() - self._last_failure_time) >= self.recovery_timeout:
                    self._state = CircuitState.HALF_OPEN
            return self._state
    
    def record_success(self):
        """记录成功调用"""
        with self._lock:
            self._failure_count = 0
            self._state = CircuitState.CLOSED
    
    def record_failure(self):
        """记录失败调用"""
        with self._lock:
            self._failure_count += 1
            self._last_failure_time = time.time()
            
            if self._failure_count >= self.failure_threshold:
                self._state = CircuitState.OPEN
                print(f"[断路器] 已打开，{self.recovery_timeout}秒后尝试恢复")
    
    def __enter__(self):
        if self.state == CircuitState.OPEN:
            raise CircuitBreakerOpenError(
                f"断路器已打开，请{self.recovery_timeout}秒后重试"
            )
        return self
    
    def __exit__(self, exc_type, exc_val, exc_tb):
        if exc_type is not None and issubclass(exc_type, self.expected_exception):
            self.record_failure()
        else:
            self.record_success()
        return False

class CircuitBreakerOpenError(Exception):
    """断路器打开异常"""
    pass

集成到 Agent 执行器
class ResilientAgentExecutor:
    """带异常恢复的 Agent 执行器"""
    
    def __init__(self, api_key: str):
        self.client = HolySheepAIClient(api_key)
        
        # 为不同模型设置独立的断路器
        self.circuit_breakers = {
            "gpt-4.1": CircuitBreaker(failure_threshold=3, recovery_timeout=30),
            "claude-sonnet-4.5": CircuitBreaker(failure_threshold=3, recovery_timeout=30),
            "gemini-2.5-flash": CircuitBreaker(failure_threshold=5, recovery_timeout=15),
        }
        
        # 模型降级映射
        self.fallback_models = {
            "gpt-4.1": ["gemini-2.5-flash", "claude-sonnet-4.5"],
            "claude-sonnet-4.5": ["gemini-2.5-flash", "gpt-4.1"],
            "gemini-2.5-flash": ["gpt-4.1"],
        }
    
    async def execute_with_fallback(self, messages: list, primary_model: str) -> str:
        """带模型降级的执行"""
        
        tried_models = []
        current_model = primary_model
        
        while tried_models.__len__() < len(self.fallback_models.get(primary_model, [])) + 1:
            circuit = self.circuit_breakers.get(current_model)
            
            if circuit and circuit.state == CircuitState.OPEN:
                tried_models.append(current_model)
                # 尝试下一个降级模型
                for fallback in self.fallback_models.get(primary_model, []):
                    if fallback not in tried_models:
                        current_model = fallback
                        break
                continue
            
            try:
                if circuit:
                    with circuit:
                        return await self.client.chat_completion(messages, current_model)
                else:
                    return await self.client.chat_completion(messages, current_model)
                    
            except (CircuitBreakerOpenError, AIAgentError) as e:
                tried_models.append(current_model)
                print(f"[降级] {current_model} 失败: {e}，尝试下一个模型")
                
                # 寻找下一个可用的降级模型
                current_model = None
                for fallback in self.fallback_models.get(primary_model, []):
                    if fallback not in tried_models:
                        current_model = fallback
                        break
                
                if not current_model:
                    raise AIAgentError(
                        message="所有模型均不可用",
                        severity=ErrorSeverity.MANUAL_INTERVENTION,
                        context={"tried_models": tried_models}
                    )
        
        raise AIAgentError(
            message="执行失败，已尝试所有降级方案",
            severity=ErrorSeverity.MANUAL_INTERVENTION
        )

四、人工介入触发机制

不是所有错误都应该重试解决。当检测到业务逻辑异常、配置错误或持续失败时，应该及时触发人工介入，避免错误扩散。

from enum import Enum
from dataclasses import dataclass, field
from datetime import datetime
from typing import List, Optional, Dict, Any
import json
import smtplib
from email.mime.text import MIMEText
from email.mime.multipart import MIMEMultipart

class InterventionTrigger(Enum):
    """人工介入触发条件"""
    AUTH_FAILURE = "auth_failure"           # 认证失败
    CONFIG_ERROR = "config_error"           # 配置错误
    CONSECUTIVE_FAILURES = "consecutive"    # 连续失败
    BUSINESS_LOGIC_ERROR = "business_error" # 业务逻辑错误
    CIRCUIT_BREAKER_OPEN = "circuit_open"   # 断路器打开
    USER_FEEDBACK = "user_feedback"         # 用户主动反馈

@dataclass
class InterventionTicket:
    """人工介入工单"""
    ticket_id: str
    trigger: InterventionTrigger
    severity: str  # critical/high/medium/low
    description: str
    context: Dict[str, Any]
    created_at: datetime = field(default_factory=datetime.now)
    resolved: bool = False
    resolution: Optional[str] = None

class HumanInterventionHandler:
    """人工介入处理器"""
    
    def __init__(self, notification_config: Dict[str, Any]):
        self.notification_config = notification_config
        self.intervention_tickets: List[InterventionTicket] = []
        self._consecutive_failures = 0
        self._failure_threshold = 10  # 连续失败阈值
    
    def check_and_trigger_intervention(
        self,
        error: AIAgentError,
        context: Dict[str, Any]
    ) -> Optional[InterventionTicket]:
        """检查是否需要触发人工介入"""
        
        should_intervene = False
        trigger = None
        severity = "medium"
        
        # 认证失败 - 立即触发高级别介入
        if isinstance(error.original_error, openai.AuthenticationError):
            should_intervene = True
            trigger = InterventionTrigger.AUTH_FAILURE
            severity = "critical"
        
        # 配置错误 - 立即触发
        elif isinstance(error.original_error, openai.BadRequestError):
            should_intervene = True
            trigger = InterventionTrigger.CONFIG_ERROR
            severity = "high"
        
        # 断路器打开
        elif "断路器" in error.message or "Circuit" in error.message:
            should_intervene = True
            trigger = InterventionTrigger.CIRCUIT_BREAKER_OPEN
            severity = "high"
        
        # 连续失败计数
        self._consecutive_failures += 1
        if self._consecutive_failures >= self._failure_threshold:
            should_intervene = True
            trigger = InterventionTrigger.CONSECUTIVE_FAILURES
            severity = "high"
            self._consecutive_failures = 0  # 重置计数
        
        # 业务逻辑错误
        elif error.severity == ErrorSeverity.MANUAL_INTERVENTION:
            should_intervene = True
            trigger = InterventionTrigger.BUSINESS_LOGIC_ERROR
            severity = "medium"
        
        if should_intervene and trigger:
            ticket = self._create_ticket(trigger, severity, error.message, context)
            self._send_notification(ticket)
            return ticket
        
        # 成功调用后重置连续失败计数
        self._consecutive_failures = 0
        return None
    
    def _create_ticket(
        self,
        trigger: InterventionTrigger,
        severity: str,
        description: str,
        context: Dict[str, Any]
    ) -> InterventionTicket:
        """创建介入工单"""
        ticket = InterventionTicket(
            ticket_id=f"INT-{datetime.now().strftime('%Y%m%d%H%M%S')}-{len(self.intervention_tickets)}",
            trigger=trigger,
            severity=severity,
            description=description,
            context=context
        )
        self.intervention_tickets.append(ticket)
        return ticket
    
    def _send_notification(self, ticket: InterventionTicket):
        """发送通知"""
        message = self._format_notification_message(ticket)
        
        # 邮件通知
        if self.notification_config.get("email_enabled"):
            self._send_email(ticket, message)
        
        # Webhook 通知（飞书/钉钉/Slack）
        if self.notification_config.get("webhook_url"):
            self._send_webhook(ticket, message)
        
        # 记录日志
        print(f"[人工介入] 工单 {ticket.ticket_id} 已创建 - {ticket.trigger.value}")
    
    def _format_notification_message(self, ticket: InterventionTicket) -> str:
        """格式化通知消息"""
        return f"""
🚨 AI Agent 人工介入工单

工单ID: {ticket.ticket_id}
触发条件: {ticket.trigger.value}
严重级别: {ticket.severity}
描述: {ticket.description}
时间: {ticket.created_at.strftime('%Y-%m-%d %H:%M:%S')}

上下文:
{json.dumps(ticket.context, indent=2, ensure_ascii=False)}
        """.strip()
    
    def _send_email(self, ticket: InterventionTicket, message: str):
        """发送邮件通知"""
        if not self.notification_config.get("smtp"):
            return
            
        smtp_config = self.notification_config["smtp"]
        msg = MIMEMultipart()
        msg['From'] = smtp_config['from']
        msg['To'] = ','.join(smtp_config['to'])
        msg['Subject'] = f"[{ticket.severity.upper()}] AI Agent 人工介入 - {ticket.ticket_id}"
        msg.attach(MIMEText(message, 'plain', 'utf-8'))
        
        try:
相关资源
📚 AI API 技术文章库
💰 查看价格
📖 开发者文档
🚀 免费注册
相关文章
LitServe LLM 服务化框架：如何从第三方中转平滑迁移到 HolySheep
Meta-Prompting 实战指南：让 AI 自己优化 Prompt 的工程方法
Agent 评估框架：自动化测试与质量指标体系构建

同时，你还可能遇到：

httpx.HTTPStatusError: 401 Unauthorized - Invalid API key

openai.RateLimitError: Rate limit exceeded for model gpt-4.1

json.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

为什么 AI Agent 的异常处理如此关键

一、分层异常分类与处理策略

二、指数退避重试策略实现

使用示例：封装 HolySheep API 调用

三、断路器模式：防止级联失败

集成到 Agent 执行器

四、人工介入触发机制

相关资源

相关文章

🔥 推荐使用 HolySheep AI

`json.JSONDecodeError: Expecting value: line 1 column 1 (char 0)`