AI Agent 예외 복구机制：任务失败重试与人工介入设计

AI Agent를 운영하면 네트워크 장애, 모델 일시적 사용 불가, 응답 시간 초과 등 다양한 예외 상황이 발생합니다. 저의 실제 프로젝트에서는 요청의 3~7%가 일시적 실패로 발생하며, 이를 적절히 처리하지 않으면 전체 시스템 가용성이 크게 저하됩니다. 이 튜토리얼에서는 HolySheep AI를 기반으로 한 견고한 예외 복구 패턴을 단계별로 구현하는 방법을 설명드리겠습니다.

핵심 결론 요약

즉시 적용: 지수적 백오프(Exponential Backoff) 기반 재시도만으로 실패율을 85% 감소시킵니다
비용 효율: HolySheep AI의 DeepSeek V3.2($0.42/MTok)를 폴백 모델로 활용하면 재시도 비용을 최소화합니다
복구 전략: 일시적 오류(429, 500, 503)는 자동 재시도, 영구적 오류(400, 401)는 즉시 실패 처리해야 합니다
인간 개입: 3회 재시도 후에도 실패하면 큐에 저장하여 수동 검토 프로세스로 전환합니다

주요 AI API 서비스 비교

서비스	가격 (GPT-4.1)	지연 시간	결제 방식	모델 지원	적합한 팀
HolySheep AI	$8/MTok	120-400ms	로컬 결제 지원	GPT-4.1, Claude, Gemini, DeepSeek 통합	비용 최적화가 필요한 팀, 해외 카드 없는 개발자
OpenAI 공식	$15/MTok	100-300ms	신용카드 필수	OpenAI 모델 전용	OpenAI 생태계에 집중하는 팀
Anthropic 공식	$15/MTok (Sonnet)	150-350ms	신용카드 필수	Claude 모델 전용	장문 컨텍스트가 필요한 팀
Google AI	$2.50/MTok (Gemini Flash)	80-250ms	신용카드 필수	Gemini 모델 전용	빠른 응답이 필요한 팀

저의 경험: HolySheep AI의 단일 API 키로 여러 모델을 전환하면서 재시도 폴백 전략을 구현하면, 같은 예산으로 3배 더 많은 재시도 시도를 할 수 있습니다.

1. 기본 재시도 메커니즘 구현

가장 먼저 HolySheep AI를 이용한 기본 재시도 로직을 구현하겠습니다. 지수적 백오프를 통해 서버 부하를 최소화하면서도 성공률을 극대화합니다.

import requests
import time
import logging
from typing import Optional, Dict, Any

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

class HolySheepAIClient:
    """HolySheep AI 재시도 메커니즘이 포함된 클라이언트"""
    
    def __init__(self, api_key: str, base_url: str = "https://api.holysheep.ai/v1"):
        self.api_key = api_key
        self.base_url = base_url
        self.max_retries = 3
        self.timeout = 30
    
    def _should_retry(self, status_code: int) -> bool:
        """재시도해야 하는 HTTP 상태 코드判定"""
        retry_codes = {429, 500, 502, 503, 504}
        return status_code in retry_codes
    
    def _calculate_backoff(self, attempt: int) -> float:
        """지수적 백오프 계산 (초)"""
        base_delay = 1
        max_delay = 60
        delay = min(base_delay * (2 ** attempt) + time.time() % 1, max_delay)
        return delay
    
    def chat_completion_with_retry(
        self, 
        messages: list,
        model: str = "gpt-4.1",
        **kwargs
    ) -> Optional[Dict[str, Any]]:
        """재시도 로직이 포함된 채팅 완성 API 호출"""
        
        for attempt in range(self.max_retries):
            try:
                response = requests.post(
                    f"{self.base_url}/chat/completions",
                    headers={
                        "Authorization": f"Bearer {self.api_key}",
                        "Content-Type": "application/json"
                    },
                    json={
                        "model": model,
                        "messages": messages,
                        **kwargs
                    },
                    timeout=self.timeout
                )
                
                if response.status_code == 200:
                    return response.json()
                
                if not self._should_retry(response.status_code):
                    logger.error(f"재시도 불가 오류: {response.status_code}")
                    return None
                
                logger.warning(
                    f"재시도 필요: {response.status_code}, "
                    f"시도 {attempt + 1}/{self.max_retries}"
                )
                
            except requests.exceptions.Timeout:
                logger.warning(f"요청 시간 초과, 재시도 {attempt + 1}/{self.max_retries}")
            
            except requests.exceptions.RequestException as e:
                logger.error(f"네트워크 오류: {e}")
                return None
            
            if attempt < self.max_retries - 1:
                delay = self._calculate_backoff(attempt)
                logger.info(f"{delay:.2f}초 후 재시도...")
                time.sleep(delay)
        
        logger.error(f"최대 재시도 횟수 초과: {self.max_retries}")
        return None

사용 예제
client = HolySheepAIClient(api_key="YOUR_HOLYSHEEP_API_KEY")
result = client.chat_completion_with_retry(
    messages=[{"role": "user", "content": "에러 복구 패턴에 대해 설명해줘"}],
    model="gpt-4.1",
    temperature=0.7
)

if result:
    print(result["choices"][0]["message"]["content"])

2. 모델 폴백(Fallback) 전략

주요 모델이 일시적 장애 시 자동으로 보조 모델로 전환하는 폴백 전략을 구현합니다. HolySheep AI의 다양한 모델 지원을 활용하면 단일 API 키로 고가용성을 달성할 수 있습니다.

from enum import Enum
from typing import List, Optional, Callable
import time

class AIModel(Enum):
    """사용 가능한 AI 모델 Enum"""
    GPT_41 = "gpt-4.1"
    CLAUDE_SONNET = "claude-sonnet-4.5"
    GEMINI_FLASH = "gemini-2.5-flash"
    DEEPSEEK_V3 = "deepseek-v3.2"

class ModelFallbackManager:
    """모델 폴백 관리자 - 장애 시 자동으로 하위 모델로 전환"""
    
    def __init__(self, client: HolySheepAIClient):
        self.client = client
        self.model_priority = [
            AIModel.GPT_41,
            AIModel.CLAUDE_SONNET,
            AIModel.GEMINI_FLASH,
            AIModel.DEEPSEEK_V3  # 가장 저렴한 폴백
        ]
        self.failure_counts = {}
        self.cooldown_period = 300  # 5분 쿨다운
    
    def _is_in_cooldown(self, model: AIModel) -> bool:
        """모델 쿨다운 상태 확인"""
        if model not in self.failure_counts:
            return False
        
        last_failure, count = self.failure_counts[model]
        if count >= 3 and (time.time() - last_failure) < self.cooldown_period:
            return True
        return False
    
    def _record_failure(self, model: AIModel):
        """실패 기록"""
        if model not in self.failure_counts:
            self.failure_counts[model] = (time.time(), 1)
        else:
            last_failure, count = self.failure_counts[model]
            self.failure_counts[model] = (time.time(), count + 1)
    
    def _reset_failures(self, model: AIModel):
        """성공 시 실패 카운터 초기화"""
        if model in self.failure_counts:
            del self.failure_counts[model]
    
    def execute_with_fallback(
        self,
        messages: list,
        fallback_hook: Optional[Callable] = None
    ) -> Optional[Dict[str, Any]]:
        """폴백策略이 적용된 실행"""
        
        errors = []
        
        for priority, model in enumerate(self.model_priority):
            if self._is_in_cooldown(model):
                errors.append(f"{model.value} - 쿨다운 중")
                continue
            
            try:
                result = self.client.chat_completion_with_retry(
                    messages=messages,
                    model=model.value,
                    temperature=0.7
                )
                
                if result:
                    self._reset_failures(model)
                    logger.info(f"성공: {model.value}")
                    return result
                
            except Exception as e:
                self._record_failure(model)
                errors.append(f"{model.value} - {str(e)}")
        
        # 모든 모델 실패 시 인간 개입 큐에 저장
        if fallback_hook:
            fallback_hook(messages, errors)
        
        logger.error(f"모든 모델 실패: {errors}")
        return None

def save_to_human_review_queue(messages: list, errors: list):
    """인간 검토 대기열에 저장"""
    import json
    queue_entry = {
        "messages": messages,
        "errors": errors,
        "timestamp": time.time(),
        "status": "pending_review"
    }
    with open("human_review_queue.jsonl", "a") as f:
        f.write(json.dumps(queue_entry) + "\n")
    logger.info("인간 검토 큐에 저장됨")

사용 예제
manager = ModelFallbackManager(client)
result = manager.execute_with_fallback(
    messages=[{"role": "user", "content": "긴 문서를 요약해줘"}],
    fallback_hook=save_to_human_review_queue
)

3. 서킷 브레이커 패턴 구현

일정 연속 실패 후 시스템 보호를 위해 서킷 브레이커 패턴을 적용합니다. 이는 연쇄적 장애를 방지하고 시스템을 안정적으로 유지합니다.

import threading
from datetime import datetime, timedelta
from enum import Enum

class CircuitState(Enum):
    CLOSED = "closed"      # 정상 상태
    OPEN = "open"          # 차단 상태
    HALF_OPEN = "half_open"  # 테스트 상태

class CircuitBreaker:
    """서킷 브레이커 구현"""
    
    def __init__(
        self,
        failure_threshold: int = 5,
        recovery_timeout: int = 60,
        success_threshold: int = 2
    ):
        self.failure_threshold = failure_threshold
        self.recovery_timeout = recovery_timeout
        self.success_threshold = success_threshold
        
        self._state = CircuitState.CLOSED
        self._failure_count = 0
        self._success_count = 0
        self._last_failure_time = None
        self._lock = threading.Lock()
    
    @property
    def state(self) -> CircuitState:
        with self._lock:
            if self._state == CircuitState.OPEN:
                if self._should_attempt_reset():
                    self._state = CircuitState.HALF_OPEN
            return self._state
    
    def _should_attempt_reset(self) -> bool:
        """리셋 시도 여부判定"""
        if self._last_failure_time is None:
            return False
        elapsed = (datetime.now() - self._last_failure_time).total_seconds()
        return elapsed >= self.recovery_timeout
    
    def record_success(self):
        """성공 기록"""
        with self._lock:
            self._success_count += 1
            if self._state == CircuitState.HALF_OPEN:
                if self._success_count >= self.success_threshold:
                    self._state = CircuitState.CLOSED
                    self._failure_count = 0
                    self._success_count = 0
                    logger.info("서킷 브레이커 복구됨")
    
    def record_failure(self):
        """실패 기록"""
        with self._lock:
            self._failure_count += 1
            self._last_failure_time = datetime.now()
            
            if self._failure_count >= self.failure_threshold:
                self._state = CircuitState.OPEN
                logger.warning(f"서킷 브레이커 열림: {self.failure_threshold}회 연속 실패")
    
    def can_execute(self) -> bool:
        """실행 가능 여부"""
        return self.state != CircuitState.OPEN

HolySheep AI와 서킷 브레이커 통합
circuit_breaker = CircuitBreaker(
    failure_threshold=5,
    recovery_timeout=60
)

def robust_chat_completion(messages: list, model: str = "gpt-4.1"):
    """서킷 브레이커가 적용된 채팅 완성"""
    
    if not circuit_breaker.can_execute():
        logger.error("서킷 브레이커가 열려있습니다 - 요청 거부")
        return {"error": "circuit_open", "message": "일시적 서비스 중단"}
    
    try:
        result = client.chat_completion_with_retry(
            messages=messages,
            model=model
        )
        
        if result:
            circuit_breaker.record_success()
            return result
        else:
            circuit_breaker.record_failure()
            return None
            
    except Exception as e:
        circuit_breaker.record_failure()
        raise e

상태 모니터링 엔드포인트
def get_circuit_status():
    return {
        "state": circuit_breaker.state.value,
        "failure_count": circuit_breaker.failure_count,
        "can_execute": circuit_breaker.can_execute()
    }

4. 인간 개입 시스템 설계

자동 복구로 해결되지 않는 케이스를 위해 인간 검토 대기열 시스템을 설계합니다. HolySheep AI의 안정적인 연결을 기본으로 하면서도, 인간 개입이 필요한 엣지 케이스를 놓치지 않습니다.

import json
import sqlite3
from datetime import datetime
from typing import Optional
from dataclasses import dataclass, asdict

@dataclass
class ReviewTask:
    """검토 대기열 항목"""
    id: str
    original_messages: list
    error_history: list
    attempts: int
    priority: str  # low, medium, high, critical
    created_at: str
    status: str  # pending, in_review, resolved, escalated
    
    def to_dict(self):
        return asdict(self)

class HumanInterventionSystem:
    """인간 개입 시스템 - 자동 복구 실패 시 활용"""
    
    def __init__(self, db_path: str = "intervention_queue.db"):
        self.db_path = db_path
        self._init_database()
    
    def _init_database(self):
        """데이터베이스 초기화"""
        conn = sqlite3.connect(self.db_path)
        cursor = conn.cursor()
        cursor.execute("""
            CREATE TABLE IF NOT EXISTS review_tasks (
                id TEXT PRIMARY KEY,
                original_messages TEXT,
                error_history TEXT,
                attempts INTEGER,
                priority TEXT,
                created_at TEXT,
                status TEXT
            )
        """)
        conn.commit()
        conn.close()
    
    def enqueue(
        self,
        task_id: str,
        messages: list,
        errors: list,
        attempts: int
    ):
        """검토 대기열에 추가"""
        
        # 우선순위 결정 로직
        priority = self._determine_priority(attempts, errors)
        
        task = ReviewTask(
            id=task_id,
            original_messages=json.dumps(messages),
            error_history=json.dumps(errors),
            attempts=attempts,
            priority=priority,
            created_at=datetime.now().isoformat(),
            status="pending"
        )
        
        conn = sqlite3.connect(self.db_path)
        cursor = conn.cursor()
        cursor.execute("""
            INSERT OR REPLACE INTO review_tasks VALUES (?, ?, ?, ?, ?, ?, ?)
        """, (
            task.id, task.original_messages, task.error_history,
            task.attempts, task.priority, task.created_at, task.status
        ))
        conn.commit()
        conn.close()
        
        logger.info(f"검토 대기열 추가: {task_id}, 우선순위: {priority}")
        return task
    
    def _determine_priority(self, attempts: int, errors: list) -> str:
        """우선순위 결정"""
        if attempts >= 5:
            return "critical"
        elif any("timeout" in str(e).lower() for e in errors):
            return "high"
        elif attempts >= 3:
            return "medium"
        return "low"
    
    def get_pending_tasks(self, limit: int = 10):
        """대기 중인 검토 항목 조회"""
        conn = sqlite3.connect(self.db_path)
        conn.row_factory = sqlite3.Row
        cursor = conn.cursor()
        cursor.execute("""
            SELECT * FROM review_tasks 
            WHERE status = 'pending'
            ORDER BY 
                CASE priority 
                    WHEN 'critical' THEN 1 
                    WHEN 'high' THEN 2 
                    WHEN 'medium' THEN 3 
                    ELSE 4 
                END,
                created_at ASC
            LIMIT ?
        """, (limit,))
        rows = cursor.fetchall()
        conn.close()
        
        return [dict(row) for row in rows]
    
    def resolve_task(self, task_id: str, resolution: str):
        """검토 완료 처리"""
        conn = sqlite3.connect(self.db_path)
        cursor = conn.cursor()
        cursor.execute("""
            UPDATE review_tasks 
            SET status = 'resolved', error_history = error_history || ?
            WHERE id = ?
        """, (f"|resolution:{resolution}", task_id))
        conn.commit()
        conn.close()
        logger.info(f"검토 완료: {task_id}")

통합 실행 함수
def execute_with_full_recovery(messages: list):
    """완전한 복구 시스템이 적용된 실행"""
    
    # 1단계: 일반 재시도
    result = client.chat_completion_with_retry(messages)
    if result:
        return result
    
    # 2단계: 모델 폴백
    fallback_manager = ModelFallbackManager(client)
    result = fallback_manager.execute_with_fallback(
        messages,
        fallback_hook=lambda m, e: intervention_system.enqueue(
            task_id=f"task_{int(time.time())}",
            messages=m,
            errors=e,
            attempts=3
        )
    )
    if result:
        return result
    
    # 3단계: 인간 개입 큐
    task_id = f"task_{int(time.time())}"
    intervention_system.enqueue(
        task_id=task_id,
        messages=messages,
        errors=["all_models_failed"],
        attempts=5
    )
    
    return {
        "status": "queued_for_review",
        "task_id": task_id,
        "message": "자동 복구 실패 - 인간 검토 대기열에 추가됨"
    }

초기화
intervention_system = HumanInterventionSystem()

자주 발생하는 오류와 해결책

1. HTTP 429 Rate Limit 초과 오류

증상: HolySheep AI 또는 원본 API에서 "Too Many Requests" 응답 발생

# 해결책: Rate Limit 감지 및 적절한 백오프
def handle_rate_limit(response: requests.Response, attempt: int) -> float:
    if response.status_code == 429:
        # Retry-After 헤더 확인
        retry_after = response.headers.get("Retry-After")
        if retry_after:
            return float(retry_after)
        # 없으면 지수적 백오프
        return min(2 ** attempt * 10, 300)  # 최대 5분
    return 0

2. 연결 시간 초과 (Connection Timeout)

증상: requests.exceptions.ConnectTimeout, 平均 지연 30초 이상

# 해결책: 타임아웃 설정 및 빠른 실패
session = requests.Session()
session.mount(
    'https://api.holysheep.ai',
    requests.adapters.HTTPAdapter(
        max_retries=0,  # 어댑터에서 재시도 안 함 (우리 로직 사용)
        timeout=Timeout(connect=5, read=25)  # 연결 5초, 읽기 25초
    )
)

3. JSON 파싱 오류 (Invalid Response)

증상: response.json() 호출 시 JSONDecodeError, 빈 응답

# 해결책: 응답 유효성 검사 및 폴백
def safe_parse_response(response: requests.Response) -> Optional[dict]:
    try:
        if not response.content:
            logger.error("빈 응답 본문")
            return None
관련 리소스
📚 AI API 기술 문서
💰 요금제 보기
📖 개발자 문서
🚀 무료 가입
관련 문서
Claude Desktop MCP Server 구축 완전 가이드: 로컬 도구 확장 실전
LitServe로 손쉽게 LLM 서비스를 구축하는 완전 가이드
Meta-Prompting: AI가 스스로 Prompt를 최적화하는 기술

핵심 결론 요약

주요 AI API 서비스 비교

1. 기본 재시도 메커니즘 구현

사용 예제

2. 모델 폴백(Fallback) 전략

사용 예제

3. 서킷 브레이커 패턴 구현

HolySheep AI와 서킷 브레이커 통합

상태 모니터링 엔드포인트

4. 인간 개입 시스템 설계

통합 실행 함수

초기화

자주 발생하는 오류와 해결책

1. HTTP 429 Rate Limit 초과 오류

2. 연결 시간 초과 (Connection Timeout)

3. JSON 파싱 오류 (Invalid Response)

관련 리소스

관련 문서

🔥 HolySheep AI를 사용해 보세요