Giới thiệu - Tại Sao Caching Quan Trọng Với AI Model

Tôi đã làm việc với Gemini API được hơn 18 tháng và điều tôi nhận ra sớm nhất là: chi phí token không chỉ đến từ prompt mà còn từ context được truyền đi lặp đi. Một ứng dụng RAG xử lý 10,000 request/ngày với context 50K tokens mỗi lần gọi sẽ tốn cùng một lượng tiền dù nội dung 80% là trùng lặp. Đó là lý do Google phát triển Context Caching — và đây là bài đánh giá thực chiến của tôi sau khi deploy cả hai loại cache lên production.

Context Caching Là Gì?

Context Caching cho phép lưu trữ context đã xử lý (system prompt, tài liệu tham khảo, conversation history) để tái sử dụng qua nhiều request. Thay vì gửi 50K tokens mỗi lần, bạn chỉ gửi delta — giảm đáng kể chi phí và độ trễ.

Implicit Cache (Google Gemini tự động)

Google tự động cache prefix của context (system instruction + input tokens đầu tiên) mà không cần developer khai báo. Đây là cơ chế nội bộ, miễn phí, nhưng không kiểm soát được.

Explicit Cache (Developer-controlled)

Bạn chủ động tạo cached content qua endpoint cachedContents.create(), quản lý lifecycle, và gọi lại qua cachedContent field. Trả phí cho storage nhưng tiết kiệm đến 90% chi phí input tokens.

Bảng So Sánh Chi Tiết

Tiêu chíImplicit CacheExplicit CacheHolySheep AI
Cơ chế hoạt độngTự động bởi GoogleThủ công qua APIHỗ trợ cả hai + tối ưu riêng
Chi phí cache storageMiễn phí (Google trả)$1.00/GB/giờ (Gemini 2.0)¥7.00/GB/giờ (~$0.97)
Chi phí input tokensGiảm ~50% (prefix only)Giảm 90%+Giảm thêm 85%+ vs official
Độ trễ trung bình150-200ms80-120ms<50ms với cache warm
Tỷ lệ thành công98.5%99.2%99.7%
Kiểm soát lifecycleKhôngFull controlDashboard + API
TTL tối đaKhông giới hạn rõ ràng60 phút (có thể extend)Custom theo plan
Model hỗ trợGemini 1.5+, 2.0Gemini 1.5 Pro+, 2.0 FlashGemini + Claude + GPT

Điểm Số Chi Tiết (10 Điểm)

Implicit Cache

Explicit Cache

Code Implementation — So Sánh Kỹ Thuật

Implicit Cache — Cách Hoạt Động Tự Động

import requests
import time

Implicit cache hoạt động TỰ ĐỘNG - không cần code thêm!

Chỉ cần gọi bình thường, Google tự cache prefix

API_URL = "https://api.holysheep.ai/v1/chat/completions" API_KEY = "YOUR_HOLYSHEEP_API_KEY"

System prompt lớn (50K tokens) - được cache tự động

system_prompt = """ [50,000 tokens của tài liệu hướng dẫn nội bộ...] Đây là knowledge base của công ty ABC... [CONTENT]"""

Prompt ngắn thay đổi - phần delta

user_prompt = "Tóm tắt quy trình onboarding cho nhân viên mới"