LangChain检索增强生成实战：PDF文档智能问答方案完全指南

作为在AI工程领域摸爬滚打5年的老兵，我用过的RAG方案没有20个也有15个了。去年做企业知识库项目时，团队踩过的坑能写成一本书——从初期的向量数据库选型到PDF解析的各种奇葩问题，每一步都是血泪教训。今天把这套经过生产环境验证的LangChain + RAG方案完整分享出来，重点聊聊如何用Holysheep AI的API把成本打下来，同时保证响应速度在50ms以内。

为什么选择RAG做PDF智能问答

先说个真实案例。去年某律所客户需要处理2000+份法律文书，传统的关键词搜索准确率只有60%，律师们怨声载道。换成RAG方案后，语义理解准确率直接拉到92%，平均每个问题的响应时间从8秒降到1.2秒。这背后的技术原理其实不复杂：先把PDF转成向量存入向量数据库，查询时通过语义匹配找到最相关的段落，再让大模型基于这些上下文生成答案。

核心技术架构

整个系统分为4层：PDF预处理层、向量嵌入层、检索层和生成层。我用的技术栈是LangChain + ChromaDB + Holysheep AI，这个组合在实测中延迟最低、兼容性最好。

环境准备和依赖安装

# Python 3.10+ required
创建虚拟环境
python -m venv rag_env
source rag_env/bin/activate  # Linux/Mac
rag_env\Scripts\activate  # Windows

安装核心依赖
pip install langchain==0.1.20
pip install langchain-community==0.0.38
pip install chromadb==0.4.24
pip install pypdf==4.2.0
pip install unstructured==0.12.6
pip install openai==1.14.0
pip install tiktoken==0.7.0
pip install faiss-cpu==1.8.0

PDF文档处理核心代码

import os
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_openai import ChatOpenAI
from langchain.chains import RetrievalQA
import hashlib

============================================
1. Holysheep AI 配置 - 核心修改点
============================================
os.environ["OPENAI_API_BASE"] = "https://api.holysheep.ai/v1"
os.environ["OPENAI_API_KEY"] = "YOUR_HOLYSHEEP_API_KEY"  # 替换为你的API Key

模型配置 - Holysheep支持GPT-4.1、Claude、Sonnet等
LLM_MODEL = "gpt-4.1"  # $8/MTok，性价比最高
EMBEDDING_MODEL = "text-embedding-3-small"  # 嵌入模型

class PDFRAGSystem:
    def __init__(self, pdf_path: str, persist_directory: str = "./chroma_db"):
        self.pdf_path = pdf_path
        self.persist_directory = persist_directory
        self.vectorstore = None
        self.qa_chain = None
        
        # 初始化文本分割器 - 针对中文优化
        self.text_splitter = RecursiveCharacterTextSplitter(
            chunk_size=1000,
            chunk_overlap=200,
            length_function=len,
            separators=["\n\n", "\n", "。", "！", "？", " ", ""]
        )
        
        # 初始化嵌入模型
        self.embeddings = HuggingFaceEmbeddings(
            model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
            model_kwargs={'device': 'cpu'}
        )
        
        # 初始化LLM - 使用Holysheep
        self.llm = ChatOpenAI(
            model=LLM_MODEL,
            temperature=0.3,
            max_tokens=2000
        )
    
    def load_and_process_pdf(self) -> list:
        """加载并分割PDF文档"""
        print(f"📄 正在加载: {self.pdf_path}")
        
        loader = PyPDFLoader(self.pdf_path)
        documents = loader.load()
        
        print(f"✅ 加载完成，共 {len(documents)} 页")
        
        # 分割文档
        texts = self.text_splitter.split_documents(documents)
        print(f"✂️ 分割完成，生成 {len(texts)} 个文本块")
        
        # 添加元数据
        for i, text in enumerate(texts):
            text.metadata["chunk_id"] = i
            text.metadata["source"] = os.path.basename(self.pdf_path)
            # 生成文档哈希用于去重
            text.metadata["content_hash"] = hashlib.md5(
                text.page_content.encode()
            ).hexdigest()
        
        return texts
    
    def create_vectorstore(self, texts: list):
        """创建向量数据库"""
        print("🔢 正在生成向量嵌入...")
        
        self.vectorstore = Chroma.from_documents(
            documents=texts,
            embedding=self.embeddings,
            persist_directory=self.persist_directory
        )
        
        print(f"💾 向量数据库已保存到: {self.persist_directory}")
        return self.vectorstore
    
    def setup_qa_chain(self):
        """设置问答链"""
        print("🔗 正在构建检索问答链...")
        
        # 检索器配置
        retriever = self.vectorstore.as_retriever(
            search_type="similarity",
            search_kwargs={
                "k": 5,  # 返回Top-5相关片段
                "score_threshold": 0.7  # 相似度阈值
            }
        )
        
        # 构建QA链
        self.qa_chain = RetrievalQA.from_chain_type(
            llm=self.llm,
            chain_type="stuff",
            retriever=retriever,
            return_source_documents=True,
            verbose=True
        )
        
        print("✅ 问答链构建完成！")
        return self.qa_chain
    
    def query(self, question: str) -> dict:
        """执行问答查询"""
        if not self.qa_chain:
            raise ValueError("请先调用 setup_qa_chain() 初始化系统")
        
        print(f"🔍 正在检索相关文档...")
        result = self.qa_chain({"query": question})
        
        return {
            "answer": result["result"],
            "sources": [
                {
                    "page": doc.metadata.get("page", "N/A"),
                    "content": doc.page_content[:200] + "..."
                }
                for doc in result["source_documents"]
            ]
        }

使用示例
if __name__ == "__main__":
    # 初始化系统
    rag_system = PDFRAGSystem(
        pdf_path="./documents/legal_contract.pdf",
        persist_directory="./chroma_legal_db"
    )
    
    # 加载文档
    texts = rag_system.load_and_process_pdf()
    
    # 创建向量库
    rag_system.create_vectorstore(texts)
    
    # 设置问答
Tài nguyên liên quan
📚 Hướng dẫn AI API
💰 Xem giá
📖 Tài liệu nhà phát triển
🚀 Đăng ký miễn phí
Bài viết liên quan
DeepSeek API Key轮换：安全与自动化管理方案
LangChain集成HolySheep多模型路由实战：从入门到生产
加密货币量化策略回测：历史数据质量与API选择完整指南

为什么选择RAG做PDF智能问答

核心技术架构

环境准备和依赖安装

创建虚拟环境

rag_env\Scripts\activate # Windows

安装核心依赖

PDF文档处理核心代码

============================================

1. Holysheep AI 配置 - 核心修改点

============================================

模型配置 - Holysheep支持GPT-4.1、Claude、Sonnet等

使用示例

Tài nguyên liên quan

Bài viết liên quan

🔥 Thử HolySheep AI