Deribit BTC Options การทำความสะอาดข้อมูล Tick-by-Tick: คู่มือสร้าง Backtesting Data Lake สำหรับทีม Quantitative

ในโลกของ DeFi และ Cryptocurrency Trading การเทรด BTC Options บน Deribit เป็นหนึ่งในตลาดที่มีสภาพคล่องสูงที่สุด แต่ข้อมูลดิบที่ได้จาก Tardis API นั้นเต็มไปด้วย noise และความผิดพลาดที่ต้องทำความสะอาดก่อนนำไปใช้สร้างโมเดล Machine Learning หรือระบบ Backtesting บทความนี้จะพาคุณเรียนรู้วิธีการสร้าง Data Pipeline ที่มีประสิทธิภาพสำหรับทีม Quantitative โดยเฉพาะ

ทำไมต้องทำความสะอาดข้อมูล Deribit Options

ข้อมูล Options จาก Deribit นั้นมีความซับซ้อนกว่า Spot หรือ Futures ปกติ เนื่องจากมีโครงสร้างที่หลากหลาย ทั้ง Strike Price, Expiry Date, Option Type (Call/Put), และ Implied Volatility ที่เปลี่ยนแปลงตลอดเวลา การนำข้อมูลดิบไปใช้โดยไม่ผ่านกระบวนการ Cleaning จะทำให้โมเดลของคุณมีความแม่นยำต่ำและอาจนำไปสู่การตัดสินใจที่ผิดพลาดได้

สถาปัตยกรรม Data Pipeline สำหรับ BTC Options

การสร้างระบบ Data Lake ที่มีประสิทธิภาพต้องอาศัยการออกแบบที่ถูกต้อง โดยเราจะแบ่งกระบวนการออกเป็น 4 ขั้นตอนหลัก ดังนี้:

Data Ingestion: ดึงข้อมูลจาก Tardis API ด้วย WebSocket หรือ REST API
Data Validation: ตรวจสอบความถูกต้องของข้อมูลและ schema
Data Cleaning: กำจัด outliers, จัดการ missing values, และ normalize ข้อมูล
Data Storage: เก็บข้อมูลที่ผ่านการประมวลผลลง Parquet หรือ Delta Lake

การตั้งค่า Tardis API และการดึงข้อมูล

ขั้นตอนแรกคือการเชื่อมต่อกับ Tardis API เพื่อดึงข้อมูล Deribit BTC Options อย่างต่อเนื่อง ต่อไปนี้คือตัวอย่างโค้ดการตั้งค่าเริ่มต้น:

import asyncio
import json
from tardis TardisClient
from datetime import datetime, timedelta

class DeribitOptionsCollector:
    def __init__(self, api_key: str):
        self.client = TardisClient(api_key=api_key)
        self.exchange = "deribit"
        self.bookings = []
        
    async def collect_tick_data(
        self,
        instrument: str,
        start_date: datetime,
        end_date: datetime
    ):
        """ดึงข้อมูล tick-by-tick สำหรับ BTC Options"""
        
        # กรองเฉพาะ BTC Options
        if not instrument.startswith("BTC"):
            raise ValueError("รองรับเฉพาะ BTC Options เท่านั้น")
        
        # ตั้งค่า filters
        filters = {
            "type": ["book", "trade", "ticker"],
            "exchange": self.exchange
        }
        
        # ใช้ Tardis SDK สำหรับ Historical Replay
        async for line in self.client.replay(
            exchange=self.exchange,
            instruments=[instrument],
            from_time=start_date,
            to_time=end_date,
            filters=filters
        ):
            yield self._parse_message(line)
    
    def _parse_message(self, message: dict) -> dict:
        """Parse ข้อความจาก Tardis ให้อยู่ในรูปแบบมาตรฐาน"""
        msg_type = message.get("type", "unknown")
        
        parsed = {
            "timestamp": message.get("timestamp"),
            "local_timestamp": message.get("local_timestamp"),
            "type": msg_type,
            "instrument": message.get("data", {}).get("instrument_name"),
            "exchange": self.exchange
        }
        
        if msg_type == "book":
            parsed["bids"] = message["data"].get("bids", [])
            parsed["asks"] = message["data"].get("asks", [])
            parsed["spread"] = self._calculate_spread(
                parsed["bids"], 
                parsed["asks"]
            )
            
        elif msg_type == "trade":
            parsed["price"] = message["data"].get("price")
            parsed["amount"] = message["data"].get("amount")
            parsed["side"] = message["data"].get("direction")
            parsed["trade_id"] = message["data"].get("trade_id")
            
        elif msg_type == "ticker":
            parsed["best_bid"] = message["data"].get("best_bid_price")
            parsed["best_ask"] = message["data"].get("best_ask_price")
            parsed["last"] = message["data"].get("last_price")
            parsed["mark_price"] = message["data"].get("mark_price")
            parsed["underlying_price"] = message["data"].get("underlying_price")
            parsed["interest_rate"] = message["data"].get("interest_rate")
            
        return parsed

ตัวอย่างการใช้งาน
async def main():
    collector = DeribitOptionsCollector(api_key="YOUR_TARDIS_API_KEY")
    
    start = datetime(2026, 4, 1)
    end = datetime(2026, 4, 30)
    
    async for tick in collector.collect_tick_data(
        instrument="BTC-28MAR26-95000-C",
        start_date=start,
        end_date=end
    ):
        print(f"[{tick['timestamp']}] {tick['type']}: {tick.get('price', tick.get('last'))}")
        # ส่งไปยัง Data Processing Pipeline
        
if __name__ == "__main__":
    asyncio.run(main())

การทำความสะอาดข้อมูลและจัดการ Outliers

หลังจากได้ข้อมูลดิบแล้ว ขั้นตอนสำคัญคือการทำความสะอาด ซึ่งรวมถึงการจัดการ Stale Quotes, การกรอง Trades ที่ผิดปกติ, และการคำนวณ Implied Volatility ใหม่ ต่อไปนี้คือโค้ดที่แสดงกระบวนการ Cleaning ที่สมบูรณ์:

import pandas as pd
import numpy as np
from dataclasses import dataclass
from typing import List, Optional, Tuple
from scipy.stats import zscore
from scipy.interpolate import interp1d

@dataclass
class CleaningConfig:
    max_bid_ask_spread_bps: float = 50.0  # Maximum spread 50 bps
    min_trade_size: float = 0.01  # Minimum 0.01 BTC
    max_trade_size: float = 100.0  # Maximum 100 BTC
    stale_threshold_ms: int = 5000  # ข้อมูลเก่าเกิน 5 วินาทีถือว่า stale
    zscore_threshold: float = 5.0  # Z-score threshold for outlier detection

class DeribitOptionsCleaner:
    def __init__(self, config: CleaningConfig = None):
        self.config = config or CleaningConfig()
        self.stats = {
            "total_records": 0,
            "stale_removed": 0,
            "spread_filtered": 0,
            "outliers_removed": 0,
            "size_filtered": 0
        }
        
    def clean_trades(self, df: pd.DataFrame) -> pd.DataFrame:
        """ทำความสะอาดข้อมูล Trade"""
        self.stats["total_records"] += len(df)
        
        # กรอง by size
        before = len(df)
        df = df[
            (df["amount"] >= self.config.min_trade_size) &
            (df["amount"] <= self.config.max_trade_size)
        ]
        self.stats["size_filtered"] += before - len(df)
        
        # กรอง by spread (ต้องใช้ข้อมูล orderbook คู่กัน)
        df = self._remove_abnormal_spread(df)
        
        # กำจัด Outliers โดยใช้ Z-score
        df = self._remove_price_outliers(df)
        
        # กรอง by timestamp (remove duplicates)
        df = df.drop_duplicates(subset=["trade_id"], keep="last")
        
        return df
    
    def clean_tickers(self, df: pd.DataFrame) -> pd.DataFrame:
        """ทำความสะอาดข้อมูล Ticker"""
        # กรอง stale data
        df = self._remove_stale_tickers(df)
        
        # คำนวณและเติม IV หากไม่มี
        if "mark_iv" not in df.columns:
            df = self._calculate_implied_volatility(df)
            
        # กรอง IV ที่ผิดปกติ (ต้องอยู่ระหว่าง 0.1 - 5.0)
        df = df[
            (df["mark_iv"] >= 0.1) & 
            (df["mark_iv"] <= 5.0)
        ]
        
        return df
    
    def _remove_abnormal_spread(self, trades_df: pd.DataFrame) -> pd.DataFrame:
        """กรอง trades ที่เกิดขึ้นในช่วง spread กว้างผิดปกติ"""
        if "spread_bps" not in trades_df.columns:
            return trades_df
            
        before = len(trades_df)
        trades_df = trades_df[
            trades_df["spread_bps"] <= self.config.max_bid_ask_spread_bps
        ]
        self.stats["spread_filtered"] += before - len(trades_df)
        return trades_df
    
    def _remove_price_outliers(self, df: pd.DataFrame) -> pd.DataFrame:
        """กำจัด outliers โดยใช้ Z-score และ rolling statistics"""
        if len(df) < 10:
            return df
            
        # ใช้ Rolling Z-score เพื่อจับ local outliers
        df = df.copy()
        df["price_rolling_mean"] = df["price"].rolling(
            window=min(50, len(df)), 
            center=True, 
            min_periods=5
        ).mean()
        df["price_rolling_std"] = df["price"].rolling(
            window=min(50, len(df)), 
            center=True, 
            min_periods=5
        ).std()
        
        df["zscore"] = np.abs(
            (df["price"] - df["price_rolling_mean"]) / 
            df["price_rolling_std"].replace(0, np.nan)
        )
        
        before = len(df)
        df = df[df["zscore"] <= self.config.zscore_threshold]
        self.stats["outliers_removed"] += before - len(df)
        
        # ลบ columns ชั่วคราว
        df = df.drop(columns=[
            "price_rolling_mean", 
            "price_rolling_std", 
            "zscore"
        ], errors="ignore")
        
        return df
    
    def _remove_stale_tickers(self, df: pd.DataFrame) -> pd.DataFrame:
        """กรอง ticker ที่เก่าเกิน threshold"""
        before = len(df)
        
        if "timestamp" in df.columns:
            df["time_diff"] = df["timestamp"].diff()
            df = df[df["time_diff"] <= self.config.stale_threshold_ms]
            df = df.drop(columns=["time_diff"])
            
        self.stats["stale_removed"] += before - len(df)
        return df
    
    def _calculate_implied_volatility(
        self, 
        df: pd.DataFrame,
        risk_free_rate: float = 0.05
    ) -> pd.DataFrame:
        """คำนวณ IV จาก mark_price โดยใช้ Black-Scholes"""
        from scipy.optimize import brentq
        
        def bs_call_price(S, K, T, r, sigma):
            from math import sqrt, exp, log, erf
            d1 = (log(S/K) + (r + sigma**2/2)*T) / (sigma*sqrt(T))
            d2 = d1 - sigma*sqrt(T)
            return S*0.5*(1 + erf(d1/sqrt(2))) - K*exp(-r*T)*0.5*(1 + erf(d2/sqrt(2)))
        
        def implied_volatility(market_price, S, K, T, r):
            if T <= 0 or market_price <= 0:
                return np.nan
            try:
                return brentq(
                    lambda sigma: bs_call_price(S, K, T, r, sigma) - market_price,
                    0.001, 10.0
                )
            except:
                return np.nan
        
        df = df.copy()
        
        # คำนวณ T (time to expiry ในปี)
        if "expiry_timestamp" in df.columns:
            df["T"] = (df["expiry_timestamp"] - df["timestamp"]) / (365 * 24 * 3600 * 1000)
        else:
            df["T"] = 30 / 365  # Default 30 วัน
            
        # สกัด strike จาก instrument name
        def extract_strike(instrument_name):
            try:
                parts = instrument_name.split("-")
                if len(parts) >= 3:
                    return float(parts[2])
            except:
                pass
            return np.nan
            
        df["strike"] = df["instrument"].apply(extract_strike)
        
        # คำนวณ IV สำหรับแต่ละ row
        df["mark_iv"] = df.apply(
            lambda row: implied_volatility(
                row.get("mark_price", 0),
                row.get("underlying_price", 0),
                row.get("strike", 0),
                row.get("T", 0),
                risk_free_rate
            ) if row.get("mark_price", 0) > 0 else np.nan,
            axis=1
        )
        
        return df
    
    def get_cleaning_report(self) -> dict:
        """สร้างรายงานสรุปการทำความสะอาด"""
        total_cleaned = sum([
            self.stats["stale_removed"],
            self.stats["spread_filtered"],
            self.stats["outliers_removed"],
            self.stats["size_filtered"]
        ])
        
        return {
            **self.stats,
            "total_cleaned": total_cleaned,
            "clean_rate": (
                (self.stats["total_records"] - total_cleaned) / 
                self.stats["total_records"] * 100
                if self.stats["total_records"] > 0 else 0
            )
        }

ตัวอย่างการใช้งาน
cleaner = DeribitOptionsCleaner()
df_cleaned = cleaner.clean_trades(df_raw)
report = cleaner.get_cleaning_report()
print(f"Cleaning Report: {report}")

การสร้าง Data Lake ด้วย Parquet และ Partitioning

เมื่อข้อมูลผ่านการทำความสะอาดแล้ว ขั้นตอนถัดไปคือการจัดเก็บลง Data Lake เพื่อให้สามารถ query และใช้งานในการ backtest ได้อย่างมีประสิทธิภาพ การใช้ Parquet format พร้อมกับ partitioning ที่เหมาะสมจะช่วยให้การอ่านข้อมูลเร็วขึ้นหลายเท่า:

import pyarrow as pa
import pyarrow.parquet as pq
from pathlib import Path
from typing import Literal

class DeribitDataLake:
    """จัดการ Data Lake สำหรับ Deribit BTC Options"""
    
    def __init__(
        self, 
        base_path: str = "./data/deribit_data_lake",
        partition_by: list = ["year", "month", "instrument_type"]
    ):
        self.base_path = Path(base_path)
        self.partition_by = partition_by
        
    def save_cleaned_data(
        self,
        df: pd.DataFrame,
        data_type: Literal["trades", "tickers", "orderbook"],
        table_name: str = None
    ):
        """บันทึกข้อมูลที่ทำความสะอาดแล้วลง Data Lake"""
        
        # เพิ่ม partition columns
        df = self._add_partition_columns(df)
        
        # กำหนด table name
        if table_name is None:
            table_name = f"btc_options_{data_type}"
            
        # สร้าง path ตาม partitioning
        output_path = self.base_path / table_name
        
        # ใช้ PyArrow สำหรับ efficient storage
        table = pa.Table.from_pandas(df)
        
        # บันทึกเป็น Parquet partitioned
        pq.write_to_dataset(
            table,
            root_path=str(output_path),
            partition_cols=self.partition_by,
            compression="snappy",
            use_dictionary=True
        )
        
        print(f"✅ บันทึก {len(df)} records ไปยัง {output_path}")
        
    def _add_partition_columns(self, df: pd.DataFrame) -> pd.DataFrame:
        """เพิ่ม columns สำหรับ partitioning"""
        df = df.copy()
        
        if "timestamp" in df.columns:
            df["datetime"] = pd.to_datetime(df["timestamp"], unit="ms")
            df["year"] = df["datetime"].dt.year
            df["month"] = df["datetime"].dt.month
            df["day"] = df["datetime"].dt.day
            df["hour"] = df["datetime"].dt.hour
            
        # แยกประเภท Options (Call/Put)
        if "instrument" in df.columns:
            df["option_type"] = df["instrument"].apply(
                lambda x: "C" if "-C" in str(x) else ("P" if "-P" in str(x) else "UNKNOWN")
            )
            df["instrument_type"] = df["option_type"]
            
        return df
    
    def read_with_filters(
        self,
        table_name: str,
        start_date: pd.Timestamp,
        end_date: pd.Timestamp,
        option_type: str = None,
        strike_range: Tuple[float, float] = None,
        columns: list = None
    ) -> pd.DataFrame:
        """อ่านข้อมูลพร้อมกับ filters"""
        
        path = self.base_path / table_name
        
        # สร้าง filter expression สำหรับ PyArrow
        filters = []
        
        if start_date:
            filters.append(("year", ">=", start_date.year))
            filters.append(("month", ">=", start_date.month))
            
        if end_date:
            filters.append(("year", "<=", end_date.year))
            filters.append(("month", "<=", end_date.month))
            
        if option_type:
            filters.append(("option_type", "=", option_type))
            
        # อ่านข้อมูล
        table = pq.read_table(
            str(path),
            filters=filters if filters else None,
            columns=columns
        )
        
        df = table.to_pandas()
        
        # Filter by strike range (หลังจากอ่านแล้ว)
        if strike_range and "strike" in df.columns:
            df = df[
                (df["strike"] >= strike_range[0]) &
                (df["strike"] <= strike_range[1])
            ]
            
        return df
    
    def get_data_summary(self, table_name: str) -> dict:
        """สรุปข้อมูลใน Data Lake"""
        path = self.base_path / table_name
        
        # อ่าน metadata
        parquet_file = pq.ParquetFile(str(path))
        schema = parquet_file.schema
        
        # นับ records โดยใช้ Parquet statistics
        total_rows = 0
        row_groups = parquet_file.metadata.num_row_groups
        
        for i in range(row_groups):
            rg = parquet_file.metadata.row_group(i)
            total_rows += rg.num_rows
            
        return {
            "table_name": table_name,
            "path": str(path),
            "total_rows": total_rows,
            "row_groups": row_groups,
            "columns": [schema.column(i).name for i in range(schema.num_columns)],
            "file_size_mb": sum(
                f.stat().st_size for f in Path(path).rglob("*.parquet")
            ) / (1024 * 1024)
        }

ตัวอย่างการใช้งาน
datalake = DeribitDataLake(
    base_path="/mnt/data/deribit_lake",
    partition_by=["year", "month", "option_type"]
)

บันทึกข้อมูลที่ทำความสะอาดแล้ว
datalake.save_cleaned_data(df_cleaned, data_type="trades")

อ่านข้อมูลสำหรับ backtest
df_backtest = datalake.read_with_filters(
    table_name="btc_options_trades",
    start_date=pd.Timestamp("2026-04-01"),
    end_date=pd.Timestamp("2026-04-30"),
    option_type="C",
    strike_range=(90000, 110000)
)

summary = datalake.get_data_summary("btc_options_trades")
print(f"Data Lake Summary: {summary}")

การประยุกต์ใช้ AI สำหรับ Pattern Recognition ใน Options Data

นอกจากการทำความสะอาดข้อมูลแล้ว ทีม Quantitative สามารถใช้ AI ในการวิเคราะห์ patterns และสร้าง signals จากข้อมูล Options ที่ผ่านการ cleaning แล้ว ซึ่ง HolySheep AI นำเสนอ API ที่มีความเร็วตอบสนองต่ำกว่า 50ms รองรับโมเดลหลากหลาย เช่น GPT-4.1, Claude Sonnet 4.5, Gemini 2.5 Flash และ DeepSeek V3.2 ในราคาที่ประหยัดกว่า 85% เมื่อเทียบกับผู้ให้บริการอื่น

เหมาะกับใคร / ไม่เหมาะกับใคร

เหมาะกับ	ไม่เหมาะกับ
ทีม Quantitative Trading ที่ต้องการ Data Pipeline สำหรับ Backtesting	ผู้เริ่มต้นที่ยังไม่มีความรู้เรื่อง Cryptocurrency Options
นักพัฒนาระบบ AI/ML ที่ต้องการข้อมูลราคาที่สะอาด	ผู้ที่ต้องการแค่ข้อมูล Spot Trading ไม่เกี่ยวกับ Options
Hedge Funds และ Prop Trading Firms	ผู้ที่มีงบประมาณจำกัดมากและไม่สามารถเข้าถึง Tardis API
นักวิจัยด้าน DeFi และ Blockchain Analytics	องค์กรที่ต้องการ UI/UX Dashboard สำเร็จรูปโดยไม่ต้องเขียนโค้ด

ราคาและ ROI

บริการ	ราคา (ต่อ Million Tokens)	หมายเหตุ
GPT-4.1 (OpenAI)	$8.00	โมเดลระดับสูงสุด
Claude Sonnet 4.5 (Anthropic)	$15.00	เหมาะกับงาน Complex Reasoning
Gemini 2.5 Flash (Google)	$2.50	ความเร็วสูง ราคาประหยัด
DeepSeek V3.2	$0.42	ราคาถูกที่สุด คุ้มค่ามาก
Tardis API (Historical Data)	เริ่มต้น $99/เดือน	รวม Deribit, Binance, FTX ฯลฯ
HolySheep AI	อัตรา 1 ดอลลาร์ = 1 หยวน (ประหยัด 85%+)	รองรับ OpenAI, Anthropic, Google API ทั้งหมด

การใช้ HolySheep AI สำหรับ Pattern Recognition ใน Options Data สามารถประหยัดค่าใช้จ่ายได้มากกว่า 85% เมื่อเทียบกับการใช้งานผ่านช่องทางตรง ความหน่วงต่

Deribit BTC Options การทำความสะอาดข้อมูล Tick-by-Tick: คู่มือสร้าง Backtesting Data Lake สำหรับทีม Quantitative

ทำไมต้องทำความสะอาดข้อมูล Deribit Options

สถาปัตยกรรม Data Pipeline สำหรับ BTC Options

การตั้งค่า Tardis API และการดึงข้อมูล

ตัวอย่างการใช้งาน

การทำความสะอาดข้อมูลและจัดการ Outliers

ตัวอย่างการใช้งาน

การสร้าง Data Lake ด้วย Parquet และ Partitioning

ตัวอย่างการใช้งาน

บันทึกข้อมูลที่ทำความสะอาดแล้ว

อ่านข้อมูลสำหรับ backtest

การประยุกต์ใช้ AI สำหรับ Pattern Recognition ใน Options Data

เหมาะกับใคร / ไม่เหมาะกับใคร

ราคาและ ROI

แหล่งข้อมูลที่เกี่ยวข้อง

บทความที่เกี่ยวข้อง

ทำไมต้องทำความสะอาดข้อมูล Deribit Options

สถาปัตยกรรม Data Pipeline สำหรับ BTC Options

การตั้งค่า Tardis API และการดึงข้อมูล

ตัวอย่างการใช้งาน

การทำความสะอาดข้อมูลและจัดการ Outliers

ตัวอย่างการใช้งาน

การสร้าง Data Lake ด้วย Parquet และ Partitioning

ตัวอย่างการใช้งาน

บันทึกข้อมูลที่ทำความสะอาดแล้ว

อ่านข้อมูลสำหรับ backtest

การประยุกต์ใช้ AI สำหรับ Pattern Recognition ใน Options Data

เหมาะกับใคร / ไม่เหมาะกับใคร

ราคาและ ROI

แหล่งข้อมูลที่เกี่ยวข้อง

บทความที่เกี่ยวข้อง

🔥 ลอง HolySheep AI