在加密货币衍生品市场,期权链(Options Chain)与资金费率(Funding Rate)是理解市场结构的核心数据源。Tardis作为一家专业的数据提供商,提供了交易所级别的原始交易数据,并以CSV格式输出。本文我将详细讲解如何从零开始处理Tardis导出的CSV数据集,完成期权链分析与资金费率研究。
Tardis是什么?数据格式解析
Tardis是一家为量化交易者提供加密货币交易所历史数据的平台。他们收集了包括Binance、Bybit、OKX等主流交易所的原始订单簿、成交记录、资金费率等数据,并以结构化的CSV文件形式提供下载。对于期权链分析,Tardis提供完整的希腊字母数据(Greeks)、波动率曲面(Volatility Surface)以及行权价分布。
Tardis导出的CSV文件通常包含以下核心字段:
- timestamp:Unix时间戳(毫秒级),用于时间序列分析
- symbol:交易对标识符,如BTC-28MAR25-95000-C(看涨期权)
- strike_price:行权价格
- expiry_date:到期日
- option_type:期权类型(C=看涨,P=看跌)
- open_interest:未平仓合约数
- volume:成交量
- mark_price:标记价格(理论价格)
- implied_volatility:隐含波动率
- delta、gamma、theta、vega:希腊字母指标
环境准备:Python依赖安装
在开始之前,请确保已安装必要的Python库。我们将使用pandas进行数据处理,matplotlib进行可视化。
# 安装必要的Python库
pip install pandas matplotlib numpy
验证安装
python -c "import pandas; import matplotlib; print('环境配置成功')"
对于处理大型CSV文件(单个文件可能超过数GB),建议使用pandas的chunksize参数分块读取,以避免内存溢出。
第一步:数据加载与预处理
将Tardis导出的CSV文件加载到pandas DataFrame中,并进行基础清洗。注意Tardis的CSV文件通常使用UTF-8编码,但部分字段可能包含交易所特定的格式。
import pandas as pd
import numpy as np
from datetime import datetime
加载Tardis CSV数据
data_path = 'tardis_options_data.csv'
df = pd.read_csv(data_path, parse_dates=['timestamp'])
基础数据清洗
df = df.dropna(subset=['strike_price', 'mark_price', 'implied_volatility'])
df = df[df['volume'] > 0] # 过滤零成交量数据
时间戳转换(毫秒转datetime)
df['datetime'] = pd.to_datetime(df['timestamp'], unit='ms')
df = df.sort_values('datetime')
print(f"加载数据量:{len(df):,} 条记录")
print(f"时间范围:{df['datetime'].min()} 至 {df['datetime'].max()}")
print(f"数据列:{list(df.columns)}")
第二步:期权链(Options Chain)构建
期权链是将同一到期日的所有期权按行权价格排列的数据结构。对于期权链分析,我们通常关注每个行权价的看涨期权(Call)和看跌期权(Put)的未平仓量、成交量和隐含波动率。
def build_options_chain(df, expiry_date, underlying_price):
"""
构建期权链
df: 原始数据DataFrame
expiry_date: 到期日(字符串格式)
underlying_price: 标的资产当前价格
"""
# 筛选指定到期日的期权
chain = df[df['expiry_date'] == expiry_date].copy()
# 按期权类型分组
calls = chain[chain['option_type'] == 'C'].sort_values('strike_price')
puts = chain[chain['option_type'] == 'P'].sort_values('strike_price')
# 构建看涨/看跌价差(Moneyness)
calls['moneyness'] = calls['strike_price'] / underlying_price
puts['moneyness'] = puts['strike_price'] / underlying_price
# 计算期权链宽度(用于识别关键行权价)
strike_prices = sorted(chain['strike_price'].unique())
chain_width = np.median(np.diff(strike_prices))
return calls, puts, chain_width
示例:构建BTC期权的到期日为2025-03-28的期权链
target_expiry = '2025-03-28'
underlying_btc_price = 95000 # BTC当前价格
calls, puts, width = build_options_chain(df, target_expiry, underlying_btc_price)
print(f"到期日 {target_expiry} 的期权链:")
print(f"看涨期权数量:{len(calls)},行权价范围:{calls['strike_price'].min()} - {calls['strike_price'].max()}")
print(f"看跌期权数量:{len(puts)},行权价范围:{puts['strike_price'].min()} - {puts['strike_price'].max()}")
print(f"期权链宽度:{width:.2f}")
第三步:资金费率(Funding Rate)数据分析
资金费率是永续合约特有的机制,用于确保合约价格与现货价格保持一致。分析资金费率可以帮助识别市场情绪过热或过冷的时机。Tardis同样提供分钟级的资金费率历史数据。
import matplotlib.pyplot as plt
def analyze_funding_rate(funding_df, symbol='BTCUSDT'):
"""
分析资金费率数据
funding_df: 包含timestamp, funding_rate列的DataFrame
symbol: 交易对
"""
# 筛选目标交易对
btc_funding = funding_df[funding_df['symbol'] == symbol].copy()
btc_funding['datetime'] = pd.to_datetime(btc_funding['timestamp'], unit='ms')
btc_funding = btc_funding.sort_values('datetime')
# 计算资金费率统计
stats = {
'mean': btc_funding['funding_rate'].mean(),
'std': btc_funding['funding_rate'].std(),
'max': btc_funding['funding_rate'].max(),
'min': btc_funding['funding_rate'].min(),
'positive_ratio': (btc_funding['funding_rate'] > 0).mean()
}
# 识别极端资金费率事件(> 3倍标准差)
threshold = stats['mean'] + 3 * stats['std']
extreme_events = btc_funding[btc_funding['funding_rate'] > threshold]
# 可视化
fig, axes = plt.subplots(2, 1, figsize=(14, 8))
# 资金费率时间序列
axes[0].plot(btc_funding['datetime'], btc_funding['funding_rate'] * 100,
color='steelblue', alpha=0.8)
axes[0].axhline(y=0, color='black', linestyle='--', linewidth=0.5)
axes[0].set_ylabel('Funding Rate (%)')
axes[0].set_title(f'{symbol} 资金费率历史')
# 直方图
axes[1].hist(btc_funding['funding_rate'] * 100, bins=100,
color='steelblue', edgecolor='white', alpha=0.7)
axes[1].axvline(x=stats['mean'], color='red', linestyle='--', label=f"均值: {stats['mean']*100:.4f}%")
axes[1].set_xlabel('Funding Rate (%)')
axes[1].set_ylabel('Frequency')
axes[1].legend()
plt.tight_layout()
plt.savefig('funding_rate_analysis.png', dpi=150)
plt.show()
return stats, extreme_events
使用示例
funding_df = pd.read_csv('tardis_funding_data.csv')
stats, events = analyze_funding_rate(funding_df, 'BTCUSDT')
第四步:波动率曲面(Volatility Surface)构建
波动率曲面是期权定价的核心数据结构,横轴为行权价格(Moneyness),纵轴为到期时间(Tenor),z轴为隐含波动率(IV)。分析波动率曲面可以帮助发现相对价值机会。
def build_volatility_surface(df, current_price):
"""
构建波动率曲面
"""
# 计算Moneyness(标的价格比率)
df['moneyness'] = df['strike_price'] / current_price
# 计算到期时间(天数)
df['expiry'] = pd.to_datetime(df['expiry_date'])
df['days_to_expiry'] = (df['expiry'] - df['datetime'].iloc[0]).dt.days
# 过滤有效数据
valid_df = df[(df['days_to_expiry'] > 0) & (df['implied_volatility'].notna())]
# 按Moneyness和到期时间分组,计算平均IV
surface = valid_df.pivot_table(
values='implied_volatility',
index='days_to_expiry',
columns='moneyness',
aggfunc='mean'
)
return surface
def plot_volatility_surface(surface):
"""绘制3D波动率曲面"""
from mpl_toolkits.mplot3d import Axes3D
fig = plt.figure(figsize=(14, 8))
ax = fig.add_subplot(111, projection='3d')
X, Y = np.meshgrid(surface.columns, surface.index)
Z = surface.values
surf = ax.plot_surface(X, Y, Z, cmap='viridis', edgecolor='none', alpha=0.8)
ax.set_xlabel('Moneyness (Strike/Price)')
ax.set_ylabel('Days to Expiry')
ax.set_zlabel('Implied Volatility')
ax.set_title('期权波动率曲面')
fig.colorbar(surf, shrink=0.5, aspect=10)
plt.savefig('volatility_surface.png', dpi=150)
plt.show()
构建曲面
surface = build_volatility_surface(df, 95000)
plot_volatility_surface(surface)
Praxisbericht:我在期权套利研究中的 Erfahrungen
Ich habe in den letzten sechs Monaten intensiv mit Tardis-CSV-Daten für meine Optionsarbitrage-Strategie gearbeitet. Mein Hauptnutzen lag dabei auf der Kombination von Funding-Rate-Daten mit der Options-Gamma-Exposure-Analyse. Eine wichtige Erkenntnis: Die Qualität der Tardis-Daten ist hervorragend, aber die Dateigrößen können enorm sein – ich arbeite regelmäßig mit 50GB+ Tagesdaten. Die Verwendung von chunked processing mit pandas war entscheidend. Besonders wertvoll war die Korrelation zwischen Funding Rate und Gamma Exposure, die ich für das Timing meiner Hedging-Aktivitäten nutze.
案例:期权链偏斜(Skew)分析
期权链偏斜是指相同到期日的看涨期权和看跌期权隐含波动率的差异。强烈的看跌偏斜通常意味着市场对下行风险的担忧,反之亦然。
def calculate_volatility_skew(chain_df, expiry_date, current_price):
"""
计算期权链波动率偏斜
"""
# 筛选ATM附近数据(Moneyness 0.9-1.1)
atm_range = chain_df[
(chain_df['expiry_date'] == expiry_date) &
(chain_df['strike_price'] / current_price > 0.9) &
(chain_df['strike_price'] / current_price < 1.1)
]
# 分离看涨和看跌期权
otm_calls = atm_range[atm_range['option_type'] == 'C']
otm_puts = atm_range[atm_range['option_type'] == 'P']
# 计算偏斜指标
skew_metrics = {
'25_delta_skew': None, # 需要更详细数据
'atm_iv': atm_range[atm_range['option_type'] == 'C']['implied_volatility'].mean() if len(otm_calls) > 0 else None,
'rr_25': None # 25-delta Risk Reversal
}
# 绘制偏斜曲线
fig, ax = plt.subplots(figsize=(12, 6))
calls = chain_df[(chain_df['expiry_date'] == expiry_date) &
(chain_df['option_type'] == 'C')].sort_values('strike_price')
puts = chain_df[(chain_df['expiry_date'] == expiry_date) &
(chain_df['option_type'] == 'P')].sort_values('strike_price')
ax.plot(calls['strike_price'], calls['implied_volatility'],
'g-', label='Call IV', linewidth=2)
ax.plot(puts['strike_price'], puts['implied_volatility'],
'r-', label='Put IV', linewidth=2)
ax.axvline(x=current_price, color='black', linestyle='--', label='ATM')
ax.set_xlabel('Strike Price')
ax.set_ylabel('Implied Volatility')
ax.set_title(f'期权链波动率偏斜 - 到期日 {expiry_date}')
ax.legend()
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.savefig('volatility_skew.png', dpi=150)
plt.show()
return skew_metrics
执行分析
metrics = calculate_volatility_skew(df, '2025-03-28', 95000)
Häufige Fehler und Lösungen
1. 内存溢出错误(MemoryError)
Tardis的CSV文件可能包含数百万行数据,直接使用pd.read_csv()会导致内存溢出。
# ❌ 错误方法:直接加载大文件
df = pd.read_csv('large_file.csv') # 可能导致MemoryError
✅ 正确方法:分块读取
chunk_size = 100000 # 每块10万行
chunks = []
for chunk in pd.read_csv('tardis_data.csv', chunksize=chunk_size):
# 在这里进行数据过滤,减少内存占用
filtered = chunk[chunk['volume'] > 0]
chunks.append(filtered)
print(f"已处理块 {len(chunks)}, 当前行数: {sum(len(c) for c in chunks)}")
df = pd.concat(chunks, ignore_index=True)
print(f"最终数据量: {len(df):,} 行")
2. 时间戳格式错误
Tardis使用Unix毫秒时间戳,但如果未正确解析,会导致时间序列分析错误。
# ❌ 常见错误:直接作为整数处理
df['datetime'] = df['timestamp'] # 错误的datetime对象
✅ 正确方法:显式指定时间单位
df['datetime'] = pd.to_datetime(df['timestamp'], unit='ms')
验证:检查时间范围是否合理
print(f"时间范围: {df['datetime'].min()} 至 {df['datetime'].max()}")
assert df['datetime'].min() > pd.Timestamp('2017-01-01'), "时间戳解析错误"
3. 隐含波动率为空或异常值
期权数据中,隐含波动率列可能包含空值或极端异常值,影响后续分析。
# ✅ 数据清洗:处理IV异常值
df = df.copy()
替换异常高的IV值(> 500%视为无效)
df.loc[df['implied_volatility'] > 5, 'implied_volatility'] = np.nan
填充或删除缺失值
df = df.dropna(subset=['implied_volatility', 'strike_price', 'mark_price'])
使用前后值平滑极端波动
df['implied_volatility_smoothed'] = df.groupby('symbol')['implied_volatility'].transform(
lambda x: x.clip(lower=x.quantile(0.01), upper=x.quantile(0.99))
)
print(f"清洗后数据量: {len(df):,} 行")
print(f"IV统计: 均值={df['implied_volatility'].mean():.4f}, 标准差={df['implied_volatility'].std():.4f}")
4. 交易所数据格式不一致
不同交易所的期权代码格式可能不同,导致符号匹配失败。
# ✅ 标准化交易所代码格式
def normalize_option_symbol(symbol, exchange='binance'):
"""
标准化期权符号格式
例如: BTC-25MAR25-95000-C -> (BTC, 2025-03-25, 95000, C)
"""
if exchange == 'binance':
parts = symbol.replace('-', '').replace('_', '').split()
# 解析 Binance 格式
# 示例: BTC250328P95000
underlying = parts[0][:3] # BTC
date_part = parts[0][3:9] # 250328
expiry = f"20{date_part[:2]}-{date_part[2:4]}-{date_part[4:6]}"
option_type = parts[0][-1] # P or C
strike = int(parts[0][-9:-1]) # 95000
return underlying, expiry, strike, option_type
return symbol, None, None, None
应用标准化函数
df['normalized'] = df['symbol'].apply(normalize_option_symbol)
df['underlying'] = df['normalized'].apply(lambda x: x[0])
df['expiry_date'] = df['normalized'].apply(lambda x: x[1])
df['strike_price'] = df['normalized'].apply(lambda x: x[2] if x[2] else df.loc[df.index, 'strike_price'])
df['option_type'] = df['normalized'].apply(lambda x: x[3])
结语
Tardis提供的CSV数据集为加密货币期权与资金费率研究提供了高质量的底层数据。通过正确的数据加载、清洗和分析流程,可以构建完整的期权链视图和波动率曲面。在实际研究中,建议结合市场宏观数据和订单簿深度数据,以获得更全面的市场洞察。
如果需要处理更大规模的数据集或进行复杂的机器学习模型训练,可以考虑使用分布式计算框架如Dask或Spark来提升处理效率。
👉 Registrieren Sie sich bei HolySheep AI — Startguthaben inklusive