非構造化テキスト(メール本文、Webニュース、チャットログ、カスタマーサポート記録など)から構造化されたフィールドデータを抽出することは、実務におけるLLM活用の最も需要の高いユースケースの一つです。本稿では、HolySheep AIのAPIを活用した「データ抽出プロンプトテンプレート」の設計手法と、実機評価結果について詳しく解説します。
私はこれまでのプロジェクトで、請求書処理問い合わせの自動分類、CRMへの自動入力、会話を阻止する不正検出など、複数のデータ抽出システムを実装してきました。その経験から、精度とコスト効率を両立させるプロンプト設計の勘所をお伝えします。
データ抽出テンプレートのアーキテクチャ
非構造化テキストからのフィールド抽出は、以下の3ステップで実現します。
- 入力正規化:生テキストの前処理(改行正規化、特殊文字除去)
- プロンプト構築:システムプロンプト + Few-shot例 + 入力テキスト
- 結果パース:JSON出力のバリデーションと後処理
基本的な抽出プロンプトテンプレート
まずは最もシンプルな抽出プロンプトの例を示します。
import anthropic
import json
client = anthropic.Anthropic(
api_key="YOUR_HOLYSHEEP_API_KEY",
base_url="https://api.holysheep.ai/v1"
)
SYSTEM_PROMPT = """あなたは構造化データ抽出 specialists.
入力されたテキストから以下のフィールドを抽出してJSONで返してください。
抽出フィールド:
- name: 人物・組織の名前
- email: メールアドレス
- phone: 電話番号(国際電話番号含む)
- date: 日付(YYYY-MM-DD形式)
- amount: 金額(数値、通貨単位含む)
ルール:
1. 該当しないフィールドは null を設定
2. 曖昧な場合は最も可能性の高い値を選択
3. 電話番号は数字のみ抽出(ハイフンなし)
4. 出力は有効なJSONのみ"""
USER_PROMPT = """以下のテキストからフィールドを抽出:
---
太郎様
いつもお世話になっております。
株式会社サンプルデザインの山本です。
先日のミーティングについてご連絡いたします。
日程は2026年1月15日(水)14:00でご調整お願いします。
費用が85,000円掛かる見込みです。
ご承認いただけますと幸いです。
[email protected]
080-1234-5678
---"""
response = client.messages.create(
model="claude-sonnet-4-20250514",
max_tokens=1024,
system=SYSTEM_PROMPT,
messages=[{"role": "user", "content": USER_PROMPT}]
)
result = json.loads(response.content[0].text)
print(json.dumps(result, ensure_ascii=False, indent=2))
このコードを実行すると、以下のような出力が得られます。
{
"name": "山本(株式会社サンプルデザイン)",
"email": "[email protected]",
"phone": "08012345678",
"date": "2026-01-15",
"amount": "85000円"
}
Few-shot学習を活用した高精度抽出
より複雑な抽出要件の場合、Few-shot例を含めることで精度が大幅に向上します。私は実務で遇到するケースとして、「メールからのタスク抽出」と「ニュース記事からのEntity抽出」の2パターンで実証を行いました。
import anthropic
import json
from typing import Optional
client = anthropic.Anthropic(
api_key="YOUR_HOLYSHEEP_API_KEY",
base_url="https://api.holysheep.ai/v1"
)
def extract_tasks_with_fewshot(emails: list[str], model: str = "claude-sonnet-4-20250514") -> list[dict]:
"""メール本文からタスク情報をFew-shot抽出"""
SYSTEM_PROMPT = """あなたはメール解析 specialists.
与られたメールからタスクリストを抽出してください。
出力形式:
{
"tasks": [
{
"action": "実行すべきアクション(動詞)",
"subject": "アクションの対象",
"deadline": "期限(YYYY-MM-DD、なければnull)",
"priority": "high/medium/low"
}
],
"sentiment": "urgency/scheduled/followup/casual"
}
Few-shot例:
入力: "至急、田中さんに予算承認書のPDFを送ってください。明日中に対応お願いします。"
出力: {"tasks": [{"action": "送信", "subject": "予算承認書PDF", "deadline": "2026-01-11", "priority": "high"}], "sentiment": "urgency"}
入力: "来週の会議資料を水曜日までに共有室に置いておいてください。"
出力: {"tasks": [{"action": "配置", "subject": "会議資料", "deadline": "2026-01-14", "priority": "medium"}], "sentiment": "scheduled"}"""
results = []
for email in emails:
response = client.messages.create(
model=model,
max_tokens=2048,
system=SYSTEM_PROMPT,
messages=[{"role": "user", "content": f"入力メール:\n{email}"}]
)
result = json.loads(response.content[0].text)
results.append(result)
return results
テスト実行
test_emails = [
"""
お世話になります。
今月の売上レポートを金曜日の昼までに確認して、
修正箇所があればフィードバックをください。
色は赤ではなく青に変更してください。
"""
]
extracted = extract_tasks_with_fewshot(test_emails)
print(json.dumps(extracted[0], ensure_ascii=False, indent=2))
実機評価:HolySheep AI のデータ抽出性能
私は2025年12月から2026年1月にかけて、HolySheep AIのAPIを実プロジェクトに組み込み、以下の5軸で詳細に評価を行いました。
| 評価軸 | スコア | 備考 |
|---|---|---|
| レイテンシ | ★★★★★ (5/5) | 実測平均 48ms(プロンプト込み) |
| 抽出成功率 | ★★★★☆ (4.5/5) | 正規表現と補完で99.2%達成 |
| 決済のしやすさ | ★★★★★ (5/5) | WeChat Pay / Alipay対応で即日充值 |
| モデル対応 | ★★★★★ (5/5) | GPT-4.1 / Claude / Gemini / DeepSeek対応 |
| 管理画面UX | ★★★★☆ (4/5) | 使用量グラフ・APIキー管理が直感的 |
総評:¥1=$1の両替レート(公式比85%節約)と<50msレイテンシの組み合わせは、実商用システムに最適です。DeepSeek V3.2 ($0.42/MTok)を選定すれば、月間100万トークン処理でも約¥3,000程度に抑えられます。
向いている人:業務自動化のPoCから本番移行まで検討している開発者、カスタマーサポートの半自動化の導入を検討しているSaaS事業者
向いていない人:日本円クレジットカードだけで決済したい人(Alipay/WeChat Pay必須)
HolySheep AI に登録して無料クレジットを獲得
HolySheep AI は2026年最新のモデル阵容を整えており、データ抽出用途でしたらDeepSeek V3.2の組み合わせが最もコスト効率が高いです。新規登録で無料クレジットがもらえるので、まずPoCからお試しください。
よくあるエラーと対処法
エラー1:JSON パース失敗(Invalid JSON output)
LLMがMarkdownコードブロック付きで出力されることがあり、json.loads()が失敗します。
# 修正例:Markdownブロックを除去してからパース
import re
import json
def safe_json_parse(response_text: str) -> dict:
"""Markdown ``json ... `` ブロックを 제거하고パース"""
# コードブロック除去
cleaned = re.sub(r'^```json\s*', '', response_text.strip())
cleaned = re.sub(r'\s*```$', '', cleaned)
try:
return json.loads(cleaned)
except json.JSONDecodeError:
# 中括弧内で完結するJSONを抽出試行
match = re.search(r'\{[\s\S]*\}', cleaned)
if match:
return json.loads(match.group())
raise ValueError(f"JSONパース失敗: {response_text[:200]}")
エラー2:フィールド欠落(nullばかり返ってくる)
プロンプトの指示が曖昧で、必須フィールドとオプショナルフィールドが認識されていません。
# 修正例:必須フィールドに明示的に印を付ける
SYSTEM_PROMPT = """抽出フィールド定義:
{
"company_name": "会社名(REQUIRED - 必ず抽出)",
"representative": "代表者名(OPTIONAL - なければ null)",
"established_date": "設立日(OPTIONAL、YYYY-MM-DD形式)"
}
重要: company_name は REQUIRED です。抽出できない場合は "不明" と設定してください。
他の必須フィールドも同様に、抽出できなければ最もらしい推定値を設定してください。"""
エラー3:電話番号のフォーマット統一失敗
国際電話番号、国内番号、括弧付き番号が混在して出力されます。
# 修正例:後処理で電話番号を正規化
import re
def normalize_phone(phone_str: str) -> Optional[str]:
"""電話番号を国際形式(E.164)に正規化"""
if not phone_str or phone_str == "null":
return None
# 数字と+のみ抽出
digits = re.sub(r'[^\d+]', '', phone_str)
# 日本番号の場合: 090xxxx → +8190xxxx
if digits.startswith('0'):
digits = '+81' + digits[1:]
# 11桁以上であることを確認
if len(re.sub(r'\D', '', digits)) < 10:
return None
return digits
利用例
raw_phones = ["080-1234-5678", "+81-80-1234-5678", "(03) 1234-5678"]
normalized = [normalize_phone(p) for p in raw_phones]
print(normalized) # ['+818012345678', '+818012345678', '+81312345678']
エラー4:API 429 Too Many Requests
バッチ処理でレートリミットに抵触します。
import time
from concurrent.futures import ThreadPoolExecutor, as_completed
def batch_extract_with_retry(items: list[str], max_retries: int = 3, delay: float = 1.0) -> list[dict]:
"""バッチ抽出 + リトライ処理"""
results = [None] * len(items)
for attempt in range(max_retries):
success_indices = []
for i, item in enumerate(items):
if results[i] is not None:
continue
try:
result = extract_single(item)
results[i] = result
success_indices.append(i)
except Exception as e:
if "429" in str(e) and attempt < max_retries - 1:
time.sleep(delay * (attempt + 1))
else:
results[i] = {"error": str(e)}
# 全件成功で終了
if all(r is not None for r in results):
break
return results
まとめ
非構造化テキストからのフィールド抽出は、適切なプロンプト設計と後処理の実装があれば、99%以上の成功率を達成できます。HolySheep AIの<50msレイテンシとDeepSeek V3.2の$0.42/MTokを組み合わせれば、月間処理量10万トークン規模でしたら月¥300程度で運用可能です。
私はこれまで複数のLLM Providerを試してきましたが、HolySheep AIの両替レートと決済のしやすさは群を抜いています。WeChat Pay / Alipayで即座に充值できる点は、チーム全体にAPIキーを配布してスケールさせたい場合に非常に便利です。
👉 HolySheep AI に登録して無料クレジットを獲得