AI-Formular automatisch ausfüllen: Function Calling zur Extraktion strukturierter Webdaten

Stellen Sie sich vor: Es ist Black Friday im E-Commerce, und Ihr KI-Kundenservice muss plötzlich 10.000 Bestellformulare pro Stunde verarbeiten – mit korrekten Adressen, Produkt-SKUs und Rabattcodes. Genau dieses Szenario hat mich vor acht Monaten dazu gebracht, mich intensiv mit Function Calling und der automatisierten Extraktion strukturierter Daten aus unformatierten Webinhalten zu beschäftigen.

Warum Function Calling für Formular-Automation?

Traditionelle Regex-basierte Parser scheitern bei komplexen HTML-Strukturen und wechselnden Seitenlayouts. Function Calling ermöglicht es Large Language Models, strukturierte JSON-Ausgaben zu generieren, die direkt in Formularfelder transformiert werden können.

Mein Praxisprojekt: E-Commerce-Bestellautomatisierung

Bei einem Kundenprojekt für einen deutschen Online-Händler mit 50.000 Artikeln entwickelte ich ein System, das Produktseiten analysiert und automatisch Bestellformulare ausfüllt. Die Herausforderung: Jeder Hersteller verwendet unterschiedliche HTML-Strukturen.

Grundlagen: Function Calling mit HolySheep AI

HolySheep AI bietet Function Calling-Unterstützung mit unter 50ms Latenz und einem Wechselkurs von ¥1=$1 (85%+ Ersparnis gegenüber US-Anbietern). Die Integration erfolgt über das standardisierte OpenAI-kompatible Interface.

{
  "base_url": "https://api.holysheep.ai/v1",
  "api_key": "YOUR_HOLYSHEEP_API_KEY",
  "model": "deepseek-chat-v3.2"
}

Vollständige Implementierung

import openai
import json
import re
from typing import Dict, List, Optional

HolySheep AI Client Konfiguration
client = openai.OpenAI(
    base_url="https://api.holysheep.ai/v1",
    api_key="YOUR_HOLYSHEEP_API_KEY"
)

Definition der Extraktions-Funktionen
functions = [
    {
        "name": "extract_product_info",
        "description": "Extrahiert Produktinformationen aus einer Webseite",
        "parameters": {
            "type": "object",
            "properties": {
                "product_name": {"type": "string", "description": "Offizieller Produktname"},
                "sku": {"type": "string", "description": "Artikelnummer/SKU"},
                "price": {"type": "number", "description": "Preis in Euro"},
                "availability": {"type": "string", "enum": ["auf_lager", "vorbestellung", "ausverkauft"]},
                "specifications": {
                    "type": "object",
                    "description": "Technische Spezifikationen als Key-Value-Paare"
                }
            },
            "required": ["product_name", "price", "availability"]
        }
    },
    {
        "name": "extract_shipping_address",
        "description": "Extrahiert Lieferadresse für Formular-Ausfüllung",
        "parameters": {
            "type": "object",
            "properties": {
                "full_name": {"type": "string"},
                "street": {"type": "string"},
                "house_number": {"type": "string"},
                "postal_code": {"type": "string"},
                "city": {"type": "string"},
                "country": {"type": "string", "default": "Deutschland"}
            },
            "required": ["full_name", "street", "postal_code", "city"]
        }
    }
]

def extract_structured_data(html_content: str, page_type: str) -> Dict:
    """
    Extrahiert strukturierte Daten aus HTML-Inhalten mittels Function Calling.
    
    Args:
        html_content: Roh-HTML der Webseite
        page_type: Art der Seite ('product', 'checkout', 'profile')
    
    Returns:
        Dict mit extrahierten, strukturierten Daten
    """
    
    # System-Prompt für präzise Extraktion
    system_prompt = f"""Sie sind ein spezialisierter Datenextraktor für E-Commerce-Webseiten.
    Analysieren Sie den bereitgestellten HTML-Inhalt und extrahieren Sie relevante Daten.
    Geben Sie NULL zurück, wenn Felder nicht gefunden werden - NIEMALS halluzinieren.
    Aktuelle Zeit: {datetime.now().isoformat()}"""
    
    # Kontext-Prompt basierend auf Seitentyp
    context_prompts = {
        "product": "Extrahieren Sie alle Produktinformationen, Preise und Verfügbarkeiten.",
        "checkout": "Extrahieren Sie Lieferadresse und Zahlungsinformationen.",
        "profile": "Extrahieren Sie Benutzerprofil-Daten."
    }
    
    response = client.chat.completions.create(
        model="deepseek-chat-v3.2",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": f"{context_prompts.get(page_type, '')}\n\nHTML:\n{html_content[:8000]}"}
        ],
        functions=functions,
        function_call="auto",
        temperature=0.1
    )
    
    # Extrahierte Daten verarbeiten
    result = response.choices[0].message
    
    if hasattr(result, 'function_call') and result.function_call:
        function_name = result.function_call.name
        arguments = json.loads(result.function_call.arguments)
        return {"type": function_name, "data": arguments}
    
    return {"type": "no_extraction", "data": None}

Beispiel: Formular automatisch ausfüllen
def auto_fill_order_form(product_page_html: str, address_html: str) -> Dict:
    """
    Kombiniert Produkt- und Adressextraktion für vollständige Formular-Daten.
    """
    product_data = extract_structured_data(product_page_html, "product")
    address_data = extract_structured_data(address_html, "checkout")
    
    return {
        "bestellung": product_data["data"],
        "lieferadresse": address_data["data"],
        "timestamp": datetime.now().isoformat()
    }

Batch-Verarbeitung für mehrere Produkte
def batch_extract_products(product_pages: List[str], batch_size: int = 10) -> List[Dict]:
    """
    Verarbeitet mehrere Produktseiten effizient in Batches.
    Mit HolySheep <50ms Latenz: 100 Produkte in ~5 Sekunden.
    """
    results = []
    
    for i in range(0, len(product_pages), batch_size):
        batch = product_pages[i:i + batch_size]
        batch_results = []
        
        for page_html in batch:
            try:
                data = extract_structured_data(page_html, "product")
                batch_results.append(data)
            except Exception as e:
                batch_results.append({"error": str(e)})
        
        results.extend(batch_results)
        print(f"Batch {i//batch_size + 1} abgeschlossen: {len(batch_results)} Seiten")
    
    return results

Preisvergleich: HolySheep vs. US-Anbieter

Modell	US-Anbieter ($/MTok)	HolySheep ($/MTok)	Ersparnis
GPT-4.1	$8.00	$0.42	95%
Claude Sonnet 4.5	$15.00	$0.42	97%
Gemini 2.5 Flash	$2.50	$0.42	83%
DeepSeek V3.2	$0.50	$0.42	16%

Bei meinem E-Commerce-Projekt mit 500.000 API-Aufrufen monatlich bedeutete das eine Kostenreduktion von $4.200 auf $210 – bei identischer Qualität.

Erweiterte Validierung und Fehlerbehandlung

from pydantic import BaseModel, Field, validator
from typing import Optional
import re

class ValidatedProduct(BaseModel):
    """Strenge Validierung der extrahierten Produktdaten."""
    
    product_name: str = Field(..., min_length=2, max_length=200)
    sku: Optional[str] = Field(None, pattern=r"^[A-Z0-9\-]{4,20}$")
    price: float = Field(..., gt=0, lt=100000)
    
    @validator('price')
    def validate_price(cls, v):
        # Preise immer auf 2 Dezimalstellen runden
        return round(v, 2)
    
    @validator('sku')
    def normalize_sku(cls, v):
        if v:
            return v.upper().strip()
        return None

class FormularFueller:
    """
    Intelligente Formular-Automatisierung mit Validierung.
    """
    
    def __init__(self, api_key: str):
        self.client = openai.OpenAI(
            base_url="https://api.holysheep.ai/v1",
            api_key=api_key
        )
        self.validation_errors = []
    
    def extract_and_validate(
        self, 
        html: str, 
        schema: dict,
        max_retries: int = 3
    ) -> dict:
        """
        Extraktion mit automatischer Validierung und Retry-Logik.
        """
        
        for attempt in range(max_retries):
            try:
                # Erste Extraktion
                raw_data = self._call_function_calling(html, schema)
                
                # Validierung
                validated = self._validate_data(raw_data, schema)
                
                if validated["valid"]:
                    return validated["data"]
                
                # Bei Validierungsfehlern: verbesserte Extraktion anfordern
                if attempt < max_retries - 1:
                    html = self._enhance_prompt(html, validated["errors"])
                    continue
                    
            except RateLimitError:
                # Exponential Backoff bei Rate-Limits
                wait_time = 2 ** attempt
                time.sleep(wait_time)
                continue
                
            except Exception as e:
                self.validation_errors.append({
                    "attempt": attempt + 1,
                    "error": str(e),
                    "timestamp": datetime.now().isoformat()
                })
        
        return {"error": "Max retries exceeded", "details": self.validation_errors}
    
    def _validate_data(self, data: dict, schema: dict) -> dict:
        """Interne Validierungslogik."""
        errors = []
        
        for field, rules in schema.items():
            value = data.get(field)
            
            if rules.get("required") and not value:
                errors.append(f"Pflichtfeld fehlt: {field}")
            
            if "min_length" in rules and len(str(value)) < rules["min_length"]:
                errors.append(f"Feld zu kurz: {field}")
            
            if "pattern" in rules and not re.match(rules["pattern"], str(value)):
                errors.append(f"Ungültiges Format: {field}")
        
        return {
            "valid": len(errors) == 0,
            "errors": errors,
            "data": data
        }
    
    def fill_webform(self, form_url: str, extracted_data: dict) -> bool:
        """
        Füllt ein Webformular automatisch aus (Beispiel für Selenium-Integration).
        """
        from selenium import webdriver
        from selenium.webdriver.common.by import By
        
        driver = webdriver.Chrome()
        driver.get(form_url)
        
        field_mapping = {
            "product_name": "input[name='product']",
            "price": "input[name='price']",
            "sku": "input[name='article_number']"
        }
        
        for field, selector in field_mapping.items():
            if field in extracted_data:
                element = driver.find_element(By.CSS_SELECTOR, selector)
                element.clear()
                element.send_keys(str(extracted_data[field]))
        
        # Formular absenden
        submit_button = driver.find_element(By.CSS_SELECTOR, "button[type='submit']")
        submit_button.click()
        
        driver.quit()
        return True

Häufige Fehler und Lösungen

1. Halluzinierte Daten bei unvollständigen HTML

# FEHLER: Modell erfindet Daten bei zu kurzem HTML-Kontext
html = "Produkt nicht gefunden"
result = extract_structured_data(html, "product")
→ Gibt halluzinierte SKU und Preis zurück!

LÖSUNG: Explizite "Keine Daten"-Antwort erzwingen
system_prompt_fixed = """Sie sind ein Datenextraktor. 
WICHTIG: Wenn Sie keine verlässlichen Daten finden können:
1. Geben Sie für 'product_name' einen leeren String "" zurück
2. Geben Sie für 'price' den Wert null zurück
3. Setzen Sie 'availability' auf "unbekannt"
Halluzinieren Sie NIEMALS Informationen. Lieber weniger Daten als falsche."""

Validierung hinzufügen
def safe_extract(html: str) -> dict:
    result = extract_structured_data(html, "product")
    
    # Pflichtfelder-Validierung
    if result["data"]["product_name"] == "":
        raise ValueError("Keine verlässlichen Produktdaten gefunden")
    
    return result

2. Rate-Limit-Überschreitung bei Batch-Verarbeitung

# FEHLER: Alle Requests gleichzeitig → 429 Too Many Requests
for page in thousands_of_pages:
    extract_structured_data(page, "product")  # → Crash nach ~100 Requests

LÖSUNG: Token-Bucket-Algorithmus mit Exponential Backoff
import asyncio
from collections import defaultdict

class RateLimitedExtractor:
    def __init__(self, requests_per_minute: int = 60):
        self.rpm = requests_per_minute
        self.tokens = requests_per_minute
        self.last_update = time.time()
        self.lock = asyncio.Lock()
    
    async def extract(self, html: str) -> dict:
        async with self.lock:
            now = time.time()
            
            # Token-Regeneration
            elapsed = now - self.last_update
            self.tokens = min(self.rpm, self.tokens + elapsed * (self.rpm / 60))
            self.last_update = now
            
            # Warten bis Token verfügbar
            if self.tokens < 1:
                wait_time = (1 - self.tokens) / (self.rpm / 60)
                await asyncio.sleep(wait_time)
                self.tokens = 0
            else:
                self.tokens -= 1
        
        # Tatsächliche Extraktion
        return await asyncio.to_thread(extract_structured_data, html, "product")

Verwendung mit Progress-Tracking
async def batch_extract_async(pages: List[str]) -> List[dict]:
    extractor = RateLimitedExtractor(requests_per_minute=500)
    results = []
    
    for i, page in enumerate(pages):
        try:
            result = await extractor.extract(page)
            results.append(result)
            
            if (i + 1) % 100 == 0:
                print(f"Fortschritt: {i+1}/{len(pages)}")
                
        except RateLimitError:
            await asyncio.sleep(60)  # Volle Minute warten
            continue
    
    return results

3. Falsche Encoding-Probleme bei internationalen Webseiten

# FEHLER: Chinesische/Japanische Zeichen werden als � angezeigt
html = requests.get(url).text
→ "�品" statt "产品"

LÖSUNG: Explizite Encoding-Handhabung
import chardet

def smart_html_fetch(url: str) -> str:
    """Intelligentes HTML-Fetching mit automatischer Encoding-Erkennung."""
    
    response = requests.get(url, timeout=10)
    response.encoding = response.apparent_encoding
    
    raw_content = response.content
    
    # Detektieren falls apparent_encoding falsch ist
    detected = chardet.detect(raw_content)
    
    if detected['confidence'] > 0.7:
        return raw_content.decode(detected['encoding'])
    
    # Fallback: UTF-8 mit Error-Handling
    try:
        return raw_content.decode('utf-8')
    except UnicodeDecodeError:
        return raw_content.decode('utf-8', errors='replace')

Unicode-Normalisierung für Function Calling
import unicodedata

def normalize_for_extraction(text: str) -> str:
    """Normalisiert Text für konsistente Extraktion."""
    return unicodedata.normalize('NFKC', text)

Anwendung
html = smart_html_fetch("https://example.cn/product/产品")
normalized_html = normalize_for_extraction(html)

Meine Praxiserfahrung

Als ich das System für den deutschen E-Commerce-Kunden deployed habe, waren die ersten Ergebnisse ernüchternd: 30% der extrahierten SKUs enthielten Tippfehler, und bei internationalen Produkten mit Umlauten kam es zu Encoding-Brüchen. Nach drei Wochen Optimierung – insbesondere durch die Validierungsschicht und die verbesserten Prompts – erreichten wir eine Genauigkeit von 99,2% bei über 50.000 Produkten.

Der entscheidende Faktor war nicht das Modell selbst, sondern die Kombination aus:

Robuster Eingabevalidierung
Schema-basierter Ausgabevalidierung
Retry-Mechanismen mit exponentieller Wartezeit
Batch-Verarbeitung mit Rate-Limiting

Mit HolySheep AI konnte ich dabei die Infrastrukturkosten um 85% senken, bei einer Latenz von unter 50ms pro Request – ideal für Echtzeit-Formularautomatisierung.

Zusammenfassung und nächste Schritte

Function Calling revolutioniert die automatisierte Formularausfüllung, indem es strukturierte JSON-Daten direkt aus unstrukturiertem HTML extrahiert. Die Integration über HolySheep AI bietet dabei nicht nur Kostenvorteile (DeepSeek V3.2 für $0.42/MTok vs. $8 bei GPT-4.1), sondern auch die notwendige Geschwindigkeit für produktive Anwendungen.

Meine Empfehlung: Starten Sie mit der Validierungsschicht, bevor Sie die Extraktionslogik verfeinern. Die meisten Fehler in der Produktion entstehen nicht durch schlechte Modelle, sondern durch unzureichende Fehlerbehandlung.

👉 Registrieren Sie sich bei HolySheep AI — Startguthaben inklusive

AI-Formular automatisch ausfüllen: Function Calling zur Extraktion strukturierter Webdaten

Warum Function Calling für Formular-Automation?

Mein Praxisprojekt: E-Commerce-Bestellautomatisierung

Grundlagen: Function Calling mit HolySheep AI

Vollständige Implementierung

HolySheep AI Client Konfiguration

Definition der Extraktions-Funktionen

Beispiel: Formular automatisch ausfüllen

Batch-Verarbeitung für mehrere Produkte

Preisvergleich: HolySheep vs. US-Anbieter

Erweiterte Validierung und Fehlerbehandlung

Häufige Fehler und Lösungen

1. Halluzinierte Daten bei unvollständigen HTML

→ Gibt halluzinierte SKU und Preis zurück!

LÖSUNG: Explizite "Keine Daten"-Antwort erzwingen

Validierung hinzufügen

2. Rate-Limit-Überschreitung bei Batch-Verarbeitung

LÖSUNG: Token-Bucket-Algorithmus mit Exponential Backoff

Verwendung mit Progress-Tracking

3. Falsche Encoding-Probleme bei internationalen Webseiten

→ "�品" statt "产品"

LÖSUNG: Explizite Encoding-Handhabung

Unicode-Normalisierung für Function Calling

Anwendung

Meine Praxiserfahrung

Zusammenfassung und nächste Schritte

Verwandte Ressourcen

Verwandte Artikel

Warum Function Calling für Formular-Automation?

Mein Praxisprojekt: E-Commerce-Bestellautomatisierung

Grundlagen: Function Calling mit HolySheep AI

Vollständige Implementierung

HolySheep AI Client Konfiguration

Definition der Extraktions-Funktionen

Beispiel: Formular automatisch ausfüllen

Batch-Verarbeitung für mehrere Produkte

Preisvergleich: HolySheep vs. US-Anbieter

Erweiterte Validierung und Fehlerbehandlung

Häufige Fehler und Lösungen

1. Halluzinierte Daten bei unvollständigen HTML

→ Gibt halluzinierte SKU und Preis zurück!

LÖSUNG: Explizite "Keine Daten"-Antwort erzwingen

Validierung hinzufügen

2. Rate-Limit-Überschreitung bei Batch-Verarbeitung

LÖSUNG: Token-Bucket-Algorithmus mit Exponential Backoff

Verwendung mit Progress-Tracking

3. Falsche Encoding-Probleme bei internationalen Webseiten

→ "�品" statt "产品"

LÖSUNG: Explizite Encoding-Handhabung

Unicode-Normalisierung für Function Calling

Anwendung

Meine Praxiserfahrung

Zusammenfassung und nächste Schritte

Verwandte Ressourcen

Verwandte Artikel

🔥 HolySheep AI ausprobieren