Einleitung

Stellen Sie sich vor, Sie könnten einem Computer beibringen, Videos so zu verstehen wie ein Mensch — Bewegungen erkennen, Szenen beschreiben, Objekte identifizieren und sogar den Kontext einer Situation erfassen. Mit Gemini Vision 2.5 und der HolySheep AI Plattform ist genau das möglich, ohne dass Sie komplexe technische Kenntnisse benötigen.

In diesem Tutorial zeige ich Ihnen Schritt für Schritt, wie Sie Videos an eine KI senden und detaillierte Analysen zurückerhalten. Ich erkläre jeden Begriff einfach und verständlich, damit Sie als absoluter Anfänger direkt loslegen können.

Was bedeutet „多模态" (Multimodal)?

Multimodal bedeutet einfach gesagt: Die KI kann mehrere Arten von Informationen gleichzeitig verarbeiten. Statt nur Text zu lesen, kann sie auch Bilder, Audiodateien und Videos verstehen. Stellen Sie es sich wie einen Assistenten vor, der gleichzeitig zuhört, sieht und liest.

Warum ist das wichtig?

Vorbereitung: API-Zugang einrichten

Bevor wir mit dem Code beginnen, brauchen Sie einen Zugang zur HolySheep AI API. HolySheep bietet einen entscheidenden Vorteil: Während andere Anbieter wie OpenAI oder Anthropic hohe Kosten haben, kostet Gemini 2.5 Flash bei HolySheep nur $2,50 pro Million Token — das ist über 85% günstiger als die Konkurrenz.

Schritt 1: Registrieren Sie sich kostenlos

Schritt 2: API-Schlüssel holen

Ihr erstes Video-Analyse-Programm

Beispiel 1: Einfache Video-Beschreibung

Wir beginnen mit dem einfachsten Fall: Sie haben ein Video und möchten eine kurze Beschreibung davon erhalten. Hier ist der komplette Code in Python:

import base64
import requests
import json

API-Konfiguration

API_KEY = "YOUR_HOLYSHEEP_API_KEY" BASE_URL = "https://api.holysheep.ai/v1" def video_zu_base64(videopfad): """Wandelt eine Videodatei in Text um, den der Computer versteht.""" with open(videopfad, "rb") as video_datei: return base64.b64encode(video_datei.read()).decode("utf-8") def analysiere_video(videopfad, frage): """ Sendet ein Video an die KI und stellt eine Frage dazu. Args: videopfad: Der Speicherort Ihres Videos (z.B. "mein_video.mp4") frage: Was Sie über das Video wissen möchten Returns: Die Antwort der KI als Text """ # Video in das richtige Format umwandeln video_daten = video_zu_base64(videopfad) # Die Anfrage zusammenbauen url = f"{BASE_URL}/chat/completions" headers = { "Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json" } # Hier definieren wir, was die KI tun soll payload = { "model": "gemini-2.5-flash", "messages": [ { "role": "user", "content": [ { "type": "video", "video": { "base64_data": video_daten, "format": "mp4" } }, { "type": "text", "text": frage } ] } ], "max_tokens": 1000 } # Anfrage absenden antwort = requests.post(url, headers=headers, json=payload) # Ergebnis auswerten if antwort.status_code == 200: ergebnis = antwort.json() return ergebnis["choices"][0]["message"]["content"] else: print(f"Fehler: {antwort.status_code}") print(antwort.text) return None

--- Beispiel-Aufruf ---

if __name__ == "__main__": # Ersetzen Sie den Pfad mit Ihrem eigenen Video video_pfad = "beispiel_video.mp4" # Was möchten Sie wissen? meine_frage = "Beschreibe kurz, was in diesem Video passiert." # Video analysieren ergebnis = analysiere_video(video_pfad, meine_frage) if ergebnis: print("=== KI-Analyse ===") print(ergebnis)

💡 Tipp: Erstellen Sie einen neuen Ordner für Ihr Projekt und speichern Sie den Code als video_analyse.py. Laden Sie ein kurzes Video (unter 10 Sekunden für den Anfang) in denselben Ordner.

Beispiel 2: Mehrere Fragen gleichzeitig stellen

Manchmal möchten Sie nicht nur eine Frage stellen, sondern mehrere Aspekte eines Videos gleichzeitig analysieren. Das folgende Beispiel zeigt, wie Sie detailliertere Informationen extrahieren:

import base64
import requests

API_KEY = "YOUR_HOLYSHEEP_API_KEY"
BASE_URL = "https://api.holysheep.ai/v1"

def analysiere_video