D I E M

Loading

team shape two

Tokens, Kosten & Kontextfenster: So planen Sie KI-Budgets realistisch

  • Tokens sind die Abrechnungseinheit für LLMs – abgerechnet wird pro 1 Mio. Tokens (Input meist günstiger als Output). Kontextfenster definieren, wie viel Text ein Modell pro Anfrage „sieht“ – und treiben Kosten und Latenz.
  • Tokenisierung (BPE/SentencePiece) zerlegt Text in Subwörter; je nach Anbieter fallen für denselben Text unterschiedlich viele Tokens an. Realistische Budgets basieren auf Messung mit dem Ziel‑Tokenizer, nicht auf Bauchgefühl.
  • 2025 rechnen große Anbieter transparent pro 1 Mio. Tokens ab: OpenAI (z. B. gpt‑realtime‑mini Text: ~$0.60 Input / ~$2.40 Output), Anthropic Sonnet 4.5 ($3/$15) inkl. Prompt‑Caching (Reads ~0.1×), Mistral Large ($2/$6).
  • Kosten lassen sich deutlich senken über: schlanke Prompts, RAG mit präzisem Retrieval, Prompt‑Caching/Batch‑APIs, Wiederverwendungs‑Strategien und strikte Output‑Limits (max_tokens, Stop‑Sequenzen).
  • Planen Sie mit Szenarien und SLOs: Zielmetrik → Token‑Budget → Telemetrie. Starten Sie konservativ, evaluieren Sie empirisch und optimieren Sie iterativ über Daten, Architektur und Sampling‑Parameter.

Inhaltsverzeichnis

  • 1. Warum Tokens & Kontextfenster Ihr Budget steuern
  • 2. Was sind Tokens?
  • 3. Wie Tokenisierung funktioniert
  • 4. Preismodelle großer Anbieter (OpenAI, Anthropic, Mistral)
  • 5. Kostenabschätzung für unterschiedliche Anwendungen
  • 6. Optimierung von Kontextfenstern
  • 7. Caching & Prompt‑Optimierung
  • 8. Typische Kostenfallen & Budgetstrategien
  • 9. Beispielrechnungen für DACH‑Unternehmen (USD, exkl. Steuern)
  • 10. Fazit (Checkliste)
  • 11. Weiterführende Artikel

Warum Tokens & Kontextfenster Ihr Budget steuern

LLM‑Kosten entstehen in Tokens – nicht in Features. Jede Anfrage besteht aus Eingabekontext (System‑/Rollen‑/Nutzermessages, ggf. Retrieval‑Snippets) und der generierten Antwort. Beides wird tokenisiert und abgerechnet. Deshalb sind Tokenzahl, Kontextfenster und Decoding‑Parameter die wichtigsten Stellschrauben für Kosten, Latenz und Qualität. Wer die Mechanik versteht, plant belastbare Budgets, vermeidet Kostenfallen und kann Architektur‑Trade‑offs begründen. Eine technische Einführung in Modelle liefert Was ist ein LLM? – Kreativitätsregler erklärt Temperature, Top‑p & Co., und ein Handbuch für robuste Eingaben bietet Prompting‑Grundlagen.

Was sind Tokens?

Tokens sind die kleinsten Einheiten, mit denen Sprachmodelle Text verarbeiten und abrechnen. Ein Token kann ein ganzes Wort, ein Subwort oder ein Zeichenbündel sein. Durchschnittswerte (z. B. „~4 Zeichen pro Token“) sind nur grobe Heuristiken; zahlenkritisch ist, wie der konkrete Tokenizer Ihres Zielmodells segmentiert. Für die Planung zählt: (1) Wie viele Tokens umfasst mein Prompt (inkl. System‑/Beispiel‑/Retrieval‑Teile)? (2) Wie viele Tokens generiert das Modell? (3) Wie groß ist das Kontextfenster des gewählten Modells? Token‑Counter‑Tools der Anbieter helfen, diese Fragen belastbar zu beantworten.

Nützliche Ressourcen: OpenAI Cookbook – Tokens zählen mit tiktokenHugging Face – Tokenizer‑ÜbersichtSentencePiece (Google)

Wie Tokenisierung funktioniert

Moderne Tokenizer (BPE, WordPiece, SentencePiece/Unigram) zerlegen Text in Subwörter, um ein kompaktes Vokabular zu erzeugen und seltene Wörter robust zu behandeln. Unterschiedliche Trainingsdaten und Vokabulare führen zu abweichenden Tokenzahlen je Anbieter – und damit zu unterschiedlichen Kosten bei identischer Eingabe. Konsequenz für Budgets: Messen Sie mit dem Tokenizer des Zielmodells und halten Sie Bandbreiten (±10–30 %) vor. Für technische Hintergründe lohnt der Blick in die Tokenizer‑Dokumentation der Ökosysteme.

Weiterführend: Mistral – Tokenization Deep DiveHugging Face – Fast Tokenizers

Preismodelle großer Anbieter (OpenAI, Anthropic, Mistral)

OpenAI – OpenAI rechnet nach Input‑ und Output‑Tokens ab. Beispiel (Text‑Sektion der Realtime‑API): gpt‑realtime‑mini ca. $0.60/1 M Input und $2.40/1 M Output. Zusätzlich existieren Rabatte wie die Batch‑API (−50 % gegenüber synchronen APIs) und separate Gebühren für einige Tools (z. B. File‑Search‑Speicher). Details und aktuelle Tarife: OpenAI – API PricingOpenAI – Batch API (−50 %).

Anthropic (Claude) – Transparente Tokenpreise pro Modellfamilie und klare Multiplikatoren für Prompt‑Caching. Sonnet 4.5: $3/1 M Input, $15/1 M Output; Opus 4.1: $15/$75. Prompt‑Caching: Cache‑Writes (5 min) 1.25× des Input‑Preises, Cache‑Reads 0.1×. Langkontext‑Nutzung (>200 K) kann Premium‑Raten auslösen; Extended‑Thinking‑Tokens werden als Output einmalig abgerechnet. Quellen: Claude Docs – Pricing & CachingClaude Sonnet 4.5 – $3/$15Claude Opus 4.1 – $15/$75Context Windows & Extended Thinking

Mistral – Wettbewerbsfähige API‑Preise; offizieller Preis‑Cut‑Post nennt für Mistral Large $2/1 M Input und $6/1 M Output. Weitere Modelle und aktuelle Tarife entnehmen Sie bitte der Produkt‑ bzw. Docs‑Seite.

Quellen: Mistral – “AI in abundance” (Preis‑Update)Mistral Docs – Pricing (Übersicht)

Kostenabschätzung für unterschiedliche Anwendungen

Für eine erste Budgetlinie genügt eine einfache Formel: Anfragen/Monat × [(Input‑Tokens/Anfrage × Preis_in) + (Output‑Tokens/Anfrage × Preis_out)]. Darüber hinaus zählen Kontextgröße (lange Prompts erhöhen Input), Sampling‑Parameter (beeinflussen Output‑Länge), Retrieval‑Kosten (Embeddings/Index) sowie Rabatte (Caching, Batch). Halten Sie einen Puffer (z. B. +20 %) und verlinken Sie in internen Dokumenten stets auf die offiziellen Preisseiten, da Tarife sich ändern können.

Optimierung von Kontextfenstern

Große Kontexte ermöglichen lange Dokumente und mehr Dialog‑Historie – jedoch mit Kosten‑ und Latenzanstieg. Effizient sind selektives Retrieval (RAG), gutes Chunking, Zusammenfassungsschichten („map‑reduce“) und strikte Prompt‑Templates. Bei Claude gelten Besonderheiten: Für Anfragen >200 K Tokens können Premium‑Raten greifen; außerdem werden Extended‑Thinking‑Tokens einmalig als Output abgerechnet. Praktischer Tipp: Statt pauschal „alles“ in den Kontext zu legen, definieren Sie Wissens‑Korridore via Metadaten‑Filter und messen Sie die Trefferqualität gegen die Kosten.

Referenz: Claude Docs – Context windows

Caching & Prompt‑Optimierung

Wiederverwendbare Prompt‑Teile (System‑/Rollenprompts, Policies, Tool‑Definitionen) lassen sich cachen. Bei Anthropic kosten Cache‑Reads ~10 % des Input‑Preises; 5‑Min‑Cache‑Writes ~125 % (1‑Std‑Writes ~200 %). OpenAI bietet mit der Batch‑API bis zu 50 % Kostenrabatt für geeignete asynchrone Workloads; einzelne Tools (z. B. File‑Search) verursachen zusätzliche, klar ausgewiesene Gebühren. Das Maximum holen Teams mit sauberen Prompt‑Vorlagen, aggressiver Duplikat‑Eliminierung, kurzen Variablen‑Feldern und systematischer Evaluation von Prompt‑Länge vs. Qualität heraus.

Quellen: Anthropic – Prompt CachingOpenAI – Batch API

Typische Kostenfallen & Budgetstrategien

Häufige Kostenfallen sind: (1) Unnötig lange Prompts; (2) fehlende Limits für Ausgabe‑Länge; (3) kein Caching/Batching; (4) kein RAG → teure Halluzinationen und Re‑Runs; (5) überdimensionierte Modelle für einfache Aufgaben; (6) unberücksichtigte Tool‑/Speicherkosten; (7) fehlende Telemetrie. Robuste Strategien: Token‑Budgets pro Use‑Case; konservative Defaults (max_tokens, Temperature/Top‑p); systematische Offline‑ und Online‑Evaluation; Telemetrie (Kosten/Latenz/Qualität) und regelmäßige Modell‑/Prompt‑Refaktorisierung. Eine Guideline für Sampling‑Parameter liefert

Temperature, Top‑p & Co.

Beispielrechnungen für DACH‑Unternehmen (USD, exkl. Steuern)

A) Mittelständischer E‑Commerce‑Support (Deutschland) – OpenAI gpt‑realtime‑mini (Text): 40,000 Anfragen/Monat × 700 In‑Tokens + 250 Out‑Tokens. Input gesamt: 28.00 M, Output gesamt: 10.00 M. Kosten: ~$40.80/Monat. Für asynchrone Backlog‑Prozesse via Batch‑API wäre theoretisch −50 % möglich (→ ~$20.40/Monat).

B) Enterprise‑Wissensassistent (Schweiz) – Anthropic Sonnet 4.5 + Prompt‑Caching: 120,000 Anfragen/Monat × 2 500 In‑Tokens + 350 Out‑Tokens. Input gesamt: 300.00 M (davon ~60 % Cache‑Reads, ~35 % Base, ~5 % Cache‑Writes), Output gesamt: 42.00 M. Kosten: ~$1,055.25/Monat.

C) Code‑Assist für Entwickler:innen (Österreich) – Mistral Large: 26,400 Anfragen/Monat × 1 200 In‑Tokens + 250 Out‑Tokens. Input gesamt: 31.68 M, Output gesamt: 6.60 M. Kosten: ~$102.96/Monat.

Aktuelle Preislisten: OpenAI – API PricingAnthropic – Pricing & CachingMistral – Preis‑Update

Fazit

Realistische KI‑Budgets basieren auf Messung und Architektur – nicht auf Hoffnungen. Planen Sie mit konservativen Defaults, messen Sie Tokenverbräuche in der Zielumgebung und kombinieren Sie RAG, Caching und passende Modellgrößen. So bleiben Kosten planbar, Qualität hoch und Time‑to‑Value kurz.

Checkliste

  • Token‑Budget pro Use‑Case definieren (Input/Output getrennt, Puffer +20 %).
  • Max‑Tokens & Stop‑Sequenzen setzen; Sampling‑Parameter bewusst wählen (siehe „Temperature, Top‑p & Co.“).
  • Kontextfenster optimieren: RAG, Chunking, Metadaten‑Filter, Zusammenfassungsschichten.
  • Prompt‑Caching/Batch‑APIs nutzen; wiederverwendbare Teile standardisieren und deduplizieren.
  • Modellwahl nach Aufgabe: klein/günstig als Default, groß/teuer nur bei Bedarf; regelmäßig reevaluieren.
  • Telemetrie & Kosten‑Dashboards etablieren (Kosten, Latenz, Qualität, Fehlertypen).
  • Tool‑/Speicher‑Kosten (z. B. File‑Search) einpreisen; Wechselkurs‑ und Steuer‑Effekte berücksichtigen.

Weiterführende Artikel

Temperature, Top‑p & Co.

Was ist ein LLM? – Transformer, Token und Kontext

Prompting‑Grundlagen – Systemprompt, Rollen & Few‑Shot