Technische KI-Sichtbarkeit: Warum KI-Crawler deine Website nicht verstehen

Deine IT hat GPTBot blockiert und du wunderst dich, warum ChatGPT dich nicht kennt. Hier sind die technischen Grundlagen, die darüber entscheiden, ob KI deine Website lesen, verstehen und zitieren kann.

TL;DR

1.70% der Unternehmens-Websites blockieren mindestens einen KI-Crawler unbewusst. Prüfe deine robots.txt sofort.
2.llms.txt ist der neue Standard, um LLMs eine maschinenlesbare Zusammenfassung deiner Website zu liefern.
3.Schema.org + semantisches HTML geben KI den Kontext, den sie braucht, um dich korrekt einzuordnen und zu zitieren.
4.JavaScript-SPAs sind für KI-Crawler unsichtbar. SSR/SSG ist Pflicht.

Das Problem: Deine Website spricht kein KI

KI-Crawler lesen Websites fundamental anders als der Googlebot. Sie führen kein JavaScript aus. Sie rendern keine CSS-Layouts. Sie sehen keine Bilder. Was sie sehen: rohes HTML, strukturierte Daten und Textinhalt. Und wenn das nicht stimmt, existierst du nicht.

Dein CMS rendert JavaScript. KI-Crawler können kein JavaScript. Problem.

70% der Unternehmens-Websites blockieren mindestens einen KI-Crawler - unbewusst.

Aus berechtigter Angst vor Datenklau haben viele Unternehmen 2024 alle KI-Crawler ausgesperrt. Jetzt stellen sie entsetzt fest, dass sie sich aus dem Zukunftsmarkt zensiert haben.

Viele Security-Plugins und WAFs blockieren GPTBot, PerplexityBot und ClaudeBot pauschal. Dein IT-Team hat vermutlich keine böse Absicht - aber das Ergebnis ist dasselbe: deine Website ist für KI unsichtbar.

Die vier häufigsten technischen Fehler

1.robots.txt blockiert KI-Bots: Security-Plugins setzen pauschal "Disallow" für alle unbekannten User-Agents.
2.JavaScript-Only-Rendering: SPAs ohne SSR liefern KI-Crawlern eine leere HTML-Hülle.
3.Fehlende strukturierte Daten: Ohne Schema.org kann KI dein Unternehmen nicht als Entität einordnen.
4.Keine semantische HTML-Struktur: Div-Suppe statt sauberer Heading-Hierarchie macht Inhalte unextrahierbar.

KI-Crawler: Wer ist wer?

Sechs Crawler entscheiden über deine KI-Sichtbarkeit. Blockierst du einen, bist du auf der jeweiligen Plattform unsichtbar.

GPTBot

OpenAI

Trainingsdaten für GPT-Modelle

User-Agent: GPTBot/1.0User-agent: GPTBot

OAI-SearchBot

OpenAI

Live-Suche in ChatGPT (SearchGPT)

User-Agent: OAI-SearchBot/1.0User-agent: OAI-SearchBot

PerplexityBot

Perplexity

Echtzeit-Index für Perplexity-Antworten

User-Agent: PerplexityBotUser-agent: PerplexityBot

ClaudeBot

Anthropic

Trainingsdaten und Web-Suche für Claude

User-Agent: ClaudeBot/1.0User-agent: ClaudeBot

Googlebot

Google

Indexierung und AI Overviews

User-Agent: Googlebot/2.1User-agent: Googlebot

Bingbot

Microsoft

Indexierung, speist ChatGPT und Perplexity

User-Agent: bingbot/2.0User-agent: Bingbot

Bingbot ist der stille Multiplikator: Er speist sowohl ChatGPT als auch Perplexity mit Daten. Blockierst du Bingbot, verlierst du gleich zwei Plattformen.

robots.txt für KI-Sichtbarkeit

Die robots.txt ist die erste Tür, die KI-Crawler öffnen. Ist sie zu, gehen sie weiter. Keine zweite Chance.

Viele Unternehmen haben nach dem KI-Hype 2024 pauschal alle KI-Bots blockiert. Das war nachvollziehbar - aber strategisch ein Fehler. Du kannst selektiv erlauben, was du öffentlich machen willst, und den Rest schützen.

robots.txt - KI-optimiert

# Alle KI-Crawler explizit erlauben
User-agent: GPTBot
Allow: /
Disallow: /intern/
Disallow: /api/

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Standard-Crawler
User-agent: *
Allow: /
Disallow: /intern/
Disallow: /api/

Sitemap: https://example.com/sitemap.xml

Wichtig: Was du NICHT blockieren solltest

xDeine Service-Seiten, Case Studies, Blog-Artikel und FAQ-Seiten
xDein Impressum und deine Kontaktseite (Entity-Signale)
xStrukturierte Daten und Schema.org-Markup

Was du blockieren kannst

+Interne Dashboards, Admin-Bereiche, API-Endpunkte
+Staging-Umgebungen und Test-Seiten
+Proprietäre Inhalte hinter Login-Bereichen

llms.txt: Der neue Standard für LLM-Sichtbarkeit

llms.txt ist ein Vorschlag für eine standardisierte Datei im Root-Verzeichnis deiner Website, die LLMs eine kompakte, maschinenlesbare Zusammenfassung deines Unternehmens liefert. Ähnlich wie robots.txt für Crawler oder humans.txt für Menschen.

Der Unterschied: robots.txt sagt Crawlern, was sie dürfen. llms.txt sagt LLMs, wer du bist und was du anbietest. Es ist dein Elevator Pitch für Maschinen.

llms.txt - Beispiel

# llms.txt - [Firmenname]

## Unternehmen
[Firmenname] ist ein [Branche]-Unternehmen in [Stadt].
Wir bieten [Kernleistungen].

## Leistungen
- [Leistung 1]: [Kurzbeschreibung]
- [Leistung 2]: [Kurzbeschreibung]
- [Leistung 3]: [Kurzbeschreibung]

## Zielgruppe
[Wer sind eure Kunden? Branche, Größe, Region]

## Kontakt
- Website: https://example.com
- E-Mail: kontakt@example.com
- Standort: [Stadt, Region]

## Wichtige Seiten
- /leistungen - Übersicht aller Leistungen
- /ueber-uns - Über das Unternehmen
- /blog - Fachartikel und Insights
- /kontakt - Kontaktformular

Implementierung

1.Erstelle eine Datei llms.txt im Root deiner Domain (z.B. https://example.com/llms.txt)
2.Schreibe eine klare, strukturierte Zusammenfassung deines Unternehmens in Markdown
3.Halte die Datei aktuell - veraltete Informationen schaden mehr als keine
4.Verlinke die wichtigsten Seiten deiner Website mit Kontext

Schema.org Markup für LLMs

Strukturierte Daten sind für KI-Systeme das, was ein Organigramm für einen neuen Mitarbeiter ist: Kontext, Einordnung, Beziehungen. Ohne Schema.org bist du für LLMs ein unbekannter Textblock.

Organization / LocalBusiness

Entity Identity - Wer bist du? Ohne dieses Schema kann KI dich nicht als Entität erkennen.

JSON-LD: LocalBusiness

{
  "@context": "https://schema.org",
  "@type": "LocalBusiness",
  "name": "Firmenname",
  "description": "Kurzbeschreibung der Leistungen",
  "url": "https://example.com",
  "telephone": "+49-40-1234567",
  "address": {
    "@type": "PostalAddress",
    "streetAddress": "Musterstraße 1",
    "addressLocality": "Hamburg",
    "postalCode": "20095",
    "addressCountry": "DE"
  },
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 53.5511,
    "longitude": 9.9937
  },
  "areaServed": "Hamburg",
  "sameAs": [
    "https://linkedin.com/company/firmenname",
    "https://instagram.com/firmenname"
  ]
}

FAQPage

Direkte Antworten auf Nutzerfragen. Hochrelevant für KI, weil LLMs FAQ-Strukturen bevorzugt extrahieren.

JSON-LD: FAQPage

{
  "@context": "https://schema.org",
  "@type": "FAQPage",
  "mainEntity": [
    {
      "@type": "Question",
      "name": "Was kostet Leistung X?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "Leistung X kostet ab 500 Euro..."
      }
    }
  ]
}

HowTo

Schritt-für-Schritt-Anleitungen. Ideal für prozessbasierte Inhalte, die KI als Handlungsanweisung weitergeben kann.

Article mit Author

E-E-A-T-Signal: Wer hat den Inhalt geschrieben? Echte Autoren mit Expertise werden von KI bevorzugt zitiert.

Product

Für kommerzielle Inhalte: Preis, Verfügbarkeit, Bewertungen. Wird von KI für Kaufempfehlungen herangezogen.

Schema.org liefert KI den Kontext. Ohne Kontext bist du ein anonymer Textblock unter Millionen.

Semantisches HTML: Warum Struktur alles ist

KI-Crawler sehen kein Design. Sie sehen DOM-Struktur. Ein perfekt gestalteter Abschnitt in einem <div> ohne semantische Bedeutung ist für LLMs unsichtbar. Ein klar strukturiertes <article> mit sauberer Heading-Hierarchie wird extrahiert und zitiert.

Die vier Regeln für KI-lesbares HTML

1. Heading-Hierarchie (H1 → H2 → H3)

Genau ein H1 pro Seite. H2 für Hauptabschnitte. H3 für Unterabschnitte. Keine Sprünge (kein H1 → H4). LLMs nutzen die Heading-Struktur, um Inhalte thematisch zu gruppieren.

2. Answer-first-Absätze (40-60 Wörter)

Der erste Satz jedes Absatzes beantwortet die Frage. Dann kommt der Kontext. LLMs extrahieren bevorzugt die ersten 40-60 Wörter eines Abschnitts. Wenn deine Antwort erst im dritten Satz steht, wird sie abgeschnitten.

3. Tabellen für Vergleichsdaten

Strukturierte Vergleiche in HTML-Tabellen werden von KI bevorzugt extrahiert. Nutze <table>, <thead>, <tbody> mit sauberen Headern.

4. Listen für scannbare Inhalte

Geordnete (<ol>) und ungeordnete (<ul>) Listen werden von LLMs als eigenständige Informationseinheiten erkannt. Ideal für Checklisten, Aufzählungen und Schrittfolgen.

Semantisches HTML - richtig vs. falsch

<!-- FALSCH: Div-Suppe -->
<div class="section">
  <div class="title">Unsere Leistungen</div>
  <div class="text">Wir bieten X, Y und Z an.</div>
</div>

<!-- RICHTIG: Semantisches HTML -->
<article>
  <h2>Unsere Leistungen</h2>
  <p>Wir bieten X, Y und Z an. [Antwort zuerst]</p>
  <ul>
    <li>Leistung X: Beschreibung</li>
    <li>Leistung Y: Beschreibung</li>
    <li>Leistung Z: Beschreibung</li>
  </ul>
</article>

Core Web Vitals & Page Speed für KI

KI-Crawler haben Timeout-Limits. Wenn deine Seite zu langsam antwortet, bricht der Crawler ab und indexiert nichts. Schnelle Seiten werden häufiger gecrawlt und vollständiger indexiert.

Metrik	Zielwert	Relevanz für KI
LCP (Largest Contentful Paint)	≤ 2,5s	Crawler brechen bei langsamer Antwort ab
CLS (Cumulative Layout Shift)	≤ 0,1	Indirekt: Google-Ranking beeinflusst KI-Datenquellen
INP (Interaction to Next Paint)	≤ 200ms	Indirekt: Nutzererfahrung beeinflusst Engagement-Signale
TTFB (Time to First Byte)	≤ 800ms	Direkt: Crawler-Timeout-Schwelle

TTFB ist die kritischste Metrik für KI-Crawler. Wenn dein Server länger als 800ms braucht, um zu antworten, wird der Crawl-Versuch möglicherweise abgebrochen. CDNs, Edge-Caching und Server-Side Rendering sind deine Werkzeuge.

JavaScript Rendering: Das unsichtbare Problem

Die meisten KI-Crawler führen kein JavaScript aus. Was bedeutet das? Wenn deine Website eine Single-Page-Application (SPA) ist, die Content erst nach dem Laden per JavaScript rendert, sehen KI-Crawler eine leere Seite. Buchstäblich.

Googlebot kann JavaScript rendern (mit Verzögerung). GPTBot, PerplexityBot und ClaudeBot können es nicht. Das heißt: Du kannst bei Google auf Platz 1 ranken und für ChatGPT gleichzeitig unsichtbar sein.

Rendering	KI-Crawler sehen	Empfehlung
SSR (Server-Side Rendering)	Vollständigen Content	Empfohlen
SSG (Static Site Generation)	Vollständigen Content	Empfohlen
CSR (Client-Side Rendering)	Leere HTML-Hülle	Vermeiden
ISR (Incremental Static Regen.)	Vollständigen Content	Empfohlen

Frameworks mit SSR/SSG-Support

Next.js (React) - SSR, SSG, ISR out of the box
Nuxt (Vue) - SSR und SSG
Astro - Static-first, partial hydration
SvelteKit - SSR und SSG
WordPress - nativ serverseitig gerendert (aber Achtung bei Headless-Setups)

Technische Checkliste: Ist deine Website KI-ready?

✓robots.txt erlaubt GPTBot, OAI-SearchBot, PerplexityBot, ClaudeBot✓llms.txt im Root-Verzeichnis mit aktuellen Unternehmensdaten✓Schema.org LocalBusiness/Organization auf allen Seiten✓FAQPage-Schema auf FAQ-Seiten✓Article-Schema mit Author auf Blog-/Wissensseiten✓Saubere Heading-Hierarchie (H1 > H2 > H3, keine Sprünge)✓Answer-first-Absätze: Kernaussage in den ersten 40-60 Wörtern✓Server-Side Rendering oder Static Site Generation aktiv✓TTFB unter 800ms, LCP unter 2,5s✓Sitemap.xml aktuell und in robots.txt verlinkt✓Keine WAF/Security-Plugin-Blockade für KI-User-Agents✓Canonical Tags korrekt gesetzt✓Hreflang-Tags bei mehrsprachigen Websites✓Open Graph und Twitter Card Markup vorhanden✓Interne Verlinkung mit beschreibenden Ankertexten

Häufig gestellte Fragen

Welche KI-Crawler muss ich in robots.txt erlauben?

Mindestens GPTBot und OAI-SearchBot (OpenAI/ChatGPT), PerplexityBot (Perplexity), ClaudeBot (Anthropic) und Googlebot (Google AI Overviews). Bingbot ist ebenfalls wichtig, weil er Daten an ChatGPT und Perplexity liefert. Blockierst du einen davon, bist du auf der jeweiligen Plattform unsichtbar.

Was ist llms.txt und brauche ich das?

llms.txt ist ein neuer Standard, der LLMs eine maschinenlesbare Zusammenfassung deiner Website liefert. Es ist kein offizieller W3C-Standard, wird aber von immer mehr KI-Systemen unterstützt. Wenn du KI-Sichtbarkeit ernst meinst, solltest du es implementieren - der Aufwand ist minimal, der potenzielle Nutzen hoch.

Reicht Schema.org Markup allein für KI-Sichtbarkeit?

Nein. Schema.org ist eine von drei technischen Säulen (neben Crawlbarkeit und semantischem HTML). Aber ohne Schema.org fehlt LLMs der Kontext, um deine Inhalte korrekt einzuordnen. Es ist notwendig, aber nicht hinreichend.

Können JavaScript-Websites in KI sichtbar sein?

Nur wenn sie Server-Side Rendering (SSR) oder Static Site Generation (SSG) verwenden. Reine Client-Side-Rendered SPAs sind für die meisten KI-Crawler unsichtbar, weil diese kein JavaScript ausführen. Next.js, Nuxt oder Astro lösen das Problem durch SSR/SSG.

Wie teste ich, ob KI-Crawler meine Website lesen können?

Drei Methoden: 1) Server-Logs auf GPTBot, PerplexityBot und ClaudeBot prüfen. 2) curl -A "GPTBot" auf deine URL ausführen und prüfen, ob Content zurückkommt. 3) In der Google Search Console unter "Crawl-Statistiken" nach KI-Bot-Zugriffen suchen. Alternativ die Seite mit deaktiviertem JavaScript im Browser laden - was du siehst, sieht auch der KI-Crawler.

Wie schnell wirken technische Optimierungen auf KI-Sichtbarkeit?

Perplexity crawlt in Echtzeit - Änderungen können innerhalb von Tagen wirken. ChatGPT und Claude trainieren in Zyklen, hier dauert es 4-12 Wochen. Google AI Overviews reagieren ähnlich schnell wie die klassische Google-Suche, also Tage bis wenige Wochen.

Quellen

OpenAI (2024): GPTBot Dokumentation - User-Agent-Spezifikation und robots.txt-Richtlinien für GPTBot und OAI-SearchBot.
Anthropic (2024): ClaudeBot Web Crawling - Technische Dokumentation zum ClaudeBot-Crawler und Opt-out-Möglichkeiten.
llmstxt.org (2024): llms.txt Spezifikation - Vorschlag für einen Standard zur maschinenlesbaren Website-Zusammenfassung.
Google (2025): Search Central - Structured Data Guidelines und Core Web Vitals Dokumentation.
Perplexity (2024): PerplexityBot Dokumentation - Crawler-Verhalten und robots.txt-Unterstützung.
Web.dev (2025): Core Web Vitals - LCP, CLS, INP und TTFB Schwellenwerte und Optimierungsstrategien.

Ist deine Website KI-ready?

Finde heraus, ob KI-Crawler deine Website lesen können - oder ob du unbewusst blockierst. Kostenlose technische Kurzanalyse in 48 Stunden.

Kostenlose KI-Analyse anfragen

Lädt...

Technische KI-Sichtbarkeit: Warum KI-Crawler deine Website nicht verstehen

TL;DR

Das Problem: Deine Website spricht kein KI

Die vier häufigsten technischen Fehler

KI-Crawler: Wer ist wer?

GPTBot

OAI-SearchBot

PerplexityBot

ClaudeBot

Googlebot

Bingbot

robots.txt für KI-Sichtbarkeit

Wichtig: Was du NICHT blockieren solltest

Was du blockieren kannst

llms.txt: Der neue Standard für LLM-Sichtbarkeit

Implementierung

Schema.org Markup für LLMs

Organization / LocalBusiness

FAQPage

HowTo

Article mit Author

Product

Semantisches HTML: Warum Struktur alles ist

Die vier Regeln für KI-lesbares HTML

1. Heading-Hierarchie (H1 → H2 → H3)

2. Answer-first-Absätze (40-60 Wörter)

3. Tabellen für Vergleichsdaten

4. Listen für scannbare Inhalte

Core Web Vitals & Page Speed für KI

JavaScript Rendering: Das unsichtbare Problem

Frameworks mit SSR/SSG-Support

Technische Checkliste: Ist deine Website KI-ready?

Häufig gestellte Fragen

Welche KI-Crawler muss ich in robots.txt erlauben?

Was ist llms.txt und brauche ich das?

Reicht Schema.org Markup allein für KI-Sichtbarkeit?

Können JavaScript-Websites in KI sichtbar sein?

Wie teste ich, ob KI-Crawler meine Website lesen können?

Wie schnell wirken technische Optimierungen auf KI-Sichtbarkeit?

Quellen

Weiterführende Guides

KI-Sichtbarkeit: Der komplette Guide

Sichtbarkeit in ChatGPT

Sichtbarkeit in Perplexity

SEO vs. AI SEO

Ist deine Website KI-ready?

Technische KI-Sichtbarkeit: Warum KI-Crawler deine Website nicht verstehen

TL;DR

Das Problem: Deine Website spricht kein KI

Die vier häufigsten technischen Fehler

KI-Crawler: Wer ist wer?

GPTBot

OAI-SearchBot

PerplexityBot

ClaudeBot

Googlebot

Bingbot

robots.txt für KI-Sichtbarkeit

Wichtig: Was du NICHT blockieren solltest

Was du blockieren kannst

llms.txt: Der neue Standard für LLM-Sichtbarkeit

Implementierung

Schema.org Markup für LLMs

Organization / LocalBusiness

FAQPage

HowTo

Article mit Author

Product

Semantisches HTML: Warum Struktur alles ist

Die vier Regeln für KI-lesbares HTML

1. Heading-Hierarchie (H1 → H2 → H3)

2. Answer-first-Absätze (40-60 Wörter)

3. Tabellen für Vergleichsdaten

4. Listen für scannbare Inhalte

Core Web Vitals & Page Speed für KI

JavaScript Rendering: Das unsichtbare Problem

Frameworks mit SSR/SSG-Support

Technische Checkliste: Ist deine Website KI-ready?

Häufig gestellte Fragen

Welche KI-Crawler muss ich in robots.txt erlauben?