Lädt...
Lädt...
Deine IT hat GPTBot blockiert und du wunderst dich, warum ChatGPT dich nicht kennt. Hier sind die technischen Grundlagen, die darüber entscheiden, ob KI deine Website lesen, verstehen und zitieren kann.
KI-Crawler lesen Websites fundamental anders als der Googlebot. Sie führen kein JavaScript aus. Sie rendern keine CSS-Layouts. Sie sehen keine Bilder. Was sie sehen: rohes HTML, strukturierte Daten und Textinhalt. Und wenn das nicht stimmt, existierst du nicht.
Dein CMS rendert JavaScript. KI-Crawler können kein JavaScript. Problem.
70% der Unternehmens-Websites blockieren mindestens einen KI-Crawler - unbewusst.
Aus berechtigter Angst vor Datenklau haben viele Unternehmen 2024 alle KI-Crawler ausgesperrt. Jetzt stellen sie entsetzt fest, dass sie sich aus dem Zukunftsmarkt zensiert haben.
Viele Security-Plugins und WAFs blockieren GPTBot, PerplexityBot und ClaudeBot pauschal. Dein IT-Team hat vermutlich keine böse Absicht - aber das Ergebnis ist dasselbe: deine Website ist für KI unsichtbar.
Sechs Crawler entscheiden über deine KI-Sichtbarkeit. Blockierst du einen, bist du auf der jeweiligen Plattform unsichtbar.
Trainingsdaten für GPT-Modelle
User-Agent: GPTBot/1.0User-agent: GPTBotLive-Suche in ChatGPT (SearchGPT)
User-Agent: OAI-SearchBot/1.0User-agent: OAI-SearchBotEchtzeit-Index für Perplexity-Antworten
User-Agent: PerplexityBotUser-agent: PerplexityBotTrainingsdaten und Web-Suche für Claude
User-Agent: ClaudeBot/1.0User-agent: ClaudeBotIndexierung und AI Overviews
User-Agent: Googlebot/2.1User-agent: GooglebotIndexierung, speist ChatGPT und Perplexity
User-Agent: bingbot/2.0User-agent: BingbotBingbot ist der stille Multiplikator: Er speist sowohl ChatGPT als auch Perplexity mit Daten. Blockierst du Bingbot, verlierst du gleich zwei Plattformen.
Die robots.txt ist die erste Tür, die KI-Crawler öffnen. Ist sie zu, gehen sie weiter. Keine zweite Chance.
Viele Unternehmen haben nach dem KI-Hype 2024 pauschal alle KI-Bots blockiert. Das war nachvollziehbar - aber strategisch ein Fehler. Du kannst selektiv erlauben, was du öffentlich machen willst, und den Rest schützen.
robots.txt - KI-optimiert
# Alle KI-Crawler explizit erlauben User-agent: GPTBot Allow: / Disallow: /intern/ Disallow: /api/ User-agent: OAI-SearchBot Allow: / User-agent: PerplexityBot Allow: / User-agent: ClaudeBot Allow: / User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / # Standard-Crawler User-agent: * Allow: / Disallow: /intern/ Disallow: /api/ Sitemap: https://example.com/sitemap.xml
llms.txt ist ein Vorschlag für eine standardisierte Datei im Root-Verzeichnis deiner Website, die LLMs eine kompakte, maschinenlesbare Zusammenfassung deines Unternehmens liefert. Ähnlich wie robots.txt für Crawler oder humans.txt für Menschen.
Der Unterschied: robots.txt sagt Crawlern, was sie dürfen. llms.txt sagt LLMs, wer du bist und was du anbietest. Es ist dein Elevator Pitch für Maschinen.
llms.txt - Beispiel
# llms.txt - [Firmenname] ## Unternehmen [Firmenname] ist ein [Branche]-Unternehmen in [Stadt]. Wir bieten [Kernleistungen]. ## Leistungen - [Leistung 1]: [Kurzbeschreibung] - [Leistung 2]: [Kurzbeschreibung] - [Leistung 3]: [Kurzbeschreibung] ## Zielgruppe [Wer sind eure Kunden? Branche, Größe, Region] ## Kontakt - Website: https://example.com - E-Mail: kontakt@example.com - Standort: [Stadt, Region] ## Wichtige Seiten - /leistungen - Übersicht aller Leistungen - /ueber-uns - Über das Unternehmen - /blog - Fachartikel und Insights - /kontakt - Kontaktformular
llms.txt im Root deiner Domain (z.B. https://example.com/llms.txt)Strukturierte Daten sind für KI-Systeme das, was ein Organigramm für einen neuen Mitarbeiter ist: Kontext, Einordnung, Beziehungen. Ohne Schema.org bist du für LLMs ein unbekannter Textblock.
Entity Identity - Wer bist du? Ohne dieses Schema kann KI dich nicht als Entität erkennen.
JSON-LD: LocalBusiness
{
"@context": "https://schema.org",
"@type": "LocalBusiness",
"name": "Firmenname",
"description": "Kurzbeschreibung der Leistungen",
"url": "https://example.com",
"telephone": "+49-40-1234567",
"address": {
"@type": "PostalAddress",
"streetAddress": "Musterstraße 1",
"addressLocality": "Hamburg",
"postalCode": "20095",
"addressCountry": "DE"
},
"geo": {
"@type": "GeoCoordinates",
"latitude": 53.5511,
"longitude": 9.9937
},
"areaServed": "Hamburg",
"sameAs": [
"https://linkedin.com/company/firmenname",
"https://instagram.com/firmenname"
]
}Direkte Antworten auf Nutzerfragen. Hochrelevant für KI, weil LLMs FAQ-Strukturen bevorzugt extrahieren.
JSON-LD: FAQPage
{
"@context": "https://schema.org",
"@type": "FAQPage",
"mainEntity": [
{
"@type": "Question",
"name": "Was kostet Leistung X?",
"acceptedAnswer": {
"@type": "Answer",
"text": "Leistung X kostet ab 500 Euro..."
}
}
]
}Schritt-für-Schritt-Anleitungen. Ideal für prozessbasierte Inhalte, die KI als Handlungsanweisung weitergeben kann.
E-E-A-T-Signal: Wer hat den Inhalt geschrieben? Echte Autoren mit Expertise werden von KI bevorzugt zitiert.
Für kommerzielle Inhalte: Preis, Verfügbarkeit, Bewertungen. Wird von KI für Kaufempfehlungen herangezogen.
Schema.org liefert KI den Kontext. Ohne Kontext bist du ein anonymer Textblock unter Millionen.
KI-Crawler sehen kein Design. Sie sehen DOM-Struktur. Ein perfekt gestalteter Abschnitt in einem <div> ohne semantische Bedeutung ist für LLMs unsichtbar. Ein klar strukturiertes <article> mit sauberer Heading-Hierarchie wird extrahiert und zitiert.
Genau ein H1 pro Seite. H2 für Hauptabschnitte. H3 für Unterabschnitte. Keine Sprünge (kein H1 → H4). LLMs nutzen die Heading-Struktur, um Inhalte thematisch zu gruppieren.
Der erste Satz jedes Absatzes beantwortet die Frage. Dann kommt der Kontext. LLMs extrahieren bevorzugt die ersten 40-60 Wörter eines Abschnitts. Wenn deine Antwort erst im dritten Satz steht, wird sie abgeschnitten.
Strukturierte Vergleiche in HTML-Tabellen werden von KI bevorzugt extrahiert. Nutze <table>, <thead>, <tbody> mit sauberen Headern.
Geordnete (<ol>) und ungeordnete (<ul>) Listen werden von LLMs als eigenständige Informationseinheiten erkannt. Ideal für Checklisten, Aufzählungen und Schrittfolgen.
Semantisches HTML - richtig vs. falsch
<!-- FALSCH: Div-Suppe -->
<div class="section">
<div class="title">Unsere Leistungen</div>
<div class="text">Wir bieten X, Y und Z an.</div>
</div>
<!-- RICHTIG: Semantisches HTML -->
<article>
<h2>Unsere Leistungen</h2>
<p>Wir bieten X, Y und Z an. [Antwort zuerst]</p>
<ul>
<li>Leistung X: Beschreibung</li>
<li>Leistung Y: Beschreibung</li>
<li>Leistung Z: Beschreibung</li>
</ul>
</article>KI-Crawler haben Timeout-Limits. Wenn deine Seite zu langsam antwortet, bricht der Crawler ab und indexiert nichts. Schnelle Seiten werden häufiger gecrawlt und vollständiger indexiert.
| Metrik | Zielwert | Relevanz für KI |
|---|---|---|
| LCP (Largest Contentful Paint) | ≤ 2,5s | Crawler brechen bei langsamer Antwort ab |
| CLS (Cumulative Layout Shift) | ≤ 0,1 | Indirekt: Google-Ranking beeinflusst KI-Datenquellen |
| INP (Interaction to Next Paint) | ≤ 200ms | Indirekt: Nutzererfahrung beeinflusst Engagement-Signale |
| TTFB (Time to First Byte) | ≤ 800ms | Direkt: Crawler-Timeout-Schwelle |
TTFB ist die kritischste Metrik für KI-Crawler. Wenn dein Server länger als 800ms braucht, um zu antworten, wird der Crawl-Versuch möglicherweise abgebrochen. CDNs, Edge-Caching und Server-Side Rendering sind deine Werkzeuge.
Die meisten KI-Crawler führen kein JavaScript aus. Was bedeutet das? Wenn deine Website eine Single-Page-Application (SPA) ist, die Content erst nach dem Laden per JavaScript rendert, sehen KI-Crawler eine leere Seite. Buchstäblich.
Googlebot kann JavaScript rendern (mit Verzögerung). GPTBot, PerplexityBot und ClaudeBot können es nicht. Das heißt: Du kannst bei Google auf Platz 1 ranken und für ChatGPT gleichzeitig unsichtbar sein.
| Rendering | KI-Crawler sehen | Empfehlung |
|---|---|---|
| SSR (Server-Side Rendering) | Vollständigen Content | Empfohlen |
| SSG (Static Site Generation) | Vollständigen Content | Empfohlen |
| CSR (Client-Side Rendering) | Leere HTML-Hülle | Vermeiden |
| ISR (Incremental Static Regen.) | Vollständigen Content | Empfohlen |
Mindestens GPTBot und OAI-SearchBot (OpenAI/ChatGPT), PerplexityBot (Perplexity), ClaudeBot (Anthropic) und Googlebot (Google AI Overviews). Bingbot ist ebenfalls wichtig, weil er Daten an ChatGPT und Perplexity liefert. Blockierst du einen davon, bist du auf der jeweiligen Plattform unsichtbar.
llms.txt ist ein neuer Standard, der LLMs eine maschinenlesbare Zusammenfassung deiner Website liefert. Es ist kein offizieller W3C-Standard, wird aber von immer mehr KI-Systemen unterstützt. Wenn du KI-Sichtbarkeit ernst meinst, solltest du es implementieren - der Aufwand ist minimal, der potenzielle Nutzen hoch.
Nein. Schema.org ist eine von drei technischen Säulen (neben Crawlbarkeit und semantischem HTML). Aber ohne Schema.org fehlt LLMs der Kontext, um deine Inhalte korrekt einzuordnen. Es ist notwendig, aber nicht hinreichend.
Nur wenn sie Server-Side Rendering (SSR) oder Static Site Generation (SSG) verwenden. Reine Client-Side-Rendered SPAs sind für die meisten KI-Crawler unsichtbar, weil diese kein JavaScript ausführen. Next.js, Nuxt oder Astro lösen das Problem durch SSR/SSG.
Drei Methoden: 1) Server-Logs auf GPTBot, PerplexityBot und ClaudeBot prüfen. 2) curl -A "GPTBot" auf deine URL ausführen und prüfen, ob Content zurückkommt. 3) In der Google Search Console unter "Crawl-Statistiken" nach KI-Bot-Zugriffen suchen. Alternativ die Seite mit deaktiviertem JavaScript im Browser laden - was du siehst, sieht auch der KI-Crawler.
Perplexity crawlt in Echtzeit - Änderungen können innerhalb von Tagen wirken. ChatGPT und Claude trainieren in Zyklen, hier dauert es 4-12 Wochen. Google AI Overviews reagieren ähnlich schnell wie die klassische Google-Suche, also Tage bis wenige Wochen.
Was KI-Sichtbarkeit bedeutet, warum sie entscheidend ist und wie du sie erreichst.
Wie du in ChatGPT-Antworten erscheinst und was OpenAI als Quelle bevorzugt.
Der schnellste Kanal für KI-Sichtbarkeit. Taktiken und Messung.
Die Unterschiede zwischen klassischem SEO und KI-Optimierung.
Finde heraus, ob KI-Crawler deine Website lesen können - oder ob du unbewusst blockierst. Kostenlose technische Kurzanalyse in 48 Stunden.
Kostenlose KI-Analyse anfragen