Was ist der Unterschied zwischen Crawling und Indexierung?

Crawling beschreibt das Abrufen einer Seite durch einen Suchmaschinen-Bot. Indexierung beschreibt die anschließende Aufnahme in den Suchindex. Eine Seite kann gecrawlt, aber nicht indexiert werden, etwa wegen eines noindex-Tags oder eines Canonicals, das auf eine andere Adresse zeigt.

Brauchen kleine Webseiten überhaupt eine sitemap.xml?

Eine Sitemap ist auch für kleine Seiten sinnvoll, weil sie Suchmaschinen eine vollständige Liste der wichtigen Adressen liefert. Pflicht ist sie nicht, denn Bots folgen auch internen Links. Bei guter interner Verlinkung ist der Effekt auf kleinen Seiten gering, der Aufwand aber ebenfalls.

Ist die Ladezeit ein direkter Rankingfaktor?

Google bestätigt die Core Web Vitals als Rankingsignal im Rahmen der Page Experience. Sie zählen als ein Faktor unter vielen, nicht als Hauptfaktor. Bei vergleichbar relevanten Seiten kann die schnellere die bessere Position erhalten, relevanter Inhalt bleibt aber die Grundlage.

Technisches SEO, die Grundlagen für auffindbare Webseiten

Crawlbarkeit, Indexierung, Sitemap, robots.txt, strukturierte Daten, Canonicals, hreflang und Ladezeit. Was technisches SEO ausmacht und wie es sauber umgesetzt wird.

Veröffentlicht am 25. November 20257 Min. Lesezeit

Was technisches SEO leistet und was nicht

Suchmaschinenoptimierung wird oft auf Inhalte und Schlüsselwörter verkürzt. Damit Inhalte überhaupt ranken können, muss eine Suchmaschine sie zuerst finden, abrufen und verstehen. Genau das ist die Aufgabe von technischem SEO. Es schafft die Voraussetzung, dass guter Inhalt sichtbar wird.

Drei Schritte laufen nacheinander ab. Eine Suchmaschine entdeckt eine Adresse, ruft den Inhalt ab (Crawling) und nimmt ihn in den Index auf (Indexierung). Erst danach kann die Seite zu einer Suchanfrage erscheinen. Bricht ein Schritt, hilft auch der beste Text nichts.

Technisches SEO ersetzt keinen guten Inhalt. Es sorgt dafür, dass guter Inhalt eine Chance bekommt.

Wir behandeln diese Grundlagen als Teil von "weiter denken". Wer früh klärt, wie eine Seite gefunden und gelesen wird, baut auf Fundament statt auf Hoffnung. Wie diese Haltung in den vier Bewegungen zusammenhängt, steht auf der Seite Mission.

Crawlbarkeit, der Zugang für Suchmaschinen

Crawlbarkeit bedeutet, dass ein Bot eine Seite erreichen und ihren Inhalt lesen kann. Die häufigsten Hürden sind hausgemacht. Inhalte, die nur per JavaScript nach dem Laden erscheinen, ohne serverseitige Vorbereitung. Wichtige Seiten, die von keinem internen Link erreichbar sind. Endlose Filter-URLs, die das Crawl-Budget verbrauchen, ohne neuen Inhalt zu liefern.

Eine flache, klare Seitenstruktur hilft am meisten. Als grobe Faustregel sollte jede relevante Seite in wenigen Klicks von der Startseite erreichbar sein. Interne Links sind dabei nicht nur Navigation, sondern auch der Weg, auf dem ein Bot die Seite entdeckt.

robots.txt steuert den Zugang

Die Datei robots.txt liegt im Wurzelverzeichnis einer Domain und sagt Bots, welche Bereiche sie nicht abrufen sollen. Sie ist ein Hinweis an kooperierende Crawler, kein Sicherheitsmechanismus und kein Indexierungsbefehl.

Ein häufiger und teurer Fehler ist die Verwechslung von robots.txt und noindex. Wird eine Seite per robots.txt gesperrt, kann der Bot sie nicht abrufen und damit auch kein noindex auf der Seite lesen. Eine versehentlich gesperrte Seite kann dann trotzdem in den Ergebnissen auftauchen, nur ohne brauchbaren Inhalt. Soll eine Seite aus dem Index verschwinden, gehört das noindex auf die Seite, und der Bot muss sie abrufen dürfen.

Indexierung, die Aufnahme in den Suchindex

Nur indexierte Seiten können in den Ergebnissen erscheinen. Ob eine Seite indexiert wird, hängt von mehreren Signalen ab, die zusammenpassen müssen. Die folgende Tabelle ordnet die wichtigsten Werkzeuge ihrer Wirkung zu.

Werkzeug	Wirkung	Typischer Einsatz
robots.txt Disallow	Verhindert das Abrufen, nicht die Indexierung	Admin-Bereiche, interne Suchergebnisse
Meta noindex	Verhindert die Aufnahme in den Index	Danke-Seiten, dünne Filterseiten
Canonical	Bündelt Duplikate auf eine Hauptadresse	Sortier- und Filtervarianten
sitemap.xml	Schlägt wichtige Adressen zum Crawlen vor	Alle indexierbaren Seiten

Ein Widerspruch zwischen diesen Signalen führt zu unvorhersehbaren Ergebnissen. Eine Seite, die in der Sitemap steht, aber ein noindex trägt, sendet zwei gegenläufige Aussagen. Sauberes technisches SEO heißt, dass alle Signale dieselbe Geschichte erzählen.

sitemap.xml und ihre richtige Pflege

Eine XML-Sitemap ist eine maschinenlesbare Liste der Adressen, die in den Index sollen. Sie ersetzt keine gute interne Verlinkung, ergänzt sie aber, besonders bei großen oder neuen Seiten, deren Inhalte sonst spät entdeckt würden.

Wichtig ist, dass eine Sitemap konsistent bleibt. Es gehören nur Adressen hinein, die tatsächlich indexierbar sind. Ein paar Regeln halten sie sauber.

Nur Seiten aufnehmen, die den Status 200 liefern und indexierbar sind.
Keine per noindex oder Canonical ausgeschlossenen Adressen listen.
Pro Sitemap höchstens 50.000 Adressen oder 50 MB unkomprimiert, sonst auf mehrere Dateien mit Index-Sitemap aufteilen.
Die Sitemap in der robots.txt referenzieren und in der Search Console einreichen.

Das Feld lastmod ist nur dann ein nützliches Signal, wenn es ehrlich gepflegt wird. Ein Datum, das bei jedem Build pauschal aktualisiert wird, verliert seine Aussagekraft, weil es keine echte inhaltliche Änderung mehr anzeigt.

Strukturierte Daten mit Schema.org

Strukturierte Daten beschreiben den Inhalt einer Seite in einem maschinenlesbaren Format. Das verbreitete Vokabular dafür ist Schema.org, die empfohlene Schreibweise ist JSON-LD in einem Script-Block im Quelltext. Damit lässt sich auszeichnen, dass ein Abschnitt ein Artikel, eine Organisation, ein Produkt oder eine FAQ ist.

Der Nutzen ist doppelt. Suchmaschinen verstehen den Kontext zuverlässiger, und passende Auszeichnungen können Rich Results ermöglichen, etwa Bewertungssterne oder aufklappbare Fragen. Eine Garantie auf solche Darstellungen gibt es nicht, denn die Suchmaschine entscheidet selbst, ob und wie sie sie anzeigt.

Zwei Grundsätze sind dabei verbindlich. Ausgezeichnet wird nur, was auf der Seite auch sichtbar ist. Und die Auszeichnung muss dem tatsächlichen Inhalt entsprechen. Strukturierte Daten, die etwas anderes behaupten als die sichtbare Seite, gelten als Verstoß gegen die Richtlinien und können zu manuellen Maßnahmen führen.

Canonicals und hreflang, Ordnung bei Duplikaten und Sprachen

Gleicher oder sehr ähnlicher Inhalt unter mehreren Adressen verwässert die Bewertung, weil sich Signale auf Varianten verteilen. Das Canonical-Tag (rel="canonical") benennt die bevorzugte Adresse und bündelt die Signale dort. Typische Fälle sind Sortier- und Filterparameter, Druckansichten oder dieselbe Seite mit und ohne abschließenden Schrägstrich.

Ein Canonical ist ein Hinweis, kein Befehl. Verlässlich wirkt es nur, wenn die übrigen Signale dazu passen, also interne Links auf die kanonische Adresse zeigen und diese in der Sitemap steht. Eine Seite, die per Canonical auf eine andere verweist, sollte sich selbst nicht zusätzlich auf noindex setzen, sonst widersprechen sich die Aussagen.

hreflang für mehrsprachige Seiten

Bei mehreren Sprach- oder Länderversionen sagt hreflang der Suchmaschine, welche Version zu welcher Sprache und Region gehört. So erhält ein Nutzer aus dem deutschsprachigen Raum die deutsche und ein englischsprachiger die englische Variante, statt dass beide als Duplikate gegeneinander konkurrieren. Drei Punkte entscheiden über die Wirkung.

Die Werte folgen dem Sprachcode nach ISO 639-1, optional mit Ländercode nach ISO 3166-1, etwa de oder en-US.
Die Verweise sind beidseitig. Verweist die deutsche auf die englische Seite, muss die englische zurück auf die deutsche verweisen.
Ein Eintrag mit x-default benennt die Standardversion für nicht abgedeckte Sprachen.

Eine bilinguale Seite mit deutscher und englischer Version, wie wir sie bauen, braucht für jede indexierbare Seite ein vollständiges, gegenseitiges hreflang-Set. Fehlt der Rückverweis, ignorieren Suchmaschinen die Angabe.

Ladezeit als Rankingfaktor

Geschwindigkeit ist ein bestätigtes Rankingsignal, gemessen über die Core Web Vitals. Drei Kennzahlen bilden die Nutzererfahrung beim Laden und Bedienen ab. Die folgenden Schwellen markieren laut Google den Bereich "gut".

Metrik	Misst	Schwelle gut
LCP (Largest Contentful Paint)	Ladezeit des größten sichtbaren Elements	unter 2,5 Sekunden
INP (Interaction to Next Paint)	Reaktionszeit auf Eingaben	unter 200 Millisekunden
CLS (Cumulative Layout Shift)	Visuelle Stabilität beim Laden	unter 0,1

INP hat im März 2024 die ältere Metrik FID als Core Web Vital abgelöst und misst die Reaktionsfähigkeit über die gesamte Sitzung, nicht nur bei der ersten Interaktion. Die größten Hebel sind meist unspektakulär. Bilder in passender Größe und modernem Format, weniger und kleineres JavaScript, server- oder edge-seitiges Rendern statt aufwendiger Client-Logik und das Reservieren von Platz für nachladende Elemente gegen Layout-Sprünge.

Wichtig ist die Datenbasis. Lab-Werte aus einem Test zeigen das Potenzial unter kontrollierten Bedingungen, Felddaten aus echten Besuchen zeigen die tatsächliche Erfahrung. Für eine Bewertung zählen die Felddaten, denn sie spiegeln reale Geräte und Netze.

Wie diese Bausteine zusammenwirken

Technisches SEO ist kein einmaliges Projekt, sondern ein Zustand, der gepflegt wird. Crawlbarkeit öffnet den Zugang, Indexierungssignale bestimmen die Aufnahme, Sitemap und interne Links lenken die Entdeckung, strukturierte Daten schärfen das Verständnis, Canonical und hreflang ordnen Duplikate und Sprachen, und die Ladezeit verbessert die Position bei sonst gleichwertigem Inhalt.

Der häufigste Fehler ist nicht das fehlende Detail, sondern der Widerspruch zwischen Signalen. Eine Seite, auf der robots.txt, noindex, Canonical, Sitemap und interne Links dieselbe Aussage treffen, ist für eine Suchmaschine eindeutig. Eindeutigkeit ist hier der eigentliche Rankingvorteil.

Für eine konkrete Bestandsaufnahme lässt sich eine bestehende Seite gegen genau diese Punkte prüfen. Ein technisches SEO-Audit deckt Widersprüche und blockierte Bereiche auf, bevor sie Sichtbarkeit kosten. Den Einstieg dazu klären wir in einem Gespräch über das Projekt.

Wie sauber ist eine Webseite technisch aufgestellt? Wir prüfen Crawlbarkeit, Indexierung und Ladezeit und zeigen konkrete Ansatzpunkte.