Durch die Optimierung des Crawlers (Durchsuchen der Website nach Suchmaschinen-Robots) können Suchmaschinen URLs so effizient wie möglich ermitteln. Relevante Seiten müssen leicht zu finden sein, während weniger wichtige Seiten nicht das sogenannte “Crawl-Budget” verschwenden und keine Roboterfallen aufstellen sollten. Das Crawl-Budget ist definiert als die Anzahl der URLs, die Suchmaschinen analysieren können und möchten.
Die Suchmaschinen weisen jeder Website je nach Berechtigung ein Crawl-Budget zu. Im Allgemeinen ist die Autorität einer Site in gewissem Maße proportional zu ihrem PageRank.
Das Konzept des Crawl-Budgets ist für E-Commerce-Websites von entscheidender Bedeutung, da sie in der Regel eine Vielzahl von URLs enthalten – von Zehntausenden bis zu Millionen.
Wenn die technische Architektur Suchmaschinenroboter (auch als robot, bot oder spider bezeichnet) in Endlosschleifen und anderen Fallen einsetzt, wird das Crawl-Budget auf Seiten verschwendet, die für Benutzer oder Suchmaschinen nicht wichtig sind. Diese Verschwendung kann zur Entzündung wichtiger Seiten durch Suchmaschinenindikatoren führen.
Durch die Crawl-Optimierung können große Websites außerdem die Möglichkeit nutzen, nur die wichtigen indexierten Seiten und Seiten mit einem kleineren PageRank häufiger analysieren zu lassen.[1]
Die Anzahl der URLs, die Google indexieren kann, hat sich mit der Einführung der Percolator-Architektur[2] nach der Aktualisierung von “Caffeine”[3] dramatisch erhöht. Es ist jedoch weiterhin wichtig zu überprüfen, welche Ressourcen die Suchmaschinenroboter auf der Website benötigen, und die Crawl-Aktion entsprechend zu priorisieren.
Bevor wir beginnen, ist es wichtig zu verstehen, dass Crawler und Indexierung zwei verschiedene Prozesse sind. Der Crawler bezieht sich nur auf das Abrufen von Dateien von Websites. Die Indexierung bedeutet, Dateien zu analysieren und zu entscheiden, ob sie berücksichtigt werden sollen. Selbst wenn Suchmaschinen eine Seite crawlen, werden sie sie daher nicht unbedingt indexieren.
Der Crawler wird von verschiedenen Faktoren beeinflusst, wie z. B. der Website-Struktur, der internen Verknüpfung, der Domain-Berechtigung, der URL-Zugänglichkeit, der Aktualität des Inhalts, der Häufigkeit von Aktualisierungen und den Einstellungen für die Crawl-Rate in der Google Search Console oder im Bing Webmaster.
Bevor Sie diese Faktoren detailliert beschreiben, müssen Sie die Tracking-Roboter nachverfolgen und überwachen.
Verfolgung und Überwachung von Suchrobotern
Googlebot, Yahoo! Slurp und Bingbot sind höfliche Roboter[4], das bedeutet, dass sie zuerst die Crawl-Anweisungen in den robots.txt-Dateien einhalten, bevor sie Ressourcen von der Website anfordern. Die höflichen Roboter identifizieren sich mit dem Webserver, sodass Sie sie nach Belieben steuern können. Roboteranforderungen werden in Protokolldateien gespeichert und stehen zur Analyse zur Verfügung.
Webmaster-Tools wie die von Google und Bing zeigen nur einen kleinen Teil der Aktivitäten von Robotern auf der Website an, z. B. die Anzahl der gecrawlten Seiten oder die Bandbreitennutzungsdaten(bandwith). Diese Informationen sind in gewisser Weise nützlich, aber nicht ausreichend.
Für wirklich nützliche Aussichten müssen Sie Verkehrsprotokolldateien(traffic log files) analysieren. Aus diesen können Sie Informationen extrahieren, mit deren Hilfe Sie Probleme in großem Maßstab identifizieren können.
Traditionell wurde die Analyse von Protokolldateien mithilfe der grep-Befehlszeile mit regulären Ausdrücken durchgeführt. In letzter Zeit gibt es aber auch Desktop- und Web-Lösungen, die diese Art der technischen Analyse vereinfachen und für Händler zugänglicher machen.
Auf E-Commerce-Websites sind monatliche Protokolldateien normalerweise riesig – Gigabyte oder sogar Terabyte an Daten. Sie benötigen jedoch nicht alle Daten in den Protokolldateien, um Suchmaschinenroboter zu verfolgen und zu überwachen. Sie benötigen lediglich die Zeilen, die von den Roboteranforderungen generiert wurden. Auf diese Weise können Sie die Größe der Protokolldateien von Gigabyte auf Megabyte erheblich reduzieren.
Mit dem folgenden Linux-Befehl (der Befehl ist empfindlich gegen Großbuchstaben) extrahieren Sie nur die Zeilen, die “Googlebot” enthalten, aus einer Protokolldatei (access_log.processed) in eine andere (googlebot.log):
grep “Googlebot” access_log.processed > googlebot.log
Um ähnliche Daten für Bing und andere Suchmaschinen zu extrahieren, ersetzen Sie “Googlebot” durch andere Roboternamen.
Die Protokolldatei wurde von 162,5 MB auf 1,4 MB reduziert.
Öffnen Sie die roboterspezifische Protokolldatei, navigieren Sie zu Data Text to Columns und benutzen Sie Delimited with Space um die Protokolldateidaten in einem Tabellenformat wie dem folgenden einzuführen:
Die Daten werden nach Status gefiltert, um eine Liste aller 404 Not Found-Fehler bei der Googlebot getroffen zu erhalten.
Hinweis: Sie können höchstens eine Million Zeilen in Excel importieren. Wenn Sie mehr importieren müssen, verwenden Sie MS Access oder Notepad ++.
Erstellen Sie für jede Kategorie ein Googlebot-Suchdiagramm, um Crawl-Probleme auf der Ebene der Kategorieseiten schnell zu identifizieren. Sehen Sie jetzt einen der Vorteile der kategoriebasierten Navigation in der URL-Struktur?
Es scheint, dass das Dateiverzeichnis / bracelets / untersucht werden sollte, weil es im Vergleich zu anderen Verzeichnissen zu wenige Roboteranforderungen gibt.
Durch die Pivotisierung der Protokolldateidaten nach URLs und Crawl-Daten, können Sie den Inhalt identifizieren, der vom Googlebot am seltensten angezeigt wird:
Die Daten, als die URLs übernommen wurden(fetched).
In dieser Pivot-Tabelle können Sie sehen, dass obwohl sich die drei URLs in der Hierarchie auf derselben Ebene befinden, URL Nummer 3 häufiger als die beiden anderen gecrawlt wird. Das ist ein Zeichen dafür, dass URL # 3 als wichtiger angesehen wird.
Mehr externe Rückverweisse und Erwähnungen auf sozialen Plattformen könnten zu einer höheren Häufigkeit von Crawler führen.
Im Folgenden sind einige Probleme und Ideen aufgeführt, die bei der Analyse des Roboterverhaltens mithilfe von Protokolldateien zu berücksichtigen sind:
- Analysieren Sie die Serverantwortfehler und ermitteln Sie, was diese Fehler verursacht.
- Ermitteln Sie die Seiten, die unnötigerweise gecrawlt werden und überprüfen Sie die URL-Fallen.
- Ordnen Sie die Tage seit der letzten Crawl-Aktion den Positionen zu. Stellen Sie beim Ändern einer Seite sicher, dass Sie sie erneut crawlen. Wenn Sie die neue Seite nicht durchsuchen, werden die Aktualisierungen erst nach dem natürlichen Crawlen von Googlebot für die Positionierung gezählt (auf Websites mit einer großen Anzahl von URLs kann es Monate dauern).
- Analysieren Sie, ob die in den Top-Listen aufgeführten Produkte häufiger gecrawlt werden als die auf den Komponentenseiten (Seitenlisten) aufgeführten Produkte. Ziehen Sie in Betracht, die wichtigsten Produkte auf die erste Seite zu verschieben, anstatt sie auf den Komponentenseiten zu belassen.
- Überprüfen Sie die Häufigkeit und Tiefe des Crawl-Vorgangs.
Der Zweck der Roboterverfolgung besteht darin:
- Ermitteln, wofür das Crawl-Budget verwendet wird.
- Identifizieren die unnötige Anfragen (z. B. Links so wie „Schreib einer Bewertung”, die Seiten mit demselben Inhalt öffnen, mit Ausnahme des Produktnamens, z. B. mysite.com/review.php?pid=1, mysite.com /review.php?pid=2 und so weiter).
- Abflüsse beheben.
Statt Ihr Budget für unerwünschte URLs (z. B. doppelte Inhalts-URLs) zu verschwenden, sollten Sie sich darauf konzentrieren, Roboter an Seiten zu senden, die für Sie und Ihre Website-Benutzer von Bedeutung sind.
Eine weitere nützliche Anwendung von Protokolldateien ist die Bewertung der Qualität von Rückverweissen. Mieten Sie Links von verschiedenen externen Websites und verweisen Sie auf Seiten ohne andere Rückverweisse (Produktdetailseiten oder Seiten, die Produktdetailseiten unterstützen). Analysieren Sie dann die Aktivität der Roboter auf diesen Seiten Ihrer Site. Wenn die Crawl-Häufigkeit zunimmt, ist diese Verknüpfung wertvoller als eine Verknüpfung, die die Aktivität der Roboter überhaupt nicht erhöht. Eine Erhöhung der Seiten-Crawl-Rate deutet darauf hin, dass die Seite, auf der Sie den Link erhalten haben, auch häufig gecrawlt wird. Das bedeutet, dass die Seite über eine gute Berechtigung verfügt. Wenn Sie die richtigen Möglichkeiten gefunden haben, versuchen Sie, natürliche Links von diesen Websites zu erhalten.
Flache Website-Struktur
Wenn der Crawl-Vorgang großer Websites nicht durch andere technische Hindernisse behindert wird (z. B. durch facettierte Navigation, die möglicherweise dem Crawl-Prozess unterworfen ist, oder durch unendliche Leerzeichen[5]), kann eine flache Website-Struktur dem Crawler unterstützen, indem die Suchmaschinen die Seiten gründlich durchsuchen nur in wenigen Schritten und damit sehr effizient mit dem zugewiesenen Budget.
Paginierung – oder genauer gesagt, Depaginierung – ist eine Möglichkeit, die Architektur Ihrer Website zu reduzieren. Wir werden später im Abschnitt Listingseiten eingehen. .
Weitere Informationen zur flachen Architektur der Website finden Sie im Abschnitt Das flache Architekturkonzept im Abschnitt Site-Architektur.
Die Zugänglichkeit
Ich beziehe mich auf die Zugänglichkeit im Sinne der Suchmaschinenoptimierung, nicht auf die Zugänglichkeit der Benutzer.
Die Zugänglichkeit ist wahrscheinlich der kritische Faktor für den Crawl-Vorgang. Ihr Crawl-Budget hängt davon ab, wie der Server auf Roboterverkehr reagiert. Wenn die technische Architektur der Website verhindert, dass Suchmaschinenroboter auf die URLs zugreifen, werden diese URLs nicht indexiert. Bereits indexierte URLs, auf die nach einigen erfolglosen Versuchen nicht zugegriffen werden kann, können aus den Suchmaschinenindizien entfernt werden.
Google beginnt mit dem Crawlen neuer Websites mit einer sehr geringen Rate, dann erhöht Google die Rate schrittweise auf ein Niveau, bei dem für Nutzer oder Ihren Server keine Probleme mit der Zugänglichkeit auftreten.
Was kann also den Zugriff auf URLs und Inhalte verhindern?
DNS- und Konnektivitätsprobleme
Verwenden Sie http://www.intodns.com/, um DNS-Probleme zu überprüfen. Alles, was rot und gelb markiert ist, muss beachtet werden (auch wenn es sich um einen MX-Datensatz handelt).
Bericht von intodns.com.
Benutzen Sie die Google- und Bing-Webmaster-Konten um alle DNS- und Konnektivitätsprobleme zu lösen:
Bericht über Crawl-Informationen von Bing.
Google Site Error Bericht in der alten Version von GSC.[6]
Ein DNS-Problem, auf das Sie achten müssen, bezieht sich auf Wildcard-DNS-Einträge. Das bedeutet, dass der Webserver auf jede Subdomain-Anfrage mit einem 200-OK-Code antwortet, auch wenn diese nicht vorhanden sind. Ein noch schwerwiegenderes Problem im Zusammenhang mit DNS ist der Hostname, der nicht erkannt werden kann. Das bedeutet, dass die DNS-Suche fehlschlägt, wenn versucht wird, den Domänennamen aufzulösen.
Ein Händler hatte eine andere problematische DNS-Konfiguration. Zwei der Top-Domains der Ländercodes (ccTLDs) – US (.com) und UK (.co.uk) – wurden an dieselbe IP gesendet. Wenn Sie mehrere ccTLDs haben, hosten Sie diese auf verschiedenen IPs (idealerweise aus dem Land, in dem Sie mit ccTLDs arbeiten) und überprüfen Sie, wie der Domain-Name aufgelöst wird.
Wenn die Webserver ausgefallen sind, kann natürlich niemand auf die Website zugreifen (einschließlich Suchmaschinenroboter). Sie können die Verfügbarkeit Ihrer Site mit Überwachungstools wie Monitor.Us, Scoutt oder Site24x7 überprüfen.
Host load
Host load ist die maximale Anzahl gleichzeitiger Verbindungen, die ein Webserver unterstützen kann. Bei jeder Anforderung, eine Seite von Googlebot, Yahoo! Slurp oder Bingbot stellt eine Verbindung zu Ihrem Webserver her. Da Suchmaschinen das Crawlen von mehreren Computern gleichzeitig verwenden, können Sie theoretisch die Verbindungsbeschränkung erreichen, und die Website gibt auf (insbesondere, wenn Sie einen gemeinsamen Hosting-Plan mit anderen Websites haben).
Verwenden Sie Tools wie loadimpact.com, um zu überprüfen, wie viele Verbindungen Ihre Website unterstützen kann. Sei aber vorsichtig; während dieses Tests ist die Website möglicherweise nicht mehr verfügbar oder gibt sie sogar auf.
Wenn die Website bei einer großen Anzahl von Besuchern in weniger als zwei Sekunden geladen wird, ist alles in Ordnung – (Grafik erstellt von loadimpact.com).
Die Ladezeit der Seite
Die Ladezeit der Seite ist nicht nur ein Crawl-Faktor, sondern auch die Positionierung (ranking) und Benutzerfreundlichkeit (usability). Es wird gesagt, dass Amazon seinen Umsatz pro 100 ms Ladezeitverbesserung[7] um 1% erhöhte und Shopzilla seinen Umsatz um 7-12% erhöhte, wodurch die Ladezeit der Seite um fünf Sekunden[8] verkürzt wurde.
Es gibt zahlreiche Artikel über die Optimierung der Seitenladegeschwindigkeit und sie können recht technisch sein. Hier sind einige synthetische Aspekte, wie Sie Ladezeiten optimieren können:
- Halten Sie das Hochladen von Bildern hin, bis die Anzeige im Browser erforderlich ist.
- Verwenden Sie CSS-Sprites.
- Verwenden Sie HTTP2-Protokolle.
Amazon verwendet CSS, um die Anzahl der Anfragen an den Server zu minimieren.
Apple verwendete Sprites für die Hauptnavigation.
- Verwenden Sie Content Delivery Networks (CDNs) für Mediendateien und andere Dateien, die nicht zu oft aktualisiert werden.
- Datenbank- und Cache-Optimierung implementieren (serverseitiges Caching verwenden).
- Aktivieren Sie die HTTP-Komprimierung und implementieren Sie die bedingte GET-Funktionalität.
- Bilder optimieren.
- Verwenden Sie expires headers.[9]
- Stellen Sie ein schnelles und ansprechendes (oder anpassbares) Design bereit, um der Wert Time to first Byte (TTFB) zu verkürzen. Verwenden Sie http://webpagetest.org/, um den TTFB zu messen. Es scheint eine klare Korrelation zwischen den schwächeren Positionen und einer höheren TTFB-Rate zu geben.[10]
Wenn die Seiten stark geladen werden, wird dies möglicherweise von Suchmaschinen als Konnektivitätsproblem interpretiert. Dies bedeutet, dass der problematische URL-Crawl-Vorgang abgebrochen wird.
Die Zeit, die Google zum Herunterladen einer Seite benötigt, scheint die Anzahl der Seiten zu beeinflussen, die vom Server angefordert werden. Je kürzer die Seiten-Download-Zeit ist, desto mehr Seiten werden angefordert/ durchsucht.
Die Korrelation zwischen der zum Herunterladen einer Seite aufgewendeten Zeit und der Anzahl der pro Tag gecrawlten Seiten ist in diesem Diagramm offensichtlich.
Tote Links (broken links)
Es ist offensichtlich. Wenn die internen Links defekt sind, können die Roboter die richtigen Seiten nicht finden. Führen Sie mit einem Crawl-Tool Ihrer Wahl ein vollständiges Crawlen der gesamten Website durch und reparieren Sie alle defekte URLs. Verwenden Sie auch die von Suchmaschinen bereitgestellten Webmaster-Tools, um nach defekten URLs zu suchen.
HTTP-Caching mit Last-Modified / If-Modified-Since- und E-Tag-Headern
Im Sinne einer Optimierung des Crawlers bezieht sich der Begriff “Cache” auf eine Seite, die im Index einer Suchmaschine gespeichert ist. Denken Sie daran, Caching ist ein sehr technisches Problem und falsche Einstellungen können dazu führen, dass Suchmaschinen Ihre Website chaotisch crawlen und indexieren.
Wenn eine Suchmaschine eine Ressource von der Website anfordert, fordert sie zunächst den Webserver auf, den Status dieser Ressource zu überprüfen. Der Server antwortet mit einer Header-Antwort. Basierend auf dieser Header-Antwort entscheiden sich Suchmaschinen, die Ressource herunterzuladen oder zu überspringen.
Viele Suchmaschinen überprüfen, ob sich die angeforderte Ressource seit dem letzten Crawlen geändert hat. Wenn es sich geändert hat, müssen sie es erneut abrufen(fetch) – wenn nicht, werden sie es überspringen. Dieser Mechanismus wird als bedingtes GET bezeichnet. Bing hat bestätigt, dass der If-Modified-Since-Header[11] verwendet wird, ebenso wie Google.[12]
Unten finden Sie die Headerantwort(header response) für eine neu entdeckte Seite, die den If-Modified-Since-Header unterstützt, wenn eine Zugriffsanforderung vorliegt.
Verwenden Sie den Befehl curl, um das letzte Mal abzurufen, wenn Sie ein Dokument ändern.
Wenn der Roboter das nächste Mal dieselbe URL anfordert, fügt er eine If-Modified-Since-Anforderung hinzu. Wenn das Dokument nicht geändert wurde, antwortet es mit einem Statuscode 304 (Page Not Modified):
Eine Antwort vom Typ 304 im Header.
If-Modified-Since spielt 304 Not Modified ab, wenn die Seite nicht geändert wurde. Bei einer Änderung lautet die Antwort in der Kopfzeile 200 OK, und die Suchmaschine durchsucht die Seite erneut. Der E-Tag-Header funktioniert genauso, ist jedoch schwieriger zu verwalten.
Wenn Ihre E-Commerce-Plattform angepasst wird oder wenn sich der Inhalt auf jeder Seite häufig ändert, ist es möglicherweise schwieriger, HTTP-Caching zu implementieren, aber selbst dynamische Seiten können If-Modified-Since unterstützen.[13]
Die Sitemaps
Es gibt zwei Haupttypen von Sitemaps:
- HTML-Sitemaps
- XML-Sitemaps
Sie können Sitemaps im folgenden Format einreichen: Nur-Text-Dateien, RSS oder mRSS.
Wenn Sie Probleme beim Crawlen und Indexierung haben, beachten Sie, dass Sitemaps nur eine kurzfristige Lösung für schwerwiegendere Probleme sind, z. B. doppelte, dünne Inhalte oder falsche interne Links. Das Erstellen von Sitemaps ist eine gute Idee, löst diese Probleme jedoch nicht.
HTML-Sitemaps
HTML-Sitemaps sind eine sekundäre Navigationsform. Sie sind normalerweise für Personen und Roboter über einen Link zugänglich, der sich unten auf der Website in der Fußzeile(footer) befindet.
Eine Benutzerfreundlichkeitsstudie auf mehreren Websites, einschließlich E-Commerce, ergab, dass HTML-Sitemaps nur selten verwendet werden. Im Jahr 2008 haben sich nur 7% der Benutzer an die Sitemap gewandt, um die Struktur einer Website zu ermitteln[14]. Im Jahr 2002 waren es noch 27%. Heute ist der Prozentsatz wahrscheinlich noch niedriger.
HTML-Sitemaps eignen sich jedoch zum Senden von Robotern an Seiten auf den unteren Ebenen der Website-Taxonomie und zum Erstellen eines flachen internen Links.
Muster einer flachen Architektur.
Hier sind einige Optimierungstipps für HTML-Sitemaps:
Verwenden Sie segmentierte Sitemaps
Bei der Optimierung von HTML-Sitemaps für das Crawlen ist zu beachten, dass der PageRank von allen Links auf einer Seite gemeinsam genutzt wird. Die Unterteilung von HTML-Sitemaps in kleinere Segmente ist eine hervorragende Möglichkeit, benutzerfreundlichere Seiten und Suchmaschinen für große Websites wie E-Commerce zu erstellen.
Erstellen Sie anstelle einer großen Sitemap-Seite, die auf fast jede Seite der Website verweist, eine Hauptindex-Sitemap-Seite (z. B. sitemap.html) und verknüpfen Sie sie mit kleineren Seiten der Sitemap (sitemap- 1.html, sitemap-2.html) , usw.).
Sie können HTML-Sitemaps nach Thema, Kategorie, Abteilung oder Marke aufteilen. Beginnen Sie mit der Auflistung der Hauptkategorien auf der Indexseite. Wie Sie Seiten aufteilen, hängt von der Anzahl der Kategorien, Unterkategorien und Produkte in Ihrem Katalog ab.
Sie können die Regel “100 Links pro Seite” als Empfehlung verwenden, aber halten Sie sich nicht an diese Zahl, insbesondere wenn die Website eine gute Berechtigung hat.
Wenn Sie mehr als 100 Top-Kategorien haben, sollten Sie die Top-100 auf der Index-Sitemap-Seite und den Rest auf zusätzlichen Sitemap-Seiten auflisten. Sie können Benutzern und Suchmaschinen erlauben, die Sitemap mithilfe von Links zu vorherigen und nächsten Seiten zu durchsuchen (z. B. “Weitere Kategorien anzeigen”).
Wenn der Katalog weniger als 100 Kategorien der obersten Ebene enthält, müssen Sie auch die folgenden wichtigen Unterkategorien auflisten:
Ein Beispiel für eine saubere HTML-Sitemap.
Die Top-Kategorien auf dieser Sitemap sind Photography, Computers & Solutions und Pro Audio. Weil das Unternehmen eine begrenzte Anzahl von Top-Kategorien hat, gibt es Platz für mehrere Unterkategorien (Digital Cameras, Laptops, Recording).
Verknüpfen Sie nicht mit Weiterleitungen.
Die URLs, die von den Sitemap-Seiten verlinkt werden, sollten Crawl-Roboter an die endgültigen URLs senden und keine Weiterleitungen(redirects) durchlaufen.
Bereichern Sie die Sitemaps
Das Hinzufügen zusätzlicher Daten durch Kommentieren von Links mit Informationen ist für Benutzer nützlich und bietet einen gewissen Kontext sowie für Suchmaschinen an. Sie können Daten wie Produkt-Miniaturansichten, Kundenbewertungen, Herstellernamen usw. hinzufügen.
Dies sind nur einige Vorschläge für HTML-Sitemaps, die das Lesen von Seiten für Benutzer vereinfachen und das Verknüpfen mit Crawl-Robotern sehr einfach machen. Der beste Weg, um Suchmaschinen beim Auffinden von Inhalten auf der Website zu unterstützen, besteht darin, eine Liste von URLs in verschiedenen Dateiformaten bereitzustellen. Ein solches Dateiformat ist XML.
XML Sitemaps
Die moderne E-Commerce-Plattformen sollten XML-Sitemaps selbst generieren, aber häufig ist die Standardausgabedatei nicht für das Crawlen und Analysieren optimiert. Es ist daher wichtig, die automatische Ausgabe manuell zu analysieren und zu optimieren oder Sitemaps nach Ihren eigenen Regeln zu generieren.
Wenn Sie keine Zweifel daran haben, dass Konkurrenten Ihre URL-Struktur ausspionieren, fügen Sie am besten den Pfad zur XML-Sitemap-Datei in die Datei robots.txt ein.
Robots.txt wird von Suchmaschinen bei jedem Start einer neuen Website-Crawl-Sitzung angefordert. Die Datei wird gescannt, um festzustellen, ob sie sich seit dem letzten Crawl-Vorgang geändert hat. Wenn dies nicht geändert wurde, verwenden Suchmaschinen die vorhandene Cache-Datei robots.txt, um zu bestimmen, welche URLs von Robotern durchsucht werden können.
Wenn Sie den XML-Sitemap-Speicherort nicht in der robots.txt-Datei angeben, wissen die Suchmaschinen nicht, wo sie ihn finden können (außer wenn, Sie haben ihn in den Webmaster-Konten übermittelt). Wenn Sie den Standort an Google Search Console oder Bing Webmaster senden, können Sie auf weitere Informationen zugreifen, z. B. auf die Anzahl der gesendeten URLs, auf die Anzahl der indexierten URLs und auf mögliche Fehler in der Sitemap.
Wenn Sie eine Indexrate von fast 100% haben, müssen Sie sich wahrscheinlich keine Gedanken über die Optimierung Ihres Crawl-Vorgangs machen.
Die Verwendung von XML-Sitemaps scheint die Crawl-Geschwindigkeit zu beschleunigen:
„Anfangs hat sich die Anzahl der Besuche auf 20 bis 30 Seiten pro Stunde stabilisiert. Sobald die Sitemap über Webmaster Central hochgeladen wurde, beschleunigte der Roboter auf ca. 500 Seiten pro Stunde. Innerhalb weniger Tage wurden maximal 2.224 Seiten pro Stunde erreicht. Während der Roboter durchschnittlich 26,59 Seiten pro Stunde besuchte, stieg er auf durchschnittlich 1.257,78 Seiten pro Stunde, was einem Anstieg von nicht weniger als 4.630,27% entspricht.”.[15]
Hier sind einige Tipps zur Optimierung von XML-Sitemaps für große Websites:
- Fügen Sie nur URLs hinzu, die mit 200 OK antworten. Zu viele Fehler und Suchmaschinen werden Sitemaps nicht mehr vertrauen. Bing hat
“eine Toleranz von 1% für Fehler in einer Sitemap. Beispiele für Fehler sind eine Weiterleitung, ein 404- oder 500-Code, wenn auf eine URL geklickt wird. Wenn wir eine Fehlerquote von über 1% feststellen, verlieren wir das Vertrauen in diese Sitemap”.[16]
Google ist weniger streng als Bing. Sie kümmern sich nicht um Sitemap-Fehler.
- Entfernen Sie die Links, um Inhalte und URLs zu duplizieren, die mit anderen URLs kompatibel sind. Behalten Sie einfach nur die Links zum endgültigen Ziel bei.
- Platzieren Sie Ihre Videobilder, Nachrichten und mobilen Informationen in separaten Sitemaps. Für Videos können Sie Sitemaps verwenden, aber mRSS wird jedoch auch unterstützt.
- Segmentieren Sie die Sitemaps nach Thema, Kategorie sowie Unterthema und Unterkategorie. Beispielsweise können Sie eine Sitemap für die Kategorie Camping – sitemap_camping.xml, eine für die Kategorie Fahrrad – sitemap_cycle.xml und eine für die Kategorie Running Shoes(Laufschuhe) – sitemap_running_shoes.xml erstellen. Diese Segmentierung verbessert nicht direkt das organische Ranking, sondern hilft bei der granularen Indexierung.
- Erstellen Sie separate Sitemap-Dateien für Produktseiten. Segmentieren Sie nach der untersten Ebene der Kategorien (leaf categories).
- Lösen Sie die Sitemap-Fehler, bevor Sie die Suchmaschinendateien senden. Sie können dies in Ihrem Google Search Console-Konto mithilfe der Funktion Test Sitemap tun:
Die Test Sitemap Google Search Console-Funktion.
- Behalten Sie spezifische URLs für jede Sprache in verschiedenen Sitemaps.
- Legen Sie nicht auf allen Seiten die gleiche Wichtigkeit an (Ihre Bewertung basiert möglicherweise auf der Häufigkeit von Aktualisierungen oder anderen Geschäftsregeln).
- Aktualisieren Sie Sitemaps automatisch, sobald wichtige URLs erstellt wurden.
- Schließen Sie nur die URLs ein, die wichtige Filter enthalten (siehe Seiten mit Produktdetails).
Sie haben wahrscheinlich einen gemeinsamen Aspekt dieser Tipps bemerkt: die Segmentierung. Es ist eine gute Idee, XML-Dateien so oft wie möglich freizugeben, ohne dies zu missbrauchen (z. B. nur 10 URLs pro Datei), damit Sie Indexierungsprobleme leichter identifizieren und beheben können.[17]
Beachten Sie, dass XML- oder HTML-Sitemaps nicht als Ersatz für eine schlechte Website-Architektur oder andere Crawl-Probleme verwendet werden sollten, sondern nur als Sicherung. Stellen Sie sicher, dass Suchroboter auf andere Weise (z. B. über kontextbezogene interne Links) auf alle wichtigen Seiten der Website zugreifen können.
Hier sind einige Faktoren, die das Crawl-Budget beeinflussen können:
Die Popularität
Suchroboter fordern häufiger die Seiten an, wenn sie interne und externe Links zu diesen Seiten entdecken.
Die meisten E-Commerce-Websites haben Schwierigkeiten, externe Links zu Kategorieseiten oder Produktdetails zu erstellen, aber das ist jedoch zu tun. Das Hosten von Gastartikeln(guest posts), Werbegeschenken, Link-Ködern(link bait) fesseln, qualitativ hochwertigen Inhalten, direkten Link-Anfragen per Bestätigungs-E-Mail, Botschafterprogrammen und permanenten Urlaubskategorieseiten sind nur einige der Strategien, die zum Aufbau von Links beitragen können.
Die Einstellungen für die Crawl-Rate
Sie können die Crawl-Rate(normalerweise niedriger) von Googlebot mit der Google Search Console ändern. Das Ändern der Rate wird jedoch nur empfohlen, wenn der Roboter den Webserver verlangsamt.
Mit Crawl Control von Bing können Sie es auch an Tagen anders einstellen.
Die Crawl Control-Oberfläche von Bing.
Frischer Inhalt
Durch Aktualisieren des Inhalts auf Seiten und anschließendes Pingen(pinging) von Suchmaschinen (z. B. durch Erstellen von Feeds für Produktseiten und Kategorien) sollten Suchroboter relativ schnell zu aktualisierten Inhalten gebracht werden.
Wenn Sie weniger als 300 URLs pro Monat aktualisieren, können Sie die Funktion “Fetch as Google” in der Google Search Console verwenden, um die aktualisierten URLs sofort von Googlebot durchsuchen zu lassen. Sie können auch regelmäßig (z. B. wöchentlich) eine neue XML-Sitemap-Datei erstellen und diese nur für Aktualisierungen oder neue Seiten senden.
Es gibt verschiedene Möglichkeiten, wie Sie Ihre Inhalte aktuell halten können. Sie können beispielsweise einen Auszug von ca. 100 Wörtern aus verwandten Blog-Posts auf Produktdetailseiten einfügen. Im Idealfall sollte der Auszug den Produktnamen und Links zu übergeordneten Kategorieseiten enthalten. Jedes Mal, wenn Sie ein Produkt in einem Blogartikel-Update erwähnen, aktualisieren Sie auch den Auszug auf der Produktdetailseite.
Sie können sogar Auszüge aus Artikeln einfügen, die den Produktnamen nicht direkt erwähnen, wenn der Artikel mit der Produktkategorie zusammenhängt, in der das Produkt katalogisiert werden kann.
Der Bereich “From Our Blog” hält die Seite aktuell und frisch.
Eine weitere nützliche Strategie, um Inhalte auf dem neuesten Stand zu halten, besteht darin, fortlaufend Überprüfungen der von Benutzern gekauften Produkte, Fragen und Antworten zu Produkten oder andere Formen von benutzergenerierten Inhalten zu erstellen.
Ratings und Reviews sind eine kluge Möglichkeit, Ihre Seiten auf dem neuesten Stand zu halten, insbesondere bei Produkten mit hoher Suchleistung.
Die Domänenautorität
Je höher die Autorität der Domain, desto mehr Besuche werden die Suchmaschinenroboter machen. Die Autorität Ihrer Domain erhöht sich, indem Sie eine größere Anzahl externer Links zur Website erstellen. Das ist viel einfacher zu sagen als zu tun.
RSS-Feeds
RSS-Feeds sind eine der schnellsten Möglichkeiten, Suchmaschinen über neue Produkte, Kategorien oder andere Arten von neuem Inhalt auf der Website zu informieren. Folgendes hat Duane Forrester (ehemaliger Senior Webmaster-Produktmanager bei Bing) in der Vergangenheit zu RSS-Feeds gesagt:
“Dinge wie RSS werden für uns eine wünschenswerte Möglichkeit sein, Inhalte zu finden … es ist eine erhebliche Kostenreduzierung für uns.”.[18]
Sie können Suchmaschinen veranlassen, innerhalb weniger Minuten nach dem Posten mit RSS neue Inhalte zu crawlen. Wenn Sie beispielsweise Inhalte verfassen, die Kategorieseiten oder Produktdetails unterstützen, und wenn Sie intelligent auf diese Supportseiten verlinken, fordern Suchmaschinen auch die URLs der Kategorien und Produkte an, mit denen sie erstellt wurden, und Verknüpfung gemacht wurden.
Zappos hat einen RSS-Feed für Markenseiten. Benutzer (und Suchmaschinen) werden sofort benachrichtigt, wenn Zappos ein neues Produkt einer bestimmten Marke hinzufügt.
Suchroboter Führung
Der beste Weg, um zu vermeiden, dass Ihr Crawl-Budget für URLs mit geringer Wertschöpfung verschwendet wird, besteht darin, überhaupt keine Links zu diesen URLs zu erstellen. Das ist jedoch nicht immer möglich. Sie müssen beispielsweise zulassen, dass Benutzer Produkte anhand von drei oder mehr Attributen filtern. Oder Sie möchten Benutzern erlauben, auf Produktdetailseiten eine E-Mail an einen Freund zu senden. Oder Sie müssen Benutzern die Möglichkeit geben, Produktbewertungen zu verfassen. Wenn Sie beispielsweise eindeutige URLs mit Links “Email to a friend” erstellen, können Sie doppelte Inhalte erstellen.
Der Inhalt für die URLs im obigen Bild ist dupliziert. Diese URLs sollten Suchmaschinen jedoch nicht zugänglich sein. Sperren Sie die Datei email-friend.php in robots.txt
Diese Email to a friend-URLs führen höchstwahrscheinlich zu demselben Webformular, und Suchmaschinen fordern je nach Größe Ihres Katalogs Hunderte oder Tausende solcher Links an und durchsuchen sie unnötigerweise. Sie verschwenden Ihr Crawl-Budget, wenn Sie Suchmaschinen erlauben, diese URLs zu erkennen und zu crawlen.
Sie müssen steuern, welche Links von Suchmaschinenrobotern gefunden werden können und welche nicht. Je unnötiger die Anfragen eines Roboters nach bedeutungslosen Seiten sind, desto geringer sind die Chancen, auf wichtige URLs zuzugreifen.
Suchroboter-Direktiven können in der folgenden Reihenfolge auf verschiedenen Ebenen definiert werden:
- Auf Site-Ebene mit robots.txt.
- Auf Seitenebene unter Verwendung des Metatags noindex und mit HTTP-Headern (HTTP headers).
- Auf Elementebene das Mikroformat nofollow verwenden.
Die Direktiven auf Site-Ebene gehen die Direktiven auf Seite-Ebene voran und die Direktiven auf Seite-Ebene haben Vorrang vor Direktiven auf Element-Ebene. Es ist wichtig, diese Priorität zu verstehen, da Direktiven auf Site-Ebene den Zugriff auf diese Seite ermöglichen müssen, damit eine Direktive auf Seite-Ebene erkannt und befolgt werden kann. Gleiches gilt für Anweisungen auf Seiten- und Artikelebene.
Wenn Sie den Inhalt der Website vertraulich behandeln möchten, besteht eine der besten Möglichkeiten darin, die Serverauthentifizierung zu verwenden und die geschützten Bereiche mit einem Kennwort zu schützen.
Obwohl robots.txt-Dateien verwendet werden können, um den Zugriff von Suchrobotern zu steuern, können mit robots.txt blockierte URLs immer noch Suchmaschinenindizen erreichen, da externe Rückverweisse auf “robotic” -URLs verweisen. Dies deutet darauf hin, dass mit robots.txt blockierte URLs möglicherweise PageRank ansammeln. Mit robots.txt blockierte URLs übertragen jedoch nicht den PageRank, da Suchmaschinen den Inhalt und die Links auf solchen Seiten nicht crawlen und indexieren können. Ausnahmen sind zuvor indexierte URLs. In diesem Fall wird der PageRank übertragen.
Es ist interessant festzustellen, dass Seiten mit Google+ Schaltflächen (Dienst 2019 geschlossen) von Google besucht werden können, wenn jemand auf die Plus-Schaltfläche klickt und dabei die Anweisungen von robots.txt ignoriert.[19]
Eines der größten Missverständnisse über robots.txt ist, dass damit doppelte Inhalte kontrolliert werden können. Die Wahrheit ist, dass es bessere Möglichkeiten gibt, doppelten Inhalt zu kontrollieren, und robots.txt sollte nur verwendet werden, um den Zugriff der Suchroboter auf Dokumente auf Servern zu kontrollieren. Das heißt, es kann Fälle geben, in denen wir möglicherweise nicht die Kontrolle darüber haben, wie das Content Management System (CMS) Inhalte generiert, oder Fälle, in denen wir keine Änderungen an den unterwegs generierten Seiten vornehmen können. In solchen Situationen können Sie letztendlich versuchen, doppelten Inhalt mit robots.txt zu kontrollieren.
Jede E-Commerce-Website ist einzigartig und hat ihre eigenen Geschäftsanforderungen. Daher gibt es keine allgemeine Regel, welche Seiten gecrawlt werden sollen und welche nicht. Unabhängig von den Besonderheiten Ihrer Website müssen Sie doppelte Inhalte entweder mit rel = “canonical” oder mit HTTP-Headern verwalten.
Obwohl die Hauptsuchmaschinen nicht versuchen, Artikel in den Warenkorb zu legen und keinen Online-Zahlungsvorgang starten oder sich absichtlich für einen Newsletter anmelden, können Codierungsfehler dazu führen, dass sie auf unerwünschte URLs zugreifen. In Anbetracht dieser Probleme gibt es einige gebräuchliche Arten von URLs, auf die Sie den Zugriff blockieren können:
Warenkorbseiten und Zahlungsseiten
Add to Cart, View Cart und andere Online-Zahlungs-URLs können nahtlos zu robots.txt hinzugefügt werden.
Ob die View Cart-URL ist mysite.com/viewcart.aspx, können Sie das Durchsuchen von Seiten mit den folgenden Befehlen blockieren:
User-agent: *
# Do not crawl view cart URLs
Disallow: *viewcart.aspx
# Do not crawl add to cart URLs
Disallow: *addtocart.aspx
# Do not crawl checkout URLs
Disallow: /checkout/
Die obigen Anweisungen bedeuten, dass es allen Robotern untersagt ist, auf URLs zu crawlen, die viewcart.aspx oder addtocart.aspx enthalten. Außerdem sind alle URLs im Verzeichnis / checkout / verboten.
Robots.txt ermöglicht die eingeschränkte Verwendung von regulären Ausdrücken (regular expressions, abgekürzt regex), um URL-Mustern zu entsprechen, sodass Programmierer über eine Vielzahl von URLs verfügen. Wenn Sie gebräuchliche Ausdrücke verwenden, bedeutet das Symbol * “Stern” “was immer”, das Symbol $ “Dollar” bedeutet “Ende mit” und das Symbol ^ “Caret” bedeutet “Anfang mit”.
Die Seiten mit Benutzerkonten
Die Konto-URLs wie die Account Login können ebenfalls gesperrt werden:
User-agent: *
# Do not crawl login URLs
Disallow: /store/account/*.aspx$
Die obige Anweisung bedeutet, dass nicht alle Seiten im Verzeichnis / store / account / von Suchmaschinenrobotern durchsucht werden müssen.
Im Folgenden finden Sie einige andere Arten von URLs, die Sie blockieren können.
Oben sind einige andere Arten von Seiten aufgeführt, die Sie sperren können.
Einige Kommentare zu den gelb hervorgehobenen Ressourcen:
- Wenn Sie eine E-Commerce-Website unter WordPress verwalten, lassen Sie die Suchroboter die URLs im Tag-Verzeichnis crawlen. Es gab Zeiten, in denen Sie Tag-Seiten blockieren mussten, aber sie bestanden.
- Das Verzeichnis / includes / sollte keine Skripte enthalten, die zum Rendern von Inhalten auf Seiten verwendet werden. Blockieren Sie es nur, wenn Sie die Skripte hosten, die zum Erstellen nicht erkennbarer Links in / includes / erforderlich sind.
- Gleiches gilt für die Verzeichnisse / scripts / und / libs / – Blockieren Sie sie nicht, wenn sie die erforderlichen Ressourcen zum Rendern des Inhalts enthalten.
Probleme im Zusammenhang mit doppeltem oder nahezu doppeltem Inhalt, wie z. B. Paginierung und Sortieren, werden mit robots.txt nicht optimal behoben.
Bevor Sie die robots.txt-Datei hochladen, sollten Sie sie anhand der vorhandenen URLs testen. Erstellen Sie zunächst mit einer der folgenden Methoden eine Liste der URLs auf der Website:
- Bitten Sie die Programmierer um Hilfe.
- Crawlen Sie die Website mit der Lieblingssoftware.
- Verwenden Sie Protokolldateien.
Öffnen Sie dann diese Liste in einem Texteditor, mit dem Sie nach regulären Ausdrücken suchen können. Programme wie RegexBuddy, RegexPal oder Notepad ++ sind eine gute Wahl. Sie können die in der robots.txt-Datei verwendeten Muster mit diesen Programmen testen. Beachten Sie jedoch, dass Sie das in robots.txt verwendete Regex-Muster je nach verwendetem Programm möglicherweise neu schreiben müssen.
Angenommen, Sie möchten den Zugriff von Robotern auf die Zielseite für E-Mail-Marketingkampagnen im Verzeichnis / ads / blockieren. Die robots.txt-Datei enthält die folgenden Zeilen:
User-agent: *
# Do not crawl view cart URLs
Disallow: /ads/
Mit RegexPal können Sie die Liste der URLs mit folgendem einfachen Ausdruck testen: / ads /
RegexPal hebt das allgemeine Muster automatisch hervor.
Wenn Sie mit großen Dateien arbeiten, die Hunderttausende von URLs enthalten, ermitteln Sie mit Notepad ++ URLs mit regulären Ausdrücken, da Notepad ++ problemlos mit großen Dateien umgehen kann.
Zum Beispiel, Sie möchten alle URLs blockieren, die mit der Erweiterung .js enden. Die robots.txt-Datei enthält die folgende Zeile:
Disallow: /*.js$
Um die URLs in Ihrer Liste zu finden, die mit den robots.txt-Anweisungen in Notepad ++ übereinstimmen, geben Sie “\ .js” in das Feld “Find what” ein und verwenden Sie dann den Suchmodus für reguläre Ausdrücke:
Suchen mit regulären Ausdrücken in Notepad ++
Durch schnelles Durchsuchen der hervorgehobenen gelben URLs können Zweifel an URLs beseitigt werden, die mit robots.txt ausgeschlossen werden müssen.
Wenn Sie den Zugriff von Suchrobotern auf Materialien wie Videos, Bilder oder PDF-Dateien blockieren müssen, verwenden Sie den X-Robots-Tag-HTTP-Header[20] anstelle der robots.txt-Datei.
Beachten Sie jedoch, dass Sie rel = “canonical” HTTP-Header verwenden, wenn Sie doppelte Inhaltsprobleme für Nicht-HTML-Dokumente beheben möchten.[21] (rel = “canonical” HTTP-Header)
Der Ausschlussparameter
Mit dieser Technik können Sie selektiv einen Parameter (z. B. crawler = no) oder eine Zeichenfolge (z. B. ABCD-9) zu den URLs hinzufügen, auf die Sie keinen Zugriff haben möchten, und dann diesen Parameter oder diese Zeichenfolge mit robots.txt blockieren.
Entscheiden Sie zunächst, welche URLs Sie blockieren möchten.
Angenommen, Sie möchten das Browsen durch die Roboter der Suchmaschinennavigation steuern und ihnen das Crawlen auf den URLs verbieten, die durch Anwenden weiterer Filterwerte innerhalb desselben Filters (auch als multi-select bezeichnet) generiert wurden. In diesem Fall fügen Sie allen URLs, die generiert werden, wenn ein zweiter Filterwert für denselben Filter ausgewählt wird, den Parameter crawler = no hinzu.
Wenn Sie verhindern möchten, dass Roboter versuchen, auf einer generierten URL zu crawlen, indem Sie mehr als zwei Filterwerte auf verschiedene Filter anwenden, fügen Sie allen generierten URLs den Parameter crawler = no hinzu, wenn ein dritter Filterwert ausgewählt wird, unabhängig von den Optionen wurden ausgewählt und die Reihenfolge, in der sie ausgewählt wurden. Hier ist ein Szenario für dieses Beispiel:
Der Roboter befindet sich auf der Unterkategorieseite Battery Chargers.
Die Hierarchie ist: Home> Accessories> Battery Chargers
Die URL der Seite ist: mysite.com/accessories/motorcycle-battery-chargers/
Dann “wählt” der Roboter einen der Werte des Filters Brand: Noco. Das ist der erste Filterwert, und Sie gestatten dem Roboter daher, auf diese Seite zuzugreifen.
Die URL für diese Auswahl enthält nicht den Ausschlussparameter:
mysite.com/accessories/motorcycle-battery-chargers?brand=noco
Der Roboter überprüft dann einen der Filterwerte Style: cables. Da dies der zweite angewendete Wert ist, werden Sie dem Roboter weiterhin erlauben, auf die URL zuzugreifen.
Die URL enthält immer noch nicht den Ausschlussparameter. Es enthält nur die brand– und style-URL-Parameter:
mysite.com/accessories/motorcycle-battery-chargers?brand=noco&style=cables
Nun “wählt” der Roboter einen der Werte des Pricing-Filters: 1. Da dies der dritte Filterwert ist, fügen Sie den crawler = no URL-Parameter hinzu.
Die URL wird:
mysite.com/accessories/motorcycle-battery-chargers?brand=noco&style=cables&pricing=1&crawler=no
Wenn Sie die obige URL blockieren möchten, enthält sie die Datei robots.txt:
User-agent: *
Disallow: /*crawler=no
Die oben beschriebene Methode verhindert das Durchsuchen der von der facettierten Navigation generierten URLs, wenn mehr als zwei Filterwerte angewendet werden, ermöglicht jedoch keine spezifische Kontrolle darüber, welche Filter durchsucht werden sollen und welche nicht. Wenn der Roboter beispielsweise zuerst die Pricing-Option “auswählt”, wird die URL, die den Preisparameter enthält, vom Roboter eingegeben. Wir werden die facettierte Navigation im Abschnitt Facettierte Navigation des Kapitels Listenseiten ausführlich erörtern.
Die Verwaltung von URL-Parametern
Die URL-Parameter können zu Problemen beim Crawlen der Prozesseffizienz sowie zu Problemen mit doppeltem Inhalt führen. Wenn Sie beispielsweise das Sortieren, Filtern und Paginierung mithilfe von Parametern implementieren, werden Sie möglicherweise über eine große Anzahl von URLs verfügen, wodurch Ihr Crawl-Budget verschwendet wird. Google zeigt uns[22], wie 158 Produkte auf googlestore.com unglaubliche 380.000 URLs für Suchroboter generiert haben.
Durch das Steuern der URL-Parameter in der Google Search Console und in den Bing Webmaster-Tools kann die Effizienz des Crawl-Prozesses verbessert werden, die Ursache für doppelten Inhalt wird jedoch nicht behoben. Sie müssen die Probleme mit der Kanonisierung an der Quelle lösen. Da E-Commerce-Websites jedoch mehrere URL-Parameter verwenden, kann sich ihre ordnungsgemäße Steuerung mit Webmaster-Tools als zeitaufwändig und riskant erweisen. Wenn Sie nicht genau wissen, was Sie tun, verwenden Sie eine konservative Einstellung oder Standardeinstellungen.
Die Verwaltung von URL-Parametern wird am häufigsten verwendet, um zu entscheiden, welche Seiten indexiert werden sollen und welche Seite kanonisiert werden soll.
Einer der Vorteile der Verwaltung von URL-Parametern in Webmaster-Konten besteht darin, dass Direktiven auf Seitenebene (dh rel = “canonical” oder meta noindex) weiterhin gelten, solange Seiten, die solche Direktiven enthalten, nicht von robots.txt blockiert werden oder andere Methoden. Obwohl es möglich ist, reguläre Ausdrücke in der robots.txt-Datei zu verwenden, um das Crawlen von Parameter-URLs zu verhindern, überschreibt robots.txt Anweisungen auf Seiten- und Elementebene.
Google Search Console-Benachrichtigung über URL-Parameter.
Manchmal gibt es Fälle, in denen Sie nicht mit URL-Parametereinstellungen herumspielen müssen. Im obigen Screenshot sehen Sie eine Meldung, die sagt dass Google kein Problem mit dem Ranking von URL-Parametern hat. Wenn Google Ihre gesamte Website problemlos crawlen kann, können Sie die Standardeinstellungen beibehalten. Wenn Sie die Parameter festlegen möchten, klicken Sie auf den Link Configure URL parameters.
Dieser Screenshot ist für eine E-Commerce-Website mit weniger als 1.000 SKUs( stock keeping unit number) gedacht. Sie können sehen, wie durch facettierte Navigation Millionen von URLs generiert wurden.
In der obigen Abbildung wurden mit dem limit-Parameter (mit dem die Anzahl der auf einer Kategorieseite aufgelisteten Produkte geändert wird) 6,6 Millionen URLs in Kombination mit anderen möglichen Parametern generiert. Da die Website jedoch über eine starke Autorität verfügt, erhält sie viel Aufmerksamkeit und “Liebe” von Googlebot und hat keine Crawl- oder Indexierungsprobleme.
Bei der Verwaltung von Parametern müssen Sie zunächst entscheiden, welche Parameter den Inhalt ändern (aktive Parameter) und welche nicht (passive Parameter). Am effektivsten ist es, dies mit den Website-Programmierern zu tun, da sie die beste Verwendung der Parameter kennen. Die Parameter, die keinen Einfluss darauf haben, wie Inhalte auf der Seite angezeigt werden (z. B. Nachverfolgungsparameter für die Aktionen des Benutzers auf der Website – tracking parameters), sind ein sicheres Ausschlussziel.
Obwohl Google selbst in der Lage ist, Parameter zu identifizieren, die den Inhalt nicht ändern, ist es empfehlenswert, sie manuell festzulegen.
Um die Einstellungen für solche Parameter zu ändern, klicken Sie auf Edit:
Steuern der URL-Parameter in der Google Search Console.
In unserem Beispiel wurde der Parameter utm_campaign verwendet, um die Leistung interner Werbeaktionen zu verfolgen, ohne den Inhalt der Seite zu ändern. Wählen Sie in diesem Szenario “ No: Does not affect page content (ex: track usage)”.
Die Urchin-Tracking-Module-Parameter(besser bekannt als UTM-Parameter) können problemlos mit repräsentativen URLs konsolidiert werden.
Um sicherzustellen, dass Sie nicht die falschen Parameter blockieren, testen Sie die Beispiel-URLs, indem Sie sie in Ihren Browser hochladen. Laden Sie die URL hoch und sehen Sie, was passiert, wenn Sie die Tracking-Parameter entfernen. Wenn sich der Inhalt nicht ändert, kann dieser Parameter ausgeschlossen werden.
Als weitere Beobachtung ist die Verfolgung interner Werbeaktionen mit UTM-Parametern nicht die ideale Wahl. Die UTM-Parameter werden zum Verfolgen von Kampagnen außerhalb Ihrer Website erstellt. Wenn Sie die interne Leistung Ihrer Marketing-Banner verfolgen möchten, verwenden Sie andere Parameternamen oder verwenden Sie die Ereignisverfolgung(even tracking).
Weitere gängige Parameter, die Sie zum Ausschluss heranziehen können, sind Sitzungs-IDs (session IDs), UTM-Parameter (utm_source, utm_medium, utm_term, utm_content und utm_campaign) und Partner-IDs.
Hier ist eine Warnung erforderlich und diese Empfehlung stammt direkt von Google.[23]
“Das Konfigurieren von Site-Parametern kann schwerwiegende, unbeabsichtigte Auswirkungen auf das Crawlen und Indexierung von Seiten durch Google haben. Stellen Sie sich beispielsweise eine E-Commerce-Website vor, die die storeID verwendet, um das Geschäft zu identifizieren und die Verfügbarkeit eines Produkts in einem Geschäft zu überprüfen:
/store-locator?storeID=123
/product/foo-widget?storeID=123
Wenn Sie die storeID so einstellen, dass sie nicht gecrawlt wird, sind / store-locator und / foo-widget betroffen. Daher kann Google möglicherweise nicht beide Arten von URLs indexieren und sie nicht in den Suchergebnissen anzeigen. Wenn diese Parameter für unterschiedliche Zwecke verwendet werden, empfehlen wir die Verwendung unterschiedlicher Parameternamen”.
Im obigen Szenario können Sie den Speicherort in einem Cookie belassen.
Noch komplizierter wird es, wenn die Parameter die Art und Weise ändern, wie Inhalte auf einer Seite angezeigt werden.
Eine sichere Einstellung für die Parameter, die den Inhalt ändern, ist, es vorzuschlagen? Google, wie sich der Parameter auf die Seite auswirkt (z. B. Sortieren, Filtern, Festlegen, Übersetzen, Paginierung und andere), und die Standardeinstellung Let Google decide verwenden. Mit diesem Ansatz kann Google alle URLs crawlen, die den Zielparameter enthalten.
Eine sichere Einstellung besteht darin, Google mitzuteilen, dass ein Parameter den Inhalt ändert, und Google zu entscheiden lassen, was mit diesem Parameter geschehen soll.
Im obigen Beispiel wusste ich, dass der mid-Parameter den Inhalt der Seite ändert. Deshalb habe ich Google darauf hingewiesen, dass der Parameter Produkte sortiert. Wenn man sich jedoch für die URLs entscheidet, die von Googlebot durchsucht werden sollen, überlasse ich Google diese Entscheidung treffen.
Ich empfehle, Google die Entscheidung zu überlassen, weil Google kanonische URLs auswählt: Es gruppiert URLs mit doppeltem Inhalt in Clustern basierend auf interner Verlinkung (PageRank), Popularität externer Verlinkung und Inhalt. Dann findet Google die beste URL, die in den Suchergebnissen für jeden doppelten Inhaltscluster angegeben werden kann. Da Google Sie nicht über das vollständige Linkdiagramm Ihrer Website informiert, wissen Sie nicht, welche URLs die meisten Links aufweisen, sodass Sie nicht immer die richtige URL zum Kanonisieren auswählen können
- Google Patent On Anchor Text And Different Crawling Rates, http://www.seobythesea.com/2007/12/google-patent-on-anchor-text-and-different-crawling-rates/ ↑
- Large-scale Incremental Processing Using Distributed Transactions and Notifications, http://research.google.com/pubs/pub36726.html ↑
- Our new search index: Caffeine, http://googleblog.blogspot.ca/2010/06/our-new-search-index-caffeine.html ↑
- Web crawler , http://en.wikipedia.org/wiki/Web_crawler#Politeness_policy ↑
- To infinity and beyond? No!, http://googlewebmastercentral.blogspot.ca/2008/08/to-infinity-and-beyond-no.html ↑
- Crawl Errors: The Next Generation, http://googlewebmastercentral.blogspot.ca/2012/03/crawl-errors-next-generation.html ↑
- Make Data Useful, http://www.scribd.com/doc/4970486/Make-Data-Useful-by-Greg-Linden-Amazon-com ↑
- Shopzilla’s Site Redo – You Get What You Measure, http://www.scribd.com/doc/16877317/Shopzilla-s-Site-Redo-You-Get-What-You-Measure ↑
- Expires Headers for SEO: Why You Should Think Twice Before Using Them, http://moz.com/ugc/expires-headers-for-seo-why-you-should-think-twice-before-using-them ↑
- How Website Speed Actually Impacts Search Ranking, http://moz.com/blog/how-website-speed-actually-impacts-search-ranking ↑
- Optimizing your very large site for search — Part 2, http://web.archive.org/web/20140527160343/http://www.bing.com/blogs/site_blogs/b/webmaster/archive/2009/01/27/optimizing-your-very-large-site-for-search-part-2.aspx ↑
- Matt Cutts Interviewed by Eric Enge, http://www.stonetemple.com/articles/interview-matt-cutts-012510.shtml ↑
- Save bandwidth costs: Dynamic pages can support If-Modified-Since too, http://sebastians-pamphlets.com/dynamic-pages-can-support-if-modified-since-too/ ↑
- Site Map Usability, http://www.nngroup.com/articles/site-map-usability/ ↑
- New Insights into Googlebot, http://moz.com/blog/googlebot-new-insights ↑
- How Bing Uses CTR in Ranking, and more with Duane Forrester, http://www.stonetemple.com/search-algorithms-and-bing-webmaster-tools-with-duane-forrester/ ↑
- Multiple XML Sitemaps: Increased Indexation and Traffic, http://moz.com/blog/multiple-xml-sitemaps-increased-indexation-and-traffic ↑
- How Bing Uses CTR in Ranking, and more with Duane Forrester, http://www.stonetemple.com/search-algorithms-and-bing-webmaster-tools-with-duane-forrester/ ↑
- How does Google treat +1 against robots.txt, meta noindex or redirected URL, https://productforums.google.com/forum/#!msg/webmasters/ck15w-1UHSk/0jpaBsaEG3EJ ↑
- Robots meta tag and X-Robots-Tag HTTP header specifications, https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag ↑
- Supporting rel=”canonical” HTTP Headers, http://googlewebmastercentral.blogspot.ca/2011/06/supporting-relcanonical-http-headers.html ↑
- Configuring URL Parameters in Webmaster Tools, https://www.youtube.com/watch?v=DiEYcBZ36po&feature=youtu.be&t=1m50s ↑
- URL parameters, https://support.google.com/webmasters/answer/1235687?hl=enKapitel fünf: Die interne Verlinkung ↑