Verwalten der Zugriffsmöglichkeiten Ihrer Site für Suchmaschinen

Ihre Website ist unbrauchbar, wenn sie von Suchmaschinen nicht indiziert werden kann. Wenn Sie möchten, dass es in den Suchergebnissen angezeigt wird, müssen Sie sicherstellen, dass Suchmaschinen darauf zugreifen können. Manchmal möchten Sie jedoch den Zugriff auf bestimmte Teile Ihrer Website einschränken. Möglicherweise möchten Sie irrelevante Seiten oder private Dokumente ausblenden. In diesem Artikel erfahren Sie, wie Sie die Zugänglichkeit Ihrer Website für Suchmaschinen über eine robots.txt Datei oder die Roboter-Meta-Tag.

Vorteile von Roboter-Dateien und -Tags

Bevor wir uns näher mit dem Erstellen einer robots.txt-Datei oder eines Robots-Meta-Tags beschäftigen, sollten wir einen Blick auf ihre Vorteile werfen. Es gibt einige Szenarien, in denen ihre Implementierung hilfreich sein könnte, z.

Verhindern Inhalte duplizieren von der Indexierung (z. B. druckbare Versionen von Seiten).
Zum unvollständige Seiten.
Suchmaschinen von der Indexierung einschränken vertrauliche Seiten oder Dateien.

Doppelte Inhalte schwächen Ihre SEO-Bemühungen, da Suchmaschinen nur schwer entscheiden können, welche Version für die Suchabfrage der Benutzer am relevantesten ist. Dieses Problem kann durch Blockieren doppelter Seiten über eine Roboterdatei oder ein Tag verhindert werden. Es gibt eine andere Möglichkeit, doppelten Inhalt zu verwalten, aber wir werden das später besprechen.

Wenn Sie neue, aber unvollständige Seiten online haben, sollten Sie sie am besten vor Crawlern blockieren, um zu verhindern, dass sie indiziert werden. Dies kann beispielsweise für neue Produktseiten nützlich sein - wenn Sie sie bis zum Start geheim halten möchten, fügen Sie eine Robots-Datei oder ein Tag hinzu.

Einige Websites enthalten vertrauliche Seiten oder Dateien, die nicht durch ein Anmeldeformular blockiert werden. Eine einfache Möglichkeit, diese Suchmaschinen vor Suchmaschinen zu verbergen, ist die Datei robots.txt oder das Meta-Tag.

Jetzt wissen wir es Warum Wir sollten die Zugänglichkeit bestimmter Seiten verwalten, es ist Zeit zu lernen Wie Wir können das schaffen.

Die robots.txt-Datei

Crawler sind Workaholics. Sie möchten so viel wie möglich indizieren, wenn Sie ihnen nichts anderes mitteilen.

Wenn ein Crawler Ihre Website besucht, sucht er nach der Datei robots.txt. Diese Datei enthält Anweisungen, welche Seiten indiziert und welche ignoriert werden sollen. Durch Erstellen einer robots.txt-Datei können Sie verhindern, dass Crawler auf bestimmte Teile Ihrer Website zugreifen.

Die robots.txt-Datei muss in der Datei gespeichert werden Verzeichnis der obersten Ebene Ihrer Site - zum Beispiel: www.domain.com/robots.txt. Dieser Dateiname unterscheidet auch zwischen Groß- und Kleinschreibung.

Warnung: Wenn Sie Ihrer Website eine robots.txt-Datei hinzufügen, überprüfen Sie bitte, ob Fehler aufgetreten sind. Sie möchten Crawler nicht versehentlich daran hindern, wichtige Seiten zu indizieren.

Erstellen einer robots.txt-Datei

robots.txt ist eine einfache Textdatei mit mehreren Datensätzen. Jeder Datensatz hat zwei Elemente: User-Agent und nicht zulassen.

Das User-Agent-Element gibt an, welche Crawler die Informationen zum Verbot verwenden sollen. Disallow teilt Crawlern mit, welcher Teil der Website nicht indiziert werden kann.

Ein Datensatz sieht ungefähr so aus:

Benutzeragent: * Nicht zulassen:

Der Datensatz oben gibt Suchmaschinen Zugriff auf alle Seiten. Wir verwenden den Stern (*), um auf alle Crawler zu zielen. Da wir keine Seite angegeben haben, die nicht zulässig ist, können sie alle Seiten indizieren.

Durch Hinzufügen eines Schrägstrichs können Sie jedoch verhindern, dass alle Crawler indiziert werden etwas von unserer Website:

Benutzeragent: * Nicht zulassen: /

Wir können auch einen einzelnen Crawler als Ziel auswählen. Schauen Sie sich das Beispiel unten an:

Benutzeragent: Googlebot Nicht zulassen: / private-verzeichnis /

Dieser Datensatz weist Google an, das private Verzeichnis nicht zu indizieren. Googlebot wird von Google für die Websuche verwendet. Eine vollständige Liste aller Crawler finden Sie in der Web-Robots-Datenbank.

Die Kopplung einer Nichtzulassung an einen Benutzeragenten wäre eine zeitaufwendige Aufgabe. Glücklicherweise können wir mehrere Ablehnungen in einem Datensatz hinzufügen.

Benutzeragent: Bingbot Nicht zulassen: / Beispielverzeichnis / Nicht zulassen: /an-uninteresting-page.html Nicht zulassen: /pictures/logo.jpg

Dadurch wird verhindert, dass Bing das Beispielverzeichnis, die uninteressante Seite und das Logo indiziert.

Wildcards

Da wir uns hier auf reguläre Ausdrücke stützen, können wir auch Platzhalter in einer robots.txt-Datei verwenden.

Zum Beispiel verwenden viele Leute Wordpress als CMS. Besucher können die integrierte Suchfunktion verwenden, um Beiträge zu einem bestimmten Thema zu finden. Die URL für eine Suchanfrage hat die folgende Struktur: http://domain.com/?s=searchquery.

Wenn ich die Indizierung von Suchergebnissen blockieren möchte, kann ich einen Platzhalter verwenden. Der robots.txt-Datensatz sieht folgendermaßen aus:

Benutzeragent: * Nicht zulassen: /? S =

Sie können auch Platzhalter verwenden, um zu verhindern, dass Dateitypen indiziert werden. Der folgende Code blockiert alle .png-Bilder:

Benutzeragent: * Nicht zulassen: /*.png$

Vergessen Sie nicht, das Dollarzeichen am Ende hinzuzufügen. Es teilt den Suchmaschinen mit, dass es das Ende einer URL-Zeichenfolge ist.

Testen Sie Ihre robots.txt-Datei

Es ist immer eine gute Idee, Ihre robots.txt-Datei zu testen, um zu sehen, ob Sie Fehler gemacht haben. Sie können dazu die Google Webmaster-Tools verwenden.

Unter "Gesundheit" finden Sie die Seite "blockierte URLs". Hier finden Sie alle Informationen zu Ihrer Datei. Sie können die Änderungen auch testen, bevor Sie sie hochladen.

Roboter-Meta-Tag

Mit dem Robots-Meta-Tag wird der Zugriff von Crawlern auf eine einzelne Seite verwaltet. Es teilt Suchmaschinen mit, ob die Seite durchsucht, archiviert werden kann oder ob die Links auf der Seite verfolgt werden können.

So sieht das Meta-Tag der Roboter aus:

Dieses Meta-Tag verhindert, dass Crawler die Webseite indizieren. Neben "noindex" gibt es noch einige andere Attribute, die nützlich sein könnten:

Index: Diese Seite kann indiziert werden.
noindex: Diese Seite kann nicht in den Suchergebnissen angezeigt werden.
Folgen: Die Links auf dieser Seite können verfolgt werden.
nofollow: Die Links auf dieser Seite können nicht verfolgt werden.
Archiv: Eine Cache-Kopie dieser Seite ist zulässig.
noarchive: Eine Cache-Kopie dieser Seite ist nicht zulässig.

Mehrere Attribute können in einem einzelnen Robot-Meta-Tag verwendet werden, zum Beispiel:

Dieses Markup verhindert, dass Crawler die Seite indizieren und ihren Links folgen.

Wenn Sie in Konflikt stehende Tags verwenden, verwendet Google die Option mit der größten Einschränkung. Angenommen, Sie verwenden '' index '' und 'noindex' im selben Tag. Die Seite wird nicht indiziert (äußerst restriktive Option, nur um sicher zu sein)..

Kann ich robots.txt oder Meta-Tags verwenden??

Wie bereits erwähnt, gibt es zwei Möglichkeiten, den Zugriff auf Webseiten zu verwalten: eine robots.txt-Datei und Metatags.

Die Datei robots.txt eignet sich hervorragend zum Blockieren vollständiger Verzeichnisse oder bestimmter Dateitypen. Mit einer einzelnen Textzeile können Sie eine Menge Arbeit erledigen (und möglicherweise viel Schaden!). Wenn Sie jedoch eine einzelne Seite blockieren möchten, verwenden Sie am besten das Robots-Meta-Tag.

Manchmal werden URLs, die über die Datei "robots.txt" blockiert werden, immer noch in den Suchergebnissen angezeigt. Wenn viele Links auf die Seite verweisen und Google der Ansicht ist, dass das einzige relevante Suchergebnis für die Suchabfrage relevant ist, wird es weiterhin angezeigt. Wenn Sie absolut nicht möchten, dass die Seite angezeigt wird, sollten Sie das Meta-Tag noindex hinzufügen. Das hört sich vielleicht kompliziert an, aber Matt Cutts erklärt alles in Details in Uncrawled URLs in den Suchergebnissen auf YouTube.

Fazit

Mit der robots.txt-Datei und den Robots-Meta-Tags können Sie den Zugriff Ihrer Website für Suchmaschinen einfach verwalten.

Vergessen Sie nicht, Ihre Meta-Tags und die Datei robots.txt zu überprüfen und zu überprüfen, um zu verhindern, dass Crawler versehentlich die Indizierung wichtiger Seiten blockieren.

Web-Design