WebWizard   19.4.2024 12:45    |    Benutzerkonto
contator.net » WebNews » WebWizard.at » Informationen  
 

Wir brauchen Cookies, siehe unsere Datenschutzerklärung.















Ebene darüber

Anleitungen und Referenzen

Auf gleicher Ebene

Freie Domains herausfinden?
robots.txt hilft Suchmaschinen
Statistiken zu Google Suggest
Traffic von Suchmaschinen
Noch mehr Guides hier...










50 Jahre Porsche Turbo


Aktuelle Highlights

Medien mit KI


 
Übersicht | Verzeichnis
      Anleitungen und Referenzen
           robots.txt hilft Suchmaschinen


robots.txt hilft Suchmaschinen

Grundsätzlich sollten die Spider und Crawler der diversen Suchmaschinen selbst finden, was es im Web zu suchen gibt. Manchmal ist es aber besser, sie in die Schranken zu verweisen oder auf die Fährte zu bringen.

Ein Standard hilft hier: robots.txt nennt sich die Datei im Web, die den Suchmaschinen hilfreiche Informationen liefern kann. Nicht alle Suchmaschinen halten sich an diese Vorgaben, wenn sie es aber regelkonform tun, profitieren sie von zusätzlichen Hilfestellungen für den Crawler. Und Sie profitieren von mehr Möglichkeiten in der Arbeit mit der Suchmaschine. Die großen Engines wie Google oder Bing sind hier bestens vorbereitet!

robots.txt wo abspeichern?

Der erste Schritt ist das Anlegen einer eigenen robots.txt-Datei. Diese ist eine simple Textdatei, die im Root-Verzeichnis einer Website zu finden sein muss. Suchmaschinen rufen also die Website-Domain mit der Erweiterung '/robots.txt' auf, um sie abzuholen. Wenn Sie unter www.ihrdomainname.com/robots.txt auf die Inhalte stoßen, dann haben Sie den richtigen Speicherort für die Datei gefunden.

Nun geht es also an den Inhalt der Datei. Doch Vorsicht: Sie sind mit einer Robots.txt in der Lage, Suchmaschinen auch komplett auszusperren. Sehen Sie sich die Webmaster-Tools von Bing und Google an, um deren Sicht auf die robots.txt abzutesten und mit Ihren Wünschen zu vergleichen.

Inhalt der Robots.txt

Der Aufbau der Textdatei ist einfach: Jede Zeile beinhaltet einen Befehl, einzelne Zeilen können mit '#' auch als Kommentare ausgeklammert werden. Bereiche definieren wiederum, für welche Suchmaschine man nachfolgende Befehle vorsieht.



Die Bereiche legt man am Besten vorher strukturiert an. Wenn Sie etwa einen Bereich speziell für Google einrichten wollen und einen für den Rest, dann stellen Sie Google zuerst in die Datei und dann den allgemeinen Teil (manche Suchmaschinen glauben, sobald sie auf den allgemeinen Teil treffen, dass alles Nachfolgende für sie gültig ist).

Ein Bereich startet mit 'User-agent: ' gefolgt von dem Namen, den ein Crawler selbst bei seiner Arbeit als User-Agent-Kennung vorsieht. Google nennt sich 'googlebot' und wird demnach mit 'User-agent: googlebot' angesprochen. Der Abschnitt für alle Suchmaschinen lautet 'User-agent: *'

Typischerweise wird die robots.txt für das Ausschließen einzelner Seiten vom Crawling genutzt. Wenn Sie der Suchmaschine bestimmte Bereiche vorenthalten wollen, so hilft der 'Disallow: '- Eintrag. Mit einer Zeile 'Disallow: /logs/' verhindern Sie den Zugriff auf die Logfiles durch Suchmaschinen (bzw.: Sie verhindern das nicht, aber gute Suchmaschinen entsprechen Ihrem Wunsch, diese Dateien nicht zu öffnen).

Manche Suchmaschinen erlauben auch 'Wildcards' in den Disallow-Einträgen. So könnte ein 'Disallow: /test*.pdf' sowohl die test1.pdf als auch die test27.pdf vom Crawling ausschließen. Da immer von vorne gelesen wird, ist ein 'Disallow: /test' auch für all diese und jene Dateien und Verzeichnisse gültig, die mit Test beginnen. Etwas mehr Eingriffsmöglichkeiten bietet dann der '$'-Abschluss, denn er definiert das Ende. Wer mit 'Disallow: /test*.pdf$' das '.pdf' nur am Ende der URL filtert, kann feiner steuern, was die Suchmaschine abrufen darf. Google unterstützt all diese Schreibweisen.

Weitere Möglichkeiten, die robots.txt zu nutzen, sind vielfältig wie die möglichen Befehle der Suchmaschinen. So etwa kann man den Traffic der Crawler drosseln, wenn man ihnen zu schnellen Abruf verbietet. Ein 'Crawl-Delay: 30' gibt 30 Sekunden Pause zwischen zwei Seitenabrufen vor.

In einer robots.txt kann man den Suchmaschinen aber noch viele weitere Informationen mitgeben. Durchgesetzt hat sich etwa das Übermitteln von Sitemaps mit Links zu den zu crawlenden Seiten: 'Sitemap: ' folgt ein Link auf eine Sitemap-Indexdatei im XML-Format, die dann die Links zu den einzelnen Sitemaps der Website bietet (die Links unterhalb zeigen mehr dazu).

Beispiel einer robots.txt

Wie sieht nun eine gültige robots.txt aus? Nehmen wir eine Website wie 'www.beispiel.at' und definieren wir für Google und die Allgemeinheit ein paar Dinge, dann könnte das so aussehen:

User-agent: Googlebot 
Disallow: /files/*.pdf
Crawl-Delay: 15

User-agent: *
Disallow: /logs/
Disallow: /tests/

Sitemap: http://www.beispiel.at/index.xml



Nun wird die Datei auf www.beispiel.at/robots.txt hoch geladen und getestet. Gar nicht so schwer, oder?

Ihre Meinung dazu? Schreiben Sie hier!

#robots.txt #Standard #Web #Internet #Crawler #Spider #Google #Bing #Suchmaschinen



Newsticker per eMail oder RSS/Feed!

Auch interessant!
robots.txt für AI-Crawler
KI-Systeme müssen gefüttert werden und für viele Anwendungen geschieht das über Crawler im Web. Auch die ...

Google bindet sich weniger an robots.txt
Einschränkungen und Vorgaben sind den Crawlern und Suchmaschinen immer ein Dorn im Auge, doch die Robots....

ads.txt Standard
Der internationale IAB hat sich angelehnt an die robots.txt, die Suchmaschinen reglementiert, eine ads.tx...

User Agent String im Internet Explorer 11
Der 'MSIE' zeigt sich nicht mehr unter diesem Titel, wenn man nach diesem Erkennungsmerkmal sucht. Micros...

Content, Semantik und Suche
Drei Themen, die uns als Webmaster schon bisher im WebWizard immer wieder beschäftigt haben. Nun gehen wi...

Sitemaps für Websites
Schon beim Auffinden von Inhalten im Internet sind Suchmaschinen mitunter auf die Unterstützung lesbarer ...

Google plant Urheberrechtsverstöße
Richtig gelesen. Just zu dem Zeitpunkt, wo deutsche Gerichte sogar Private mit hohen Strafen bedrohen, we...

humans.txt, weil wir Menschen sind?
Auf Webservern liegt meist eine 'robots.txt' herum, die die Anweisungen für die Suchmaschinen beinhaltet....

Parameterbehandlung gegen Duplicate Content
Google hat die Webmaster Tools erweitert und erlaubt nun das Aus- und Einblenden von URL-Parametern für d...

robots.txt Virus
Haben Sie ein eMail über einen Virus bekommen, der Ihre Homepage befallen will und den Sie mit ein paar s...

Sitemaps für Yahoo, Google und Live Search
Alle drei großen internationalen Suchmaschinen unterstützen mittlerweile das Sitemaps-Protokoll, um Eintr...

Forum: Ihre Meinung dazu!

[AufZack Talk] [Forum]     
Ins Forum dazu posten...
Betreff/Beitrag:

   






Top Klicks | Neuestes

 
 

 


GTI Fanfest 2024


AMG GT 43 Coupe


Altblechliebe 4.0


Taycan mit 1100 PS


Porsche Taycan 2024


Aston Martin Vantage


Ist die Domain frei?


Renault Scenic Electric

Aktuell aus den Magazinen:
 4 Mio. im Lotto 6 aus 45 Vierfachjackpot am Sonntag
 EV5 Kia zeigt das SUV in Europa
 2,8 Mio. warten Dreifackjackpot in Österreich
 Menschenrechte Missbrauch im Namen des Klimas?
 Vierfachjackpot 4,5 Mio. im Topf im Lotto in Österreich

contator.net im Überblick:
 Webnews  WebWizard | Bundesland.at | Wien-Tipp.at | NewsTicker
 Business  Journal.at | Anfrage.net | plex | Seminar.At | BizTipp
 Auto  Auto.At | TunerAuto.At | OldtimerAuto.At | AutoTalk.At | AutoGuide.At | AutoBiz.At
 Freizeit  Style.at | Famili.at | Kinofilm.at | Musical.at | heavy.at | grlz | WitzBold | Advent.At
 Shopping  anna | Shoppingcity.at | SchatzWelt Gewinnspiele | Prozente.net Gutscheine
 Community  AufZack! | Flirtparty | Player | Schmuddelecke

Rechtliches
Copyright © 2024    Impressum    Datenschutz    Kontakt    Sitemap    Wir gendern richtig!
Tripple