Diese Website verwendet hochwertige Cookies. Mit der Nutzung stimmen Sie der Speicherung zu.


» contator.net » WebNews » WebWizard.at » sem-seo.at » Informationen  

22.5.2018 11:38      Benutzerkonto

Partner:

eMail-Newsletter gratis:

Archiv | Abmelden | RSS/Feeds
Folge uns:
Wir sind in Facebook! Wir sind in Twitter! Wir sind in Google+! Wir sind in Youtube! Wir sind in Labarama!

Suche:

                                                                                                                                                                                                                                                                                                                                                                                                                                                                      














Ebene darüber

Anleitungen und Referenzen

Auf gleicher Ebene

robots.txt hilft Suchmaschinen
Statistiken zu Google Suggest
Traffic von Suchmaschinen
Noch mehr Guides hier...










Autoszene #18


Aktuelle Highlights

DSGVO und Fotografie


 
Übersicht | Verzeichnis
      Anleitungen und Referenzen
           robots.txt hilft Suchmaschinen


robots.txt hilft Suchmaschinen

Grundsätzlich sollten die Spider und Crawler der diversen Suchmaschinen selbst finden, was es im Web zu suchen gibt. Manchmal ist es aber besser, sie in die Schranken zu verweisen oder auf die Fährte zu bringen.

Ein Standard hilft hier: robots.txt nennt sich die Datei im Web, die den Suchmaschinen hilfreiche Informationen liefern kann. Nicht alle Suchmaschinen halten sich an diese Vorgaben, wenn sie es aber regelkonform tun, profitieren sie von zusätzlichen Hilfestellungen für den Crawler. Und Sie profitieren von mehr Möglichkeiten in der Arbeit mit der Suchmaschine. Die großen Engines wie Google oder Bing sind hier bestens vorbereitet!

robots.txt wo abspeichern?

Der erste Schritt ist das Anlegen einer eigenen robots.txt-Datei. Diese ist eine simple Textdatei, die im Root-Verzeichnis einer Website zu finden sein muss. Suchmaschinen rufen also die Website-Domain mit der Erweiterung '/robots.txt' auf, um sie abzuholen. Wenn Sie unter www.ihrdomainname.com/robots.txt auf die Inhalte stoßen, dann haben Sie den richtigen Speicherort für die Datei gefunden.

Nun geht es also an den Inhalt der Datei. Doch Vorsicht: Sie sind mit einer Robots.txt in der Lage, Suchmaschinen auch komplett auszusperren. Sehen Sie sich die Webmaster-Tools von Bing und Google an, um deren Sicht auf die robots.txt abzutesten und mit Ihren Wünschen zu vergleichen.

Inhalt der Robots.txt

Der Aufbau der Textdatei ist einfach: Jede Zeile beinhaltet einen Befehl, einzelne Zeilen können mit '#' auch als Kommentare ausgeklammert werden. Bereiche definieren wiederum, für welche Suchmaschine man nachfolgende Befehle vorsieht.



Die Bereiche legt man am Besten vorher strukturiert an. Wenn Sie etwa einen Bereich speziell für Google einrichten wollen und einen für den Rest, dann stellen Sie Google zuerst in die Datei und dann den allgemeinen Teil (manche Suchmaschinen glauben, sobald sie auf den allgemeinen Teil treffen, dass alles Nachfolgende für sie gültig ist).

Ein Bereich startet mit 'User-agent: ' gefolgt von dem Namen, den ein Crawler selbst bei seiner Arbeit als User-Agent-Kennung vorsieht. Google nennt sich 'googlebot' und wird demnach mit 'User-agent: googlebot' angesprochen. Der Abschnitt für alle Suchmaschinen lautet 'User-agent: *'

Typischerweise wird die robots.txt für das Ausschließen einzelner Seiten vom Crawling genutzt. Wenn Sie der Suchmaschine bestimmte Bereiche vorenthalten wollen, so hilft der 'Disallow: '- Eintrag. Mit einer Zeile 'Disallow: /logs/' verhindern Sie den Zugriff auf die Logfiles durch Suchmaschinen (bzw.: Sie verhindern das nicht, aber gute Suchmaschinen entsprechen Ihrem Wunsch, diese Dateien nicht zu öffnen).

Manche Suchmaschinen erlauben auch 'Wildcards' in den Disallow-Einträgen. So könnte ein 'Disallow: /test*.pdf' sowohl die test1.pdf als auch die test27.pdf vom Crawling ausschließen. Da immer von vorne gelesen wird, ist ein 'Disallow: /test' auch für all diese und jene Dateien und Verzeichnisse gültig, die mit Test beginnen. Etwas mehr Eingriffsmöglichkeiten bietet dann der '$'-Abschluss, denn er definiert das Ende. Wer mit 'Disallow: /test*.pdf$' das '.pdf' nur am Ende der URL filtert, kann feiner steuern, was die Suchmaschine abrufen darf. Google unterstützt all diese Schreibweisen.

Weitere Möglichkeiten, die robots.txt zu nutzen, sind vielfältig wie die möglichen Befehle der Suchmaschinen. So etwa kann man den Traffic der Crawler drosseln, wenn man ihnen zu schnellen Abruf verbietet. Ein 'Crawl-Delay: 30' gibt 30 Sekunden Pause zwischen zwei Seitenabrufen vor.

In einer robots.txt kann man den Suchmaschinen aber noch viele weitere Informationen mitgeben. Durchgesetzt hat sich etwa das Übermitteln von Sitemaps mit Links zu den zu crawlenden Seiten: 'Sitemap: ' folgt ein Link auf eine Sitemap-Indexdatei im XML-Format, die dann die Links zu den einzelnen Sitemaps der Website bietet (die Links unterhalb zeigen mehr dazu).

Beispiel einer robots.txt

Wie sieht nun eine gültige robots.txt aus? Nehmen wir eine Website wie 'www.beispiel.at' und definieren wir für Google und die Allgemeinheit ein paar Dinge, dann könnte das so aussehen:

User-agent: Googlebot 
Disallow: /files/*.pdf
Crawl-Delay: 15

User-agent: *
Disallow: /logs/
Disallow: /tests/

Sitemap: http://www.beispiel.at/index.xml



Nun wird die Datei auf www.beispiel.at/robots.txt hoch geladen und getestet. Gar nicht so schwer, oder?

Ihre Meinung dazu? Schreiben Sie hier!

#robots.txt #Standard #Web #Internet #Crawler #Spider #Google #Bing #Suchmaschinen


Kommen Sie auf unsere Facebook-Seite!
Wir sind in Google+ für Sie da...
Folgen Sie unserem Twitter-Feed hier...
Folgen Sie unserem Labarama-Blog...
Newsticker per eMail oder RSS/Feed!

Auch interessant!
User Agent String im Internet Explorer 11
Der 'MSIE' zeigt sich nicht mehr unter diesem Titel, wenn man nach diesem Erkennungsmerkmal sucht. Micros...

Content, Semantik und Suche
Drei Themen, die uns als Webmaster schon bisher im WebWizard immer wieder beschäftigt haben. Nun gehen wi...

Sitemaps für Websites
Schon beim Auffinden von Inhalten im Internet sind Suchmaschinen mitunter auf die Unterstützung lesbarer ...

Google plant Urheberrechtsverstöße
Richtig gelesen. Just zu dem Zeitpunkt, wo deutsche Gerichte sogar Private mit hohen Strafen bedrohen, we...

humans.txt, weil wir Menschen sind?
Auf Webservern liegt meist eine 'robots.txt' herum, die die Anweisungen für die Suchmaschinen beinhaltet....

Parameterbehandlung gegen Duplicate Content
Google hat die Webmaster Tools erweitert und erlaubt nun das Aus- und Einblenden von URL-Parametern für d...

robots.txt Virus
Haben Sie ein eMail über einen Virus bekommen, der Ihre Homepage befallen will und den Sie mit ein paar s...

Sitemaps für Yahoo, Google und Live Search
Alle drei großen internationalen Suchmaschinen unterstützen mittlerweile das Sitemaps-Protokoll, um Eintr...

Forum: Ihre Meinung dazu!

[AufZack Talk] [Forum]     
Posten Sie ins Forum dazu:
Betreff:

Ihre Meinung via Facebook posten:

   






Top Klicks | Neuestes

Folge uns: | Facebook | Google+ | Youtube

 
 

 


DSGVO und Fotografie



Porto 2018



Wörtherseetour 2018



Fotos lizensieren



DSG und Newsletter



Fotos Pannonia Carnuntum


Style 4/2018

Aktuell aus den Magazinen:
 Pannonia Carnuntum Rallye Fotos von der Historic 2018 Oldtimer Rallye
 Autopilot ins Risiko Tesla hat Probleme mit den Assistenzen und der Sicherheit
 .eu wird geöffnet Nicht nur die Briten kommen an die Europa-TLD.
 DSGVO in der Fotografie Fotografen sollten sich auf den Datenschutz vorbereiten
 VW Neo 2019 Elektroauto als Golf-Nachfolger

contator.net im Überblick:
 Webnews  WebWizard | Bundesland.at | Wien-Tipp.at | NewsTicker | contator.tv
 Business  Journal.at | Anfrage.net | plex | Seminar.At | BizTipp
 Auto  Auto.At | TunerAuto.At | OldtimerAuto.At | AutoTalk.At | AutoGuide.At | AutoBiz.At
 Freizeit  Style.at | Famili.at | Kinofilm.at | Musical.at | heavy.at | grlz | WitzBold | Advent.At
 Shopping  anna | Shoppingcity.at | SchatzWelt Gewinnspiele | Prozente.net Gutscheine
 Community  AufZack! | Flirtparty | Player | Schmuddelecke

Kontaktformular
Rechtliches
Copyright © 2018    Impressum    Adresse    Sitemap   
Mediadaten    Anfrage: hier werben!    Freies Web? Keine adblocker!
Tripple
      ad-locator.net    |    web-applicator.net