Knapp 30.000 Hosts, vorwiegend deutsche Betreiber, sperren Hyros „thesubot“ aus… und ähnlich viele mögen den Miragobot nicht an ihre Inhalte lassen. Die robots.txt Suche von Alexa ermöglicht es auf Crawler-Inhalte zuzugreifen (in dem Fall auf die User Agents in der robots.txt), die sonst nur in den Datenbeständen der Suchmaschinenbetreiber, meist ungenutzt, verborgen sind. Weitere interessante Such-Applikationen findet man in der Alexa Developer’s Corner. Alexa bietet eine offene Schnittstelle zur Entwicklung eigener Applikationen auf der Basis der Alexa Crawlerdaten (4.5 Mrd Seiten).
Blogroll
Archive
- Mai 2017
- Juni 2016
- Januar 2016
- Dezember 2014
- Januar 2014
- Juli 2013
- Februar 2013
- September 2012
- Mai 2012
- Januar 2012
- Dezember 2011
- Juli 2011
- April 2011
- Februar 2011
- Juli 2010
- Mai 2010
- April 2010
- März 2010
- Februar 2010
- Dezember 2009
- November 2009
- September 2009
- August 2009
- Juli 2009
- Juni 2009
- April 2009
- März 2009
- Februar 2009
- Januar 2009
- Dezember 2008
- November 2008
- Oktober 2008
- September 2008
- August 2008
- Juli 2008
- Juni 2008
- Mai 2008
- April 2008
- März 2008
- Februar 2008
- Januar 2008
- Dezember 2007
- November 2007
- Oktober 2007
- September 2007
- August 2007
- Juli 2007
- Juni 2007
- Mai 2007
- April 2007
- März 2007
- Februar 2007
- Januar 2007
- Dezember 2006
- November 2006
- Oktober 2006
- September 2006
- August 2006
Ganz so ist es nicht: Die Suche zeigt nur welche Bots überhaupt in der robots.txt gelistet sind. Sucht man nach „googlebot“ findet man reichlich Webseiten die Teile der Seite (wie CGI-Skripte) für Googlebot sperren.
Es wäre also denkbar, dass mancher Webmaster thesubot nur für Teile seiner Domain sperrt…ok, weit hergeholt.
OK, weil Weihnachten ist, lass ich das mal so stehen 🙂 Soll doch jeder Glauben was er will….