In Anbetracht dessen und der Tatsache, dass die Crawler immer intelligenter mit Javascript umgehen können, teste ich zur Zeit eine Methode, ob man Inhalte gezielt vor Suchmaschinen verstecken kann, indem man den kompletten Inhalt über einen XMLHttpRequest vom Server an den Client liefert und somit eine nahezu HTML-freie Webseite erhält. Wer wissen will, ob die Crawler derartige Inhalte indexieren, kann sich den Source von www.uwetippmann.de anschauen und auf die Aktualisierung in den kommenden Tagen in den Suchmaschinen achten -> Wem es zu langsam geht kann ja einen Link drauf setzen 😉
Der Vorteil wäre, dass man der Suchmaschine zB. nur einen Titel und eine Beschreibung liefert, der restliche Inhalt bleibt für die Suchmaschine „unsichtbar“, für den Betrachter gibt es „nur“ die Einschränkung, dass man JavaScript enabled haben muss… das sollte jedoch in Zeiten von Web 2.0 kein Problem darstellen.
Update: Das Ergebnis ist seit heute im Index.
Test 1: Das Resultat ist ernüchternd: DerGoogle Crawler konnte das JavaScript nicht verarbeiten, die Inhalte blieben für den Crawler unsichtbar. Bis auf die URL wird keinerlei Content angezeigt, kein Title, keine Description. Der Vorteil gegenüber dem robots-Ausschluss ist der, dass wirklich nur die URL stehen bleibt und diese nicht mit dem Linktext anderer, externen Quelle benutzt wird.
Test 2: Gezielt eine selbst definierte Beschreibung liefern.
Update 2: Die Description der Seite ist nun im Index und wird sowohl als Titel als auch als Beschreibungstext angezeigt. Damit wäre der Test abgeschlossen und belegt, dass Google nicht in der Lage diese Art Javascript richtig zu interpretieren. Die Methode die Webseite über einen XMLHttpRequest zu laden, ist somit eine Alternative die Inhalte vor Google zu verbergen und dennoch die Elemente wie die Beschreibung und den Seitentitel selbst zu steuern. Anders als das bei einem Ausschluss der Seite durch die robots.txt der Fall geworden ist!