ACAP – Neuer Standard für robot.txt

Internationale Verlegerverbände haben einen neuen Standard vorgeschlagen, um den automatischen Zugriff auf Inhalte besser regeln zu können. Das ACAP (Automated Content Access Protocol), das dabei präsentiert wurde, wirkt wie ein unaufgeregter Kompromiss, mit dem sich die Auseinandersetzungen zwischen Verlegern und Suchmaschinen – hier allen voran Google – lösen ließen.

Die Verlegerverbände – gemeint sind hier vor allem jene, die Nachrichtenproduzenten repräsentieren – sind suchmaschinentechnisch in der Zwickmühle. Einerseits finden sie es beängstigend, mit welcher Selbstverständlichkeit Google und alle anderen Suchmaschinen ihre Seiten crawlen und deren Nachrichteninhalte zusammenfassen. Andererseits fänden sie es erst recht beängstigend, wenn Google und alle anderen Suchmaschinen eben nicht mehr ihre Inhalte auflisten würden.

Ein Verleger hätte höchstens im Selbstmordrausch „Nein“ via robots.txt gesagt, um die Nachrichtenzusammenfassungen durch Suchmaschinen zu verhindern. Vielmehr beklagte man sich etwas weinerlich darüber, dass Google mit deren Inhalten Traffic auf die Seiten schaufelte.

Im Großen und Ganzen ist das ein „Bitte crawlen – aber nicht zu sehr!“ Schließlich soll dieser neue Standard wie beim Robots Exclusion Standard in einer Datei namens robots.txt, was mit den Inhalten der Site geschehen darf – allerdings viel differenzierter, denn der Website-Betreiber kann jetzt genauer reglementieren, wie weit die Bots gehen dürfen. Beispielsweise können über Anweisungen Textlängen festgelegt werden, die der Bot beim crawlen nicht überschreiten darf. Auf diese Weise können kurze Teaser indiziert werden, während der Gesamttext vom Bot unberücksichtigt bleibt. Bleibt nur noch zu warten, wie die Reaktion der Suchmaschinen aussehen wird. Auf jeden Fall kann man den Verlegerverbänden nicht vorwerfen, sich wären nicht konstruktiv.

Tweet about this on TwitterShare on Google+Pin on PinterestShare on StumbleUponShare on RedditShare on LinkedInShare on Facebook

Leave a Reply

Your email address will not be published. Required fields are marked *

*