Autotagging: Szenarien für die Nutzung von Schlagworten

Der Begriff Autotagging beschreibt die automatisierte Verschlagwortung von textbasierten Inhalten durch den Einsatz semantischer Technologien. Auf Basis verschiedener Verfahren - zum Beispiel einer Termgewichtsanalyse oder der Nutzung von Ontologien - werden einem Dokument eine Reihe von Begriffen zugeordnet, die dieses inhaltlich bestmöglich repräsentieren. Während die Termgewichtsanalyse nur Begriffe berücksichtigen kann, die auch tatsächlich im untersuchten Dokument vorhanden sind, ermöglicht der Einsatz von Ontologien auch die Berücksichtigung relevanter Begriffe, die im Text nicht oder nur selten vorkommen. So könnte beispielsweise ein Text über Bluthochdruck auch mit dem Schlagwort "stressbedingte Krankheiten" versehen werden, obwohl dies im Text nicht erwähnt wird.

Natürlich erfolgt dies nicht zu Selbstzweck: es gibt zahlreiche Szenarien, in denen Schlagworte/Keywords sinnvoll genutzt werden können. Der Einsatz semantischer Technologien kann hierfür die Qualität verbessern und manuelle Abläufe reduzieren.

Strukturierte Auszeichnung im Rahmen von Meta-Daten

Richtig, die Zeiten in denen man das Google-Ranking durch die Angabe zahlreicher Keywords in den Meta-Daten positiv beeinflussen konnte, sind längst vorbei. Doch was viele nicht wissen: es gibt dennoch sinnvolle Anwendungsfälle für Keywords im Rahmen der Meta-Daten.

Google News

Bei Google News handelt es sich um eine spezielle Suchkategorie, eine sogenannt "Vertikale Suchmaschine", die über einen eigenen Algorhythmus verfügt und gezielt für die Suche nach News-Inhalten entwickelt wurde. Die Integration in Google News ist vor allem für Webseiten interessant, die regelmäßig neue Inhalte zu aktuellen Themen publizieren. Insbesondere ist dies für Verlage oder Medienportale, aber auch für Blogs interessant. Wesentliche Voraussetzungen, um in Google News integriert zu werden, sind unter anderem das Einreichen einer speziellen Google News Sitemap sowie sehr kurze Publishing-Zyklen. Mindestens alle zwei Tage müssen neue Inhalte publiziert werden. Die Integration einer Newsbox in die "normalen" organischen Suchergebnisse (im Rahmen der sogenannten Universal Search) erfolgt insbesondere, wenn die Suchhäufigkeit zu einem Thema stark ansteigt und zeitgleich die Anzahl der Veröffentlichungen zu einem Thema stark zunimmt. Ein typisches Szenario für wichtige Nachrichtenlagen. Ansonsten finden sich News-Inhalte stets in der seperaten Google News Suche.

Für ein gutes Ranking innerhalb der News-Ergebnisse kann ein Publisher verschiedene Maßnahmen treffen. Neben Aktualität, Domain-Trust und der bereits genannten Sitemap, spielen insbesondere Auszeichnungen in den Meta-Daten eine wichtige Rolle. Zwar mag die Ausweisung von Tags bzw. Keywords für die organischen Suchergebnisse nicht mehr relevant sein, doch für die News-Integration ist sie es noch immer. Hierfür gibt es eigene Tags (news_keywords), die idealerweise mit bis zu 10 Schlagworten gefüllt werden sollten.

Die über semantische Technologien automatisiert erstellen Tags können hierzu an der betreffenden Stelle im Quelltext der Webseite rausgerendert werden. Die (teil-)automatisierte Erstellung auf Basis semantischer Analysen spart dabei Zeit und kann helfen, die Qualität des Taggings zu erhöhen.

 

Strukturierte Auszeichnungen nach Schema.org

Schema.org ist eine Inititative, die verschiedene Schemata zur strukturierten Auszeichnung von Webinhalten entwickelt und bereitstellt. Zahlreiche Suchmaschinen und sozialen Netzwerke, darunter unter anderem Google, Yandex oder Microsoft, nutzen die strukturierten Auszeichnungen für die Indexierung und besseren Darstellung der Suchergebnisse.

Insbesondere wenn es um die strukturierte Auszeichnung von "kreativen Werken" wie redaktionelle Artikel, Rezensionen, Blogbeiträge u.v.m (Schema.org) geht, können Schlagworte zur weiteren Beschreibung des Inhalts genutzt werden.

 

Tag Clouds

Das bekannteste Einsatzszenario für die Nutzung von Schlagworten dürfte die Generierung von Tag Clouds, zu deutsch: Wortwolken, sein. Hierbei werden Inhalte mit treffenden Schlagworten versehen, die für die Generierung der bekannten Wortwolken genutzt werden. In der Regel werden die Begriffe in der Wortwolke dabei in unterschiedlichen Größen dargestellt (in Abhängigkeit der Anzahl der mit dem jeweiligen Begriff gekennzeichneten Inhalte) und mit der entsprechenden Suchanfrage verknüpft. Das heißt, beim Klick auf den Begriff wird dieser als Suche ausgeführt und eine Trefferliste mit entsprechenden Inhalten erscheint. Unter anderem ermöglicht dies dem Leser einen schnellen Überblick über wichtige Inhalte und eine einfache Suche.

 

Semantische Suche und Content Recommendations

Die generierten Schlagworte können im Rahmen der Suchfunktion ausgewertet und zur Verbesserung der Suchergebnisse genutzt werden. Durch die Verwendung von Ontologien sind logische Zusammenhänge bekannt, das heißt ein Beitrag wird nicht mehr nur gefunden, wenn der exakte Suchbegriff enthalten ist. Die Suche nach "stressbedingten Krankheiten" könnte beispielweise Bluthochdruck liefern, obwohl im Beitrag weder von Stress noch von Krankheit die Rede ist, denn eine semantisch starke Verschlagwortung hätte dieses Tag automatisch erzeugt.

Auch für relevanten Content Empfehlungen auf Basis inhaltlicher Ähnlichkeiten kann die Verschlagwortung einen wichtigen Beitrag leisten. Anhand der generierten Terme werden Inhalte in Themen gegliedert und können auf Basis dessen mit anderen Inhalten verglichen werden. Dies bildet einen wichtigen Baustein für den Aufbau semantischer Recommendation Engines.