Einführung

curryAPI bietet zahlreiche Dienste zur Verarbeitung natürlicher Sprache in Texten (Natural Language Processing). Anders als die meisten anderen Anbieter, die sich auf statistische Verfahren konzentrieren, vereint curryAPI.com statistische Verfahren mit der Nutzung der umfangreichen TopicZoom Ontologie. Während statistische Verfahren lediglich Begriffe extrahieren, die wörtlich im Text vorkommen, ermöglicht TopicZoom auch eine direkte thematische Indexierung sowie eine thematische Ähnlichkeitssuche. Die Ontologie, im Prinzip ein umfangreiches Themennetz, stellt dabei die Grundlage in Form eines "expliziten Weltwissens" bereit.

Die Kombination beider Verfahren ermöglicht deutlich bessere Ergebnisse und bildet die optimale Grundlage für semantische Suchsysteme, semantische Empfehlungssysteme und zahlreiche weitere Anwendungen.

Neben der automatischen Verschlagwortung und thematischen Zuordnung bietet curryAPI.com zahlreiche weitere Services zur Erstellung, Optimierung und Auslieferung von Content.

 

Wichtige Kennzahlen und Rückgabewerte

TopicZoom WebTags

Direct

Direct steht für direkte Treffer und beschreibt die Häufigkeit mit der ein Begriff tatsächlich im Text vorkommt. So steht die Angabe direct="2" dafür, dass ein Begriff (oder eine Flexionsvariante beziehungsweise ein Synonym) zweimal wörtlich im Text aufgetreten ist.


Weight

Weight weißt die Anzahl der Begriffe im Text aus, die einem bestimmten Thema zugeordnet oder auch untergeordnet sind. So könnten Begriffe wie Straßenbahn, Linienbus, S-Bahn beispielsweise zum Gewicht des Themas "öffentlicher Nahverkehr" beitragen, ohne dass "öffentlicher Nahverkehr" selbst im Text erwähnt wird.

Das Gewicht ist neber der Signifikanz einer der wesentlichsten Kennzahlen für das Ranking der im Text gefundenen Themen.


DoG - Degree of Generality

Der DoG beschreibt wie spezifisch ein Thema im Sinne der verwandten Hintergrund-Ontologie ist. Die Tiefe ist prinzipiell vom Text unabhängig, sondern bezieht sich auf die Einordnung der gefundenen Themen im Kontext der Ontologie. Je spezifischer ein Thema ist, desto höher der DoG. Die allgemeinsten Themen weißen einen DoG von 2 auf, sehr spezifische Themen haben Werte von über 20.

Beispielsweise wäre das Thema Straßenbahnen recht spezifisches. Das Thema Verkehr wäre weit allgemeiner.

 

Signifikanz

Die Signifikanz ist die entscheidende Kennzahl um zu beurteilen, wie auffällig ein bestimmtes Thema im analysierten Text ist. Der bereits beschriebene Parameter weight fließt in diese Kennzahl mit ein. Bei einem gleichen Weight erhalten speziellere Themen aber eine höhere Signifikanz.

Die Signifikanz ist die entscheidene Kennzahl für das Ranking der Themen.

 

Diversity

Der Parameter Diversity erlaubt es, passende Oberkategorien (z.B. Getreide) zu Texten anzugeben, obwohl die Oberkategorie im Text nicht genannt wird. Beispielsweise könnte für einen Text in dem die Begriffe Weizen, Roggen und Gerste vorkommen auch der Oberbegriff "Getreide" erkannt werden.

Das Thema Getreide würde hier mit einem Diversity-Wert von 3 erkannt.

Das Filtern nach ganzzahligen Diversity-Werten ermöglicht somit das Erkennen von möglichst spezifischen Oberthemen.

 

Type

Neben dem nicht näher spezifiertem "other" gibt es zahlreiche weitere Typen wie zum Beispiel "person", "org", "geo" uvm. Über den Parameter "type" lassen sich so auch wichtige Entitäten wie Personen, Organisationen oder Länder, Städte, Regionen und ähnliches herausfiltern.

 

SemanticAPI

Termgewichte

Das Termgewicht gibt – vereinfacht gesagt – Auskunft darüber, in welchem Verhältnis die Terme eines untersuchten Dokuments im Verhältnis zu einem Dokumentenkorpus gewichtet sind. Anhand der Termgewichte lässt sich somit erkennen, ob ein Wort in einem Text im Vergleich zu anderen Dokumenten über- oder unterrepräsentiert ist. Die Termgewichte können zum Beispiel dazu genutzt werden, Dokument automatisiert zu verschlagworten. Hierzu werden in der Regel die statistisch auffälligsten Terme des Dokuments gewählt. Allerdings hat diese statistische Vorgehensweise einige Nachteile. Zum Beispiel können nur Terme, die tatsächlich im Dokument enthalten sind als Schlagworte genutzt werden. Zudem weißen häufig wenig repräsentative Terme vergleichsweise hohe Termgewichte auf. Daher ist die Termgewichtsanalyse insbesondere in Kombination mit TopicZoom Webtags ein sinnvolles Mittel der automatisierten Verschlagwortung.

 

Lesbarkeitsindex

Ein Lesbarkeitsindex versucht anhand mathematisch-statistischer Verfahren die Lesbarkeit- und Textverständlichkeit von Dokumenten zu bestimmen. Hierfür gibt es unterschiedlichste Verfahren, wobei der Flesch-Reading-Index zu den bekanntesten gehört. Die Lesbarkeit wird anhand verschiedener Kriterien, wie Wort- und Silbenzahl, berechnet und in einem numerischen Wert ausgedrück. Texte mit Werten zwischen 60 und 70 gelten als gut lesbar. Die Wiener Sachtextformel wurde speziell für deutsche Texte entwickelt und ordnet Texte dem für das Verständnis notwendigen Schulniveau zu.

Flesch-Reading-Index

00-30: Sehr schwer
30-50: Schwer
50-60: Mittelschwer
60-70: Mittel
70-80: Mittelleicht
80-90: Leicht
90-100: Sehr leicht

 

Wiener Sachtextformel

12-15: Akademisch
09-11: Sekundarstufe
07-08: Realschule
05-06: Hauptschule
04-05: Grundschule