Abstract
In dieser Arbeit wird ein neuartiger Ansatz zur Clusteranalyse von Dokumenten vorgestellt, bei dem die Ergebnisse einer automatischen Verschlagwortung dieser Dokumente zur Analyse genutzt werden. Für die automatische Verschlagwortung wurde der Dientst ”TopicZoom Webtags“ genutzt, der zu den erzeugten Schlagwörtern auch Werte über ihre Gewichtung und Angaben zu ihreren Eingeschaften liefert. Zur Umsetzung und Evalution dieses Ansatzes wurde ein Programm entwickelt, dass diese unterschiedlichen ”Feature-Werte“ nutzt und verschiedene Cluster-Algorithmen darauf anwendet. Damit fungiert eine solche Verschlagwortung auch als ein neuer Ansatz zur ”Feature-Extraction“, die zur Durchführung eines Clusterings nötig ist. Durch die Einschränkung auf bestimmte Schlagwörter anhand ihrer Feature-Werte, sowie der Nutzung ihrer Gewichtungs-Werte, wurden unterschiedliche Ergebnisse bei der Cluster-Analyse erzeugt und evaluiert um die beste Kombination für Nutzung zum Clustering zu ermitteln. Außerdem wurden verschiedene Clustering-Algorithmen dafür angewandt und ihre Ergebnisse ebenfalls evaluiert. Schließlich wurde dieser Ansatz zur Nutzung der Verschlagwortung zur Feature-Extrationmit dem gängigen Verfahren der Gewichtung durch Tf-idf verglichen.
Users
Please
log in to take part in the discussion (add own reviews or comments).