Vergleich von Clustering-Ergebnisse

Das neue DFG-geförderte Projekt „CoCo“ zur visuellen Analyse von Clustern wird in Kooperation mit dem Luxembourg Institute of Science and Technology (LIST) umgesetzt.

CoCo: Vergleichende und kollaborative visuelle Analyse von Clustering und Co-clustering Ensembles

Gefördert durch: Deutsche Forschungsgemeinschaft (DFG) in Zusammenarbeit mit dem Fonds National de la Recherche (FNR, Luxemburg)

Förderung: 2023–2026

Projektpartner: Fabian Beck (Universität Bamberg) und Mohammad Ghoniem (LIST)

Zusammenfassung

Beim Clustering werden komplexe Daten automatisch gruppiert und Abstraktionen auf der Grundlage der Ähnlichkeit der Daten erstellt. Es gibt jedoch verschiedene Kriterien zur Berechnung der Ähnlichkeit und verschiedene Clustering-Algorithmen, die alle zu einer anderen Gruppierung der Daten führen. Die sich daraus ergebende Vielfalt an Gruppierungen wird gewöhnlich versucht zu minimieren, aber wir sehen in der Vielfalt auch einen Wert und eine Chance. Nur menschliche Experten können die Qualität der Ergebnisse beurteilen und zwischen den verschiedenen Wahrheiten wählen, die sie widerspiegeln. Sie können die Besonderheiten des jeweiligen Anwendungsfalls berücksichtigen und auf der Grundlage der verschiedenen Ergebnisse eine zusammenfassende Gruppierung vornehmen. Die Zusammenarbeit mehrerer Experten ist sinnvoll, um ein breiteres Spektrum an Fachwissen einzubeziehen.

Um die Experten zu unterstützen, schlagen wir neue Methoden zur Visualisierung und zum visuellen Vergleich solcher Ensembles von Clustering-Ergebnissen vor. Unsere Methoden gehen über den Stand der Technik für visuelle Vergleiche hinaus, da sie komplexere Szenarien hinsichtlich der Eigenschaften von Clusterstrukturen berücksichtigen, sowie ihrer kontextuellen Einbettung in andere Daten und kollaborative Analysen. Wir wollen nicht nur einfache Partitionen von Daten untersuchen, sondern auch überlappende Gruppen und Cluster, die in Netzwerkstrukturen integriert sind. Ein besonderer Schwerpunkt sind Co-Cluster, die auch die Datenvariablen strukturieren und dadurch leichter verständliche Gruppierungen bilden. So können beispielsweise aus einer Sammlung wissenschaftlicher Dokumente bestimmte Themen identifiziert werden, die zusammen mit den darin enthaltenen Begriffen Co-Cluster bilden, welche durch die Betrachtung des zugrunde liegenden Zitationsnetzwerks weiter kontextualisiert werden.

Zu den spezifischen Zielen des Projekts gehören die Erforschung des Gestaltungsraums für die Modellierung solcher Gruppierungen und die Untersuchung von Mitteln zu ihrer visuellen Codierung für einen effektiven und kontextualisierten Vergleich. Neben technischen Beiträgen in Form von neuen Visualisierungstechniken werden wir auch Leitlinien, Aufgabentaxonomien und Literaturübersichten erarbeiten. Anwendungsbeispiele, die sich auf die Analyse von Dokumentensammlungen und biologischen Omics-Daten konzentrieren, verankern die Techniken in realen Aufgabenstellungen und ermöglichen die Arbeit mit verschiedenen Anwendungsexperten. Ein ergänzender Schwerpunkt ist die Vereinfachung der kollaborativen visuellen Analyse von Gruppierungen, z. B. auf einem wandgroßen Bildschirm mit der Unterstützung von Mehrbenutzer-Interaktion.