DFG-Projekt PainFaceReader

Inhalt und Ziele

Das PainFaceReader-Projekt ist im Forschungszweig der Facial Expression Analysis angesiedelt: Forschungsgegenstand ist der menschliche Gesichtsausdruck als Mittel non-verbaler Kommunikation, welches Aufschluss über den mentalen Zustand einer Person geben kann. Im Rahmen des Projektes liegt der Fokus hierbei insbesondere auf der Empfindung von Schmerz, welche durch die Interpretation von Gesichtsausdrücken zielsicher erkannt werden soll. Mimische Signale von Schmerz schnell und präzise zu erkennen ist vor allem in solchen Anwendungsszenarien wichtig, in denen Menschen nicht in der Lage sind, ihre Empfindungen verbal zu kommunizieren: Beispiele hierfür sind Kleinkinder, Menschen mit Demenz oder Patientinnen und Patienten mit eingeschränktem Bewusstseinszustand (z. B. in postoperativer Behandlung).

Eine Grundlage dafür, wie man Gesichtsausdrücke objektiv beschreiben kann, bietet das Facial Action Coding System (FACS): hierbei wird jede mit dem menschlichen Auge erkennbare kleinstmögliche Muskelbewegung im menschlichen Gesicht als separate Action Unit (AU) mit eindeutiger ID und Beschreibung der entsprechenden Muskelbewegung repräsentiert. Darauf aufbauend lässt sich untersuchen, welche Kombinationen von AUs, also welche typischen Gesichtsausdrücke, als Signal eines bestimmten zugrundeliegenden emotionalen Zustandes interpretiert werden können.

Die Erkennung von Action Units im direkten Kontakt oder, was häufiger der Fall ist, aufgrund von Fotos oder Videoaufnahmen von Gesichtern, wird klassischerweise von menschlichen Expertinnen und Experten manuell vorgenommen und ist eine zeitintensive Aufgabe. Das PainFaceReader-Projekt verfolgt das Ziel, diese Arbeit zu automatisieren, wodurch die Analyse der Gesichtsmimik in Echtzeit vorgenommen und Fachkräfte entlastet werden können. Die Automatisierungsschritte beinhalten die Wahrnehmung des menschlichen Gesichts durch visuelle Sensoren, die Identifikation der im Gesicht gezeigten Action Units, sowie die Erkennung von Schmerz auf Grundlage der gezeigten AUs. Die korrekte Wahrnehmung und Interpretation der AUs wird dabei mit Techniken des maschinellen Lernens ermöglicht.

Bei allen Automatisierungsschritten und Anwendungen von maschinellem Lernen steht immer auch die Erklärbarkeit der Abläufe und Ergebnisse im Vordergrund. Durch Transparenz und Nachvollziehbarkeit soll es menschlichen Nutzerinnen und Nutzern zu jedem Zeitpunkt möglich sein, Einschätzungen und Entscheidungen seitens des Systems zu reflektieren und gegebenenfalls zu korrigieren. Aus diesem Grund verwendet der PainFaceReader bevorzugt Repräsentationsformen und Machine-Learning-Techniken, welche die Interpretierbarkeit durch menschliche Anwenderinnen und Anwender gewährleisten.

Bei dem Projekt handelt es sich um eine Kooperation mit der Professur für Physiologische Psychologie der Otto-Friedrich-Universität Bamberg sowie dem Fraunhofer-Institut für Integrierte Schaltungen in Erlangen. Die Experten aus der Psychologie steuern wertvolles Fachwissen bei, stellen die Datenbasis für das maschinelle Lernen bereit und evaluieren die Ergebnisse anhand möglichst realistischer Anwendungsszenarien. Das Frauhofer-Institut nutzt seine Expertise im Bereich Computer Vision zur eindeutigen Erkennung von Gesichtsausdrücken in verschiedenen Kontexten bzgl. Umgebung, Beleuchtung und Perspektive sowie zur zuverlässigen Identifikation von Action Units in der gezeigten Mimik. Die Professur für Kognitive Systeme nimmt darauf aufbauend die Interpretation der vorverarbeiteten AUs durch Ansätze des maschinellen Lernens vor.

Methode

FACS als Zwischenrepräsentation: Obwohl es auch automatisierte Ansätze gibt, welche direkt aus den erfassten geometrischen und texturbasierten Merkmalen des Gesichts die Zuordnung des mentalen Zustandes ableiten, verwendet das PainFaceReader-Projekt FACS als explizite Zwischenrepräsentation. Dies ist begründet durch den Anspruch, eine für menschliche Nutzerinnen und Nutzer des Systems interpretierbare Repräsentation der verarbeiteten Informationen zu verwenden, um eine proaktive Interaktion zwischen Mensch und System zu gewährleisten. Für die Interaktion des Systems mit menschlichen Expertinnen und Experten aus Medizin und Psychologie stellt FACS als international anerkanntes Beschreibungsvokabular für mimische Ausdrücke ein besonders gut geeignetes Mittel dar.

Induktive Logische Programmierung als Ansatz des maschinellen Lernens: Informationen und Klassifikationsregeln, welche der PainFaceReader für die Interpretation von Gesichtsausdrücken verwendet, werden als Aussagen im Rahmen der Prädikatenlogik modelliert. Auch dies dient der Interpretierbarkeit durch menschliche Anwenderinnen und Anwender des Systems, da diese Form der symbolischen Repräsentation für menschliche Betrachter einfacher zugänglich ist als andere, abstraktere Repräsentationsformen. Lernalgorithmen der Induktiven Logischen Programmierung leiten auf Grundlage des modellierten Wissens weiterführende Klassifikationsregeln ab, welche die Zuordnung von Gesichtsausdrücken zu mentalen Zuständen vornehmen sollen.

Intervallalgebra zur Modellierung zeitlicher Relationen: Eine zentrale Herausforderung des Projektes ist die Tatsache, dass eine Reihe emotionaler Zustände (beispielsweise Wut oder Ekel) durch ähnliche oder sogar die gleichen AUs ausgedrückt werden wie die Empfindung von Schmerz. Aufbauend auf der Erkenntnis, dass Menschen diese sehr ähnlichen Gesichtsausdrücke in bewegten Bildern über eine gewisse Zeitspanne hinweg wesentlich besser voneinander unterscheiden können als auf einzelnen unbewegten Abbildungen, untersucht das PainFaceReader-Projekt die Bedeutung zeitlicher Abfolgen und Relationen von AUs für eine erfolgreiche Klassifikation. Dabei werden alle in der Allen‘schen Intervallalgebra aufgeführten Relationen, welche zwei Zeitintervalle zueinander einnehmen können, in Betracht gezogen.

Datenverarbeitung zum Schutz der Privatsphäre: Die Schmerzidentifikation aufgrund der Mimik kann einen Beitrag dazu leisten, dass Menschen, die - etwa aufgrund kognitiver Beeinträchtigungen oder dementieller Erkrankungen - nicht in der Lage sind, ihre Schmerzen verbal zu kommunizieren, dennoch adäquat mit Schmerzmitteln versorgt werden können. Andererseits sind häufige Aufnahmen des Gesichts ein starker Eingriff in die Privatsphäre der Patientinnen und Patienten. Entsprechend sollen im Projekt Methoden entwickelt und genutzt werden, bei denen nur die aus dem Gesicht abgeleiteten Daten (zeitlicher Verlauf von AUs) weitergegeben werden. Falls die konkrete Abbildung von Mimik zur Erklärung herangezogen wird, werden diese Informationen auf ein Avatar-Gesicht projiziert.

Bilder

Zum Vergrößern auf die Bilder klicken.