Künstliche Intelligenz (KI) ist schon heute zentraler Bestandteil unseres Lebens. Dank ihr übernehmen schlaue Helfer*innen Arbeiten, die für Menschen mit viel Aufwand verbunden wären – zum Beispiel in der Medizin, der Wirtschaft oder der Industrie. Die Basis dafür bilden Unmengen von Daten. Sogenannte Wissensgraphen gehören dabei zu den bevorzugten Repräsentationsmechanismen, weil sie für Menschen und Maschinen nachvollziehbar sind und dafür sorgen, dass Informationen sinnvoll aufbereitet werden. Sie gelten als Schlüssel für eine Reihe von beliebten Technologien wie die Websuche oder digitale persönliche Assistenten. Allerdings weisen aktuelle Ansätze des maschinellen Lernens in Verbindung mit Wissensgraphen noch immer Unzulänglichkeiten auf, insbesondere mit Blick auf Skalierbarkeit, Konsistenz und Vollständigkeit. Ein weiteres Problem: Sie erfüllen den menschlichen Bedarf nach Verständlichkeit nicht. Wissenschaftler*innen der Universität Paderborn arbeiten im Rahmen eines großangelegten Forschungsprojekts jetzt daran, erklärbares maschinelles Lernen für großskalige Wissensgraphen möglich zu machen. An dem Vorhaben ENEXA* sind außerdem das National Centre for Scientific Research Demokritos in Griechenland, das European Union Satellite Centre in Spanien, die Universität Amsterdam, Niederlande, sowie die Unternehmen DATEV und webLyzard technology beteiligt. Die Forschung wird über einen Zeitraum von drei Jahren mit rund vier Millionen Euro im Horizon Europe-Programm der Europäischen Union gefördert.
Erklärbarkeit von künstlicher Intelligenz
„Aktuelle auf maschinellem Lernen basierende Erklärungsansätze beruhen oftmals auf einem einmaligen Prozess, bei dem die KI nicht berücksichtigt, ob der Mensch, der die Erklärung erhält, das, was erklärt werden soll, wirklich verstanden hat“, sagt Prof. Dr. Axel-Cyrille Ngonga Ngomo, Leiter der Arbeitsgruppe „Data Science“ an der Universität Paderborn. Anders ausgedrückt: Es findet keine Rückversicherung zwischen Sender und Empfänger statt. „Aber es gibt einen Ausweg: Das Problem wird durch die Ko-Konstruktion von Erklärungen entschärft. Bei dem Konzept werden die Adressat*innen – also die Menschen – stärker in den KI-gesteuerten Prozess miteinbezogen. Die Erklärungen entstehen nicht nur für sie, sondern mit ihnen“, so Ngonga.
Der Mensch im Mittelpunkt: Maschinelles Lernen für großangelegte Anwendungen
Bislang gibt es keine konkreten Umsetzungen für das Konzept. Die Wissenschaftler*innen haben es sich deshalb zum Ziel gesetzt, erklärbare Ansätze für maschinelles Lernen auf besonders großen Wissensgraphen zu entwickeln. Der Fokus liegt auf der schnellen Berechnung von Modellen und menschenzentrierten Erklärungen. Ngonga spricht von Pionierarbeit: „Um dieses Ziel zu erreichen, wird ENEXA neuartige hybride Ansätze des maschinellen Lernens entwickeln, die mehrere Repräsentationen von Wissensgraphen gleichzeitig nutzen können. Die entwickelten Lösungen werden realen Laufzeitanforderungen gerecht und machen erklärbares maschinelles Lernen für großangelegte Anwendungen wie z. B. Websuche, Buchhaltung, Brand Marketing und die prädiktive Analyse von Satellitenbildern zugänglich. Durch die konkrete Umsetzung von hybridem maschinellem Lernen auf großen Wissensgraphen und deren Erklärung wird ENEXA Pionierarbeit bei der Implementierung von Modellen aus der Soziologie und Psychologie in das maschinelle Lernen leisten.“ Das sei laut Ngonga deshalb wichtig, weil Menschen auf einer oftmals undurchsichtigen Grundlage Entscheidungen treffen müssen, die mit teilweise weitreichenden Konsequenzen einhergehen.
Nutzen für die Industrie
Auch in der Industrie bringt KI im Zusammenhang mit Wissensgraphen Vorteile mit sich. Den Wissenschaftler*innen zufolge ist der Einsatz bisher allerdings nur begrenzt möglich: „Frameworks zur Wissensextraktion und -speicherung, die in der Lage sind, industrielle Daten in große Wissensgraphen zu übersetzen und die Ergebnisse auf verteilte Weise zu speichern, sind bis dato Mangelware. Auch die Entwicklung skalierbarer KI-Algorithmen, die Vorhersagen für große, inkonsistente oder unvollständige Daten in angemessener Zeit berechnen können, ist nach wie vor eine Herausforderung. Techniken für verständliche Erklärungen aus maschinell gewonnenen Ergebnissen, um sicherzustellen, dass die berechneten Modelle vertrauenswürdig sind, stellen ebenfalls eine Hürde dar“, erklärt Ngonga.
Der Weg zum Ziel: Drei Anwendungsfälle
„Das Hauptziel von ENEXA ist es, erklärbare maschinelle Lernansätze für Wissensgraphen zu entwickeln, die den Stand der Technik in Bezug auf Laufzeit, die Menge der zu verarbeitenden Daten (Skalierbarkeit), Dateninkonsistenz (Robustheit) und Erklärungsqualität deutlich übertreffen“, fasst Ngonga zusammen. Um diese Ansätze zu validieren, wurden drei Anwendungsfälle ausgewählt. Der erste in Zusammenarbeit mit dem Unternehmen DATEV, das mehr als 60 Millionen digitale Belege im Monat von ca. 960.000 deutschen KMU, also kleinen und mittleren Unternehmen, sowie öffentlichen Einrichtungen verarbeitet. Diese buchhaltungsrelevanten Belege müssen klassifiziert und interpretiert werden, um gültige Buchungssätze zu erstellen. In dem Prozess spielen Qualität und Rückverfolgbarkeit eine entscheidende Rolle, um Fehler und damit Kosten zu minimieren und die Einhaltung gesetzlicher Vorgaben zu gewährleisten. Die Qualität der Automatisierungsergebnisse hängt stark von der Datenbasis und deren Aufbereitung für das maschinelle Lernen ab. In Zusammenarbeit mit den Wissenschaftler*innen sollen neue Ansätze für effizientere und damit ressourcenschonende Prozesse unter Verwendung von Wissensgraphen erforscht werden.
Der zweite Anwendungsfall wird gemeinsam mit dem European Union Satellite Centre (SATCEN), einer EU-Agentur mit Sitz in Spanien, durchgeführt. SATCEN bietet Produkte und Dienste für die Geoinformationsgewinnung an. Eine der Quellen dafür sind die Daten der Sentinel-Satelliten als Teil des Copernicus-Programms der Europäischen Union. Sie produzieren riesige Datenmengen, die mit geografischen Wissensgraphen kombiniert werden können, um daraus effizient relevante Informationen zu gewinnen. Das ENEXA-Team befasst sich mit der Entwicklung neuer Techniken zur Verbesserung der Verwaltung und Analyse solcher Daten.
Zusammen mit webLyzard technology sollen Markenkommunikationsstrategien verbessert werden. Das Unternehmen stützt sich auf Wissensgraphen als Hintergrundwissen für die Zuordnung von affektivem Wissen zu Verbrauchermarken sowie für die Vorhersage zukünftiger Ereignisse, um daraus datengesteuerte Strategien abzuleiten. webLyzard technology verarbeitet bis zu 100 Millionen Dokumente pro Tag. Ziel ist es, aussagekräftige Klassifizierungsergebnisse zu erhalten, die dazu führen, dass Unternehmen beispielsweise Pressemitteilungen verbreiten oder Online-Anzeigen schalten, um ihre Inhalte in bestimmten Zeitintervallen zu bewerben und so die Reichweite bei ihren Zielgruppen zu maximieren. Aktuelle Ansätze sind laut Team nicht in der Lage, diese Datenmenge zu bewältigen.
Interdisziplinarität zur Bewältigung der Herausforderungen
Bei ENEXA arbeitet eine Reihe von Wissenschaftler*innen aus unterschiedlichen Disziplinen am Gelingen des Projekts: Dazu zählen u. a. Computerlinguist*innen, Psycholog*innen, Informatiker*innen und Softwareentwickler*innen. Der gemeinschaftliche Ansatz soll neue Antworten auf gesellschaftliche, wirtschaftliche und unternehmerische Herausforderungen im Zusammenhang mit künstlicher Intelligenz liefern. Im Kern geht es dabei um die Teilnahme von Menschen an soziotechnischen Systemen. Das Team rechnet bereits 2023 mit ersten Ergebnissen.
Weitere Informationen sind unter enexa.eu zu finden.
*ENEXA steht für ‘Efficient Explainable Learning on Knowledge Graphs’.