SER Blog  Innovation & Technologie

Neue Impulse aus der KI-Forschung: Mit Few-Shot zu Deep Content Analytics

Künstliche Intelligenz ist ein aktueller Trend, von dem sich Unternehmen viel versprechen: Sie möchten damit Geschäftsprozesse optimieren, Mitarbeiter*innen unterstützen, Geschäftsrisiken frühzeitig erkennen u.v.m. Das Forschungsteam um Prof. Dr. Dirk Krechel und Prof. Dr. Adrian Ulges an der Hochschule RheinMain setzt genau da an, wo es bei der Umsetzung von KI-Ansätzen oft hakt: Im Projekt „Deep Content Analytics“ (DeepCA) entwickeln sie KI-Lösungen, die die Anforderungen von Unternehmen und ihren Mitarbeiter*innen von Anfang an berücksichtigen. Im Interview gibt Prof. Dr. Krechel Einblicke in das Projekt und erklärt, warum der integrierte Ansatz sowohl für die Forschung als auch für die Wirtschaft von Vorteil ist.

KI in der Praxis anwenden

Prof. Dr. Krechel, Sie und Ihr Team forschen zum Thema Content Analytics. Wie ist dieses Projekt entstanden und worum geht es dabei konkret?

Prof. Dr. Dirk Krechel

Krechel: An der Hochschule RheinMain erhalten die Studierenden der Fachbereiche Design, Information und Medien die einmalige Gelegenheit, wissenschaftliche und technische Fragestellungen in direkter Zusammenarbeit mit Unternehmen aus der Industrie zu bearbeiten. Derzeit liegt bei uns der Fokus der Entwicklung auf typischen Use Cases für die Kombination von Deep Learning-Technologien und ECM-Systemen. Die SER Group ist ein langjähriger Förderer, mit dem wir bereits seit 2007 im Rahmen der Arbeitsgruppe LAVIS (Learning and Visual Systems) zusammenarbeiten. Aktuell ist der Fokus der Kooperation das Forschungsprojekt „Deep Content Analytics (DeepCA)“, das auch vom Bundesministerium für Bildung und Forschung (BMBF) gefördert wird.

Von der Kooperation profitieren beide Seiten: Studierende lernen reale Aufgabenstellungen und typische Entwicklungsabläufe eines Software-Herstellers kennen und qualifizieren sich dadurch bereits während des Studiums für den Berufseinstieg. Im Gegenzug erhält ein Unternehmen wie die SER Group wissenschaftliche Unterstützung bei der Entwicklung kommender Generationen von Software-Systemen.

Was können wir uns unter „Deep Content Analytics“ vorstellen?

Krechel: Der Projektname „DeepCA“ ist eine Kombination aus Deep Learning und Content Analytics. Content Analytics zielt darauf ab, Wissen aus heterogenen Datenquellen zu extrahieren. Im Unternehmenskontext findet man solche Quellen in Form von zahlreichen Systemen, Datenbanken und Anwendungen. Wir konzentrieren uns im Projekt vor allem auf unstrukturierte Daten, die in Inhalten mit natürlichsprachlichem Text wie z.B. Dokumenten vorkommen. Im Gegensatz zu strukturierten Daten, sagen wir z.B. Materialstämmen in einem ERP-System, lassen sich natürlichsprachliche Texte mit herkömmlichen Methoden nicht so einfach durchsuchen und auswerten. Hier kommt Deep Learning ins Spiel, z.B. Natural Language Processing (NLP), wo zurzeit eine intensive Forschung stattfindet. Mit den aktuellen Ergebnissen schaffen wir es, natürlichsprachliche Texte zu analysieren und z.B. die Suche, das Tagging und die Kategorisierung von Dokumenten zu verbessern.

Ein besonderer Schwerpunkt liegt dabei auf der Analyse semantischer Ähnlichkeiten zwischen Textpassagen in Geschäftsdokumenten. Dabei sollen unscharfe Ähnlichkeiten identifiziert werden, an denen bisherige rein schlagwortbasierte Suchmethoden scheitern. Ein konkretes Beispiel dafür, wo diese Ähnlichkeitssuche bereits erfolgreich eingesetzt wird, ist der Web-Suchmaschinen-Kontext. Bei DeepCA untersuchen wir, wie diese Technologien auch in Unternehmen zum Einsatz kommen können.

Content Analytics im Unternehmenskontext

Erfahren Sie in diesem Whitepaper, wie Unternehmen mit Content Analytics wertvolle Erkenntnisse aus unstrukturierten Informationen gewinnen können.

Jetzt lesen

Warum ist es für Unternehmen wichtig, dass sie Technologien wie Deep Learning und Content Analytics einsetzen können?

Krechel: In allen Bereichen eines jeden Unternehmens sammeln sich täglich Unmengen an Informationen aus verschiedenen Quellen an. Diese werden dann oft in unstrukturierter Form abgelegt und können nicht mehr zentral gefunden, geschweige denn ausgewertet und im Geschäftskontext genutzt werden. Das ist nicht nur ärgerlich, wenn Mitarbeiter*innen lange nach Informationen suchen und z.B. Kunden auf Antwort warten müssen. Es birgt auch Risiken, wenn die Informationen nicht auffindbar sind, denken Sie z.B. an Verträge. Und nicht zuletzt verschenken Unternehmen damit enormes Potenzial. Sie haben eine wertvolle Informationsbasis, die zum Großteil ungenutzt bleibt. Mit den von uns untersuchten Verfahren lassen sich diese Informationen im ECM-Kontext leichter erschließen und aktiv nutzen.

Können Sie an ein paar Beispielen aus dem Unternehmenskontext erklären, wie der Einsatz dieser Verfahren in der Praxis aussieht?

Krechel: Die Verfahren helfen in den verschiedensten Bereichen. Neben den klassischen Extraktionsszenarien, wie zum Beispiel dem Gewinnen von Metadaten aus unstrukturierten Informationen, ermöglicht die semantische Suche eine explorative Erschließung der eigenen Dokumentbestände. Insbesondere das Finden ähnlicher Dokumente zum aktuellen Geschäftsvorgang kann dadurch deutlich verbessert werden.

Die Suche in juristischen Dokumenten ist ein prominentes Beispiel. Häufig suchen Juristen in Gerichtsentscheidungen nach Argumenten, die eine bestimmte Rechtsposition stützen, und übertragen diese dann auf die aktuelle Situation. Suchmaschinen wie juris.de bieten dafür ein etabliertes Keyword Matching an. Danach muss der Jurist die Zieldokumente aber manuell weiter analysieren. Herauszufinden, ob eine Textpassage ein bestimmtes Argument unterstützt, hängt von Paraphrasierung, Satzbau etc. ab. Mit einer Ähnlichkeitssuche lassen sich solche Passagen ohne manuellen Aufwand finden. Wir haben dafür z.B. untersucht, wie die räumliche Nähe von bestimmten Worten für das Erkennen ähnlicher Dokumente genutzt werden kann. Konkret bezogen auf ein Unternehmen, kann man damit z.B. alle vorhandenen Verträge nach bestimmten Klauseln durchsuchen und veraltete und damit ungültige Klauseln in allen Verträgen finden.

Ein weiteres Beispiel findet sich bei der Wartung von Maschinen in der Industrie. Hier kann ein von uns entwickelter Informationsextraktionsdienst in technischen Servicetickets beschriebene Maschinenteile und deren Fehlersymptome erkennen. Das Ergebnis lässt sich dann mit verwandten Problemen und deren Lösungen durch technische Experten abgleichen, sodass wissensintensiver technischer Support schneller geleistet wird.

Wissen intelligent teilen mit Doxis

Sehen Sie im Video, wie Sie das Wissen in Ihrem Unternehmen mit Doxis intelligent managen, teilen und so die Zusammenarbeit verbessern sowie Ihre Time-to-Market verkürzen können.

Jetzt ansehen

Warum nutzen dann nicht schon viel mehr Unternehmen entsprechende Verfahren?

Krechel: Um KI im Unternehmen zu nutzen, müssen die KI-Modelle erst mit geeigneten Daten trainiert werden. Ein klassisches Beispiel, das die meisten damit verbinden, ist das Auslesen von Rechnungen. Mit jeder neuen Rechnung lernt das System hinzu, sodass die Qualität der Erkennung fortlaufend verbessert wird. Damit das gelingt, muss aber eine ausreichend große Menge Lerndaten verfügbar sein. Das ist bei Tausenden eingehenden Rechnungen meist nicht problematisch. Bei anderen Dokumentarten, die in geringerer Zahl vorliegen, reichen die Daten, die ein Unternehmen hat, aber oft nicht aus. Hier hat sich gezeigt, dass man in Few-Shot-Szenarien, also Fällen mit geringer Datenbasis, durchaus zu sehr guten Ergebnissen gelangen kann. Dabei lernen neuartige neuronale Modelle erst von konventionellen Suchmaschinen, z.B. die Rankingfunktion Okapi-BM25, die in Elasticsearch verwendet wird. Die erlernten Modelle können dann mit dem Feedback verfeinert werden, dass z.B. Mitarbeiter bei der Suche nach Informationen im Unternehmen geben. Unternehmen nutzen so die bereits vorhandene Intelligenz großer Suchmaschinen und passen sie dann an ihre Unternehmensanforderungen an. Das schafft ganz neue Möglichkeiten für den Einsatz von KI.

Sachbearbeiter*innen könnten dann z.B. einen Geschäftsvorgang über eine geringe Menge an Dokumenten definieren und sich ähnliche Vorgänge im ECM anzeigen lassen, aus denen sie z.B. Zuständigkeiten und Freigabestufen übernehmen. Das spart im Unternehmensalltag einiges an Zeit, die sonst für die Recherche und Organisation von Abläufen anfällt, und gibt zugleich auch mehr Sicherheit bei Entscheidungen.

Was begeistert Sie persönlich besonders an den Themen Deep Learning und Content Analytics?

Krechel: Die aktuellen Themen in der KI-Forschung sind an sich schon spannend, weil es hier noch viel zu erforschen gibt. Was mich bei unserem Projekt besonders motiviert, ist der Bezug zu konkreten Use Cases in Unternehmen. Damit werden die Forschungsergebnisse sozusagen lebendig. Sie bleiben nicht einfach in irgendeiner Schublade liegen, sondern kommen in der realen Welt zur Anwendung und bringen einen echten Nutzen. Damit motivieren wir auch unsere Studierenden. Sie bekommen Inhalte sehr praxisnah vermittelt und das weckt wiederum ihr Interesse, sich auch für komplexe Algorithmen zu begeistern, die in der Theorie erstmal recht trocken wirken.

Das heißt also, dass sowohl die Studierenden und die Hochschulen als auch die beteiligten Unternehmen von so einer Kooperation profitieren.

Krechel: Ganz genau. Im Rahmen der geförderten Projekte kommt es zu regelmäßigen Abstimmungstreffen mit Praxispartnern wie der SER Group. Ihr Feedback ist für die Forschung wichtig, um die Ergebnisse evaluieren zu können. Dabei sprechen nicht nur die Projektleiter mit den Unternehmen, sondern unsere Doktorand*innen sind selbst im engen Kontakt mit den Ansprechpartnern. Das ist für sie eine Chance, nach der Promotion in der Wirtschaft beruflich Fuß zu fassen. Aus Sicht von Unternehmen ist diese Kooperation wertvoll, weil sie ihr Produkt mit den aktuellen Forschungsergebnissen weiterentwickeln können und potenzielle Fachkräfte kennenlernen, die hochqualifiziert sind und ein tiefes Verständnis für die Produktentwicklung mitbringen. Mit der SER Group funktioniert die Zusammenarbeit seit vielen Jahren ganz ausgezeichnet. Wir planen bereits Nachfolgeanträge für das Projekt und wollen als Nächstes konkrete Use Cases für bestimmte Branchen angehen, z.B. Banken und Versicherungen. Ich bin gespannt, welche weiteren Früchte die Kooperation in Zukunft noch tragen wird!

Weitere Informationen erhalten Sie hier:

Prof. Dr. Dirk Krechel
Hochschule RheinMain
Fachbereich DCSM, Studiengang Medieninformatik
Haus D Unter den Eichen 5, 65195 Wiesbaden
dirk.krechel@hs-rm.de | deepca.cs.hs-rm.de

Jetzt zum Newsletter anmelden

Die neusten Digitalisierungstrends, Gesetze und Richtlinien sowie hilfreiche Tipps direkt in Ihrem Postfach.

Wie können wir helfen?

+49 (0) 228 90896-789
Bitte rechnen Sie 8 plus 2.

Ihre Nachricht hat uns erreicht!

Wir freuen uns über Ihr Interesse und melden uns in Kürze bei Ihnen.

Kontaktieren Sie uns