So sichern Labore den Datenschatz von morgen
Ein Expertenbeitrag von Carl-Helmut Coulon, Head of Future Manufacturing Concepts bei INVITE und Mitglied der Arbeitsgruppe Technologische Wegbereiter und Data Science der Plattform Lernende Systeme

Historische Versuchsdaten in Laboren bergen einen wertvollen Schatz: Mit modernen Data-Science-Methoden können Fragen beantwortet werden, bei denen weder die Frage noch die Methode zum Zeitpunkt des Laborversuchs bekannt war. Dies schien in der Vergangenheit unmöglich. Generative KI ist die Lösung – vorausgesetzt, Unternehmen schaffen die notwendigen Strukturen.
Chemische und pharmazeutische Labore beantworten üblicherweise Fragen, die von außen gestellt werden: Die Produktion oder Entwicklung fragt etwa, ob die Qualität eines Produktes der Spezifikation entspricht. Bei Verunreinigungen lautet die Frage: Was ist da drin? Für neue Produkte wird wiederum geklärt, welche Messmethode geeignet ist, um deren Qualität zuverlässig zu überprüfen. Gemeinsam ist diesen Aufgaben, dass es bisher vor allem darum ging, die Antwort auf eine spezifische Frage zu ermitteln, zu dokumentieren und zurückzumelden.
Seitdem IT-Systeme zur Dokumentation in Laboren eingesetzt werden, bestand der „Traum“, die entstehenden Labordaten für weiterführende Auswertungen nutzen zu können. Denn die Leistungsfähigkeit von Prozessoren, Speichermedien und auch Analysemethoden ist in den letzten Jahren immer weiter gestiegen. In einer solchen traumhaften Datenwelt könnte man jederzeit nach „allem“ fragen: Wann muss ein Gerät gewartet werden? Woran liegt es, dass unterschiedliche Labore teilweise abweichende Ergebnisse liefern? Hat jemand bereits eine ähnliche Analysemethode benutzt, und wie effektiv war sie? Gab es eine vergleichbare Fragestellung, und wie wurde diese gelöst? Es wird schnell klar, dass der Wert einer solchen umfassenden Datenwelt enorm wäre, insbesondere wenn es gelänge, die Daten vieler Labore zu kombinieren und nutzbar zu machen. Doch genau darin lag bislang eine große Hürde. Vor der Verfügbarkeit generativer KI gab es zwei wesentliche Ansätze, um diese Vision zu realisieren. Beide waren jedoch mit erheblichen Einschränkungen verbunden.
Das einheitliche Datenmodell
Dieser Ansatz sieht vor, ein universelles Datenmodell zu entwickeln, dass alle relevanten Informationen abbildet. Solche Modelle dürfen nach Beginn des Sammelns von Daten jedoch nicht mehr verändert werden, da eine nachträgliche Anpassung immense Herausforderungen mit sich bringt. In der Praxis zeigt sich, dass solche Datenmodell schon am Tag des Go-Live veraltet sind und nur in sehr statischen Welten einen Wert schaffen.
Manuelle Datenaufbereitung durch Spezialisten
Der zweite Ansatz besteht darin, dass für jede neue Frage ein Team von Spezialisten die notwendigen Daten sammelt, von Fehlern und Lücken bereinigt und analysiert. Der Aufwand ist dabei immens und liegt im Schnitt bis zu 80 Prozent in der Datenaufbereitung. Hinzu kommt, dass für jede neue Fragestellung der Aufwand erneut entsteht. Diese begrenzten Möglichkeiten haben eine flexible und umfassende Datennutzung in Laboren bisher erschwert. Doch die Einführung generativer KI hat das Potential der Datennutzung aus diesen Experimenten disruptiv verändert. So wie es generativer KI möglich ist, aus unterschiedlich strukturierten Daten im Internet zu lernen, kann sie auch in Laboren Daten aus verschiedenartigen Quellen in ein auf die Fragestellung bezogenes Format überführen. Dabei vereinheitlicht sie beispielsweise Maßeinheiten, füllt Datenlücken durch gelernte Schätzungen und passt sich flexibel an neue Anforderungen an.
Diese begrenzten Möglichkeiten haben eine flexible und umfassende Datennutzung in Laboren bisher erschwert. Doch die Einführung generativer KI hat das Potential der Datennutzung aus diesen Experimenten disruptiv verändert. So wie es generativer KI möglich ist, aus unterschiedlich strukturierten Daten im Internet zu lernen, kann sie auch in Laboren Daten aus verschiedenartigen Quellen in ein auf die Fragestellung bezogenes Format überführen. Dabei vereinheitlicht sie beispielsweise Maßeinheiten, füllt Datenlücken durch gelernte Schätzungen und passt sich flexibel an neue Anforderungen an.
Dies bedeutet: Dank generativer KI wird kein laborübergreifendes Datenmodell im Detail mehr benötigt, dass von vornherein sämtliche Eventualitäten berücksichtigt. Es muss jedoch ein übergreifendes Konzept vorhanden sein, welches folgende Aspekte sicherstellt:
- Technische Infrastruktur und Datenverfügbarkeit: Die Daten müssen gesammelt, zentral verfügbar gehalten und nachhaltig gespeichert werden.
- Datenqualität: Die Qualität der Daten muss so hoch wie möglich sein. Gerade in Laboren werden Datensätze häufig per Copy&Paste übertragen, schlimmstenfalls abgetippt, was Fehler begünstigt. Generative KI kann hier unterstützen, indem sie solche Fehlerquellen minimiert und Daten aus verschiedenen Geräten und Systemen effizient integriert.
Erheblich höheres Qualitätsniveau
Der Wert, quasi beliebige Fragen zu früheren Experimenten datengetrieben beantworten zu können, ist enorm. Doch die Möglichkeiten Generativer KI reichen weit darüber hinaus. Zum einen bringt die Vermeidung manueller Datenübertragung durch Integration der Geräte und Schnittstellen zur laborübergreifenden nahtlosen Zusammenarbeit die Effizienz und Qualität der Prozesse auf ein deutlich höheres Niveau. Zum anderen sichert die Möglichkeit der Analyse der Vorgehensweisen in der Laborarbeit das Know-How der Beschäftigten. Entsprechende Auswertungsfunktionen können neuen Experten die Arbeitserfahrung ihrer Vorgänger zur Verfügung stellen, in dem sie ermitteln, wie ähnliche Fragestellungen in der Vergangenheit bearbeitet wurden.
Darüber hinaus verbessert die Fähigkeit der Generativen KI, Daten automatisch zu bereinigen und zu standardisieren, die Qualität und Konsistenz der Ergebnisse erheblich. Dies gilt sowohl innerhalb eines Labors als auch übergreifend in der Zusammenarbeit verschiedener Standorte. Die Standardisierung sorgt für mehr Verlässlichkeit und fördert eine einheitliche Basis für die weitere Nutzung der Daten. So eingesetzt ermöglicht Generative KI den „Schatz“ zukünftig nutzbarer Daten für die Zukunft des Unternehmens zu bewahren. Sie löst viele der Einschränkungen traditioneller Ansätze und ermöglicht eine dynamische, zukunftsorientierte Nutzung von Daten.
Entscheidend sind Vollständigkeit und Verfügbarkeit der Daten
Um dieses Potenzial jedoch voll auszuschöpfen, ist es entscheidend, dass Unternehmen die notwendigen organisatorischen und technischen Rahmenbedingungen schaffen. Entscheidend sind hier die Vollständigkeit und Verfügbarkeit der Daten, und gerade dies gestaltet sich häufig schwierig in der Umsetzung: Häufig fehlen nicht nur die technischen Schnittstellen, sondern die Daten liegen oftmals auch in schwer nutzbaren Datenformaten vor, wie z.B. Spektren in HPLC-Messgeräten. Zum anderen überschreiten die Datenmengen und Datentransferraten schnell die Möglichkeiten von Laien, so dass IT-Fachabteilungen oder IT-Dienstleister intensiv eingebunden werden müssen. Als drittes kommt hinzu, dass die Ziele der Datennutzung und damit der Mehrwert für die eigene Organisation, erkannt und durch die Organisation verantwortlich gestaltet werden muss. Konkret bedeutet dies: Es muss geregelt werden, wer welche Fragen mittels der Daten bearbeiten darf und wie das kontrolliert wird, Die Einführung generativer KI ist kein Selbstläufer – aber mit der richtigen Strategie wird sie zu einem entscheidenden Wettbewerbsvorteil in der digitalen Transformation der Laborwelt.
Beitrag erschienen in:
Magazin Digital Business Cloud
Februar 2025