SEMANTISCHE SUCHE IM PHARMA-UMFELD : VERKNÜPFUNG VON REGULATORISCHEN INFORMATION MIT INTERNEN F&E DATEN ÜBER EINEN WISSENSGRAPHEN
Zusammenfassung
Pharmazeutische Unternehmen müssen bei der Einreichung von Zulassungsanträgen für neue Produkte einen Zulassungsprozess durchlaufen. Aus interner Sicht werden die F&E-Daten in der Regel getrennt von den Daten verwaltet, die für den Einreichungsprozess verwendet werden. Die Integration der Informationen aus Zulassungsdokumenten und F&E-Datenbanken erfordert oft eine manuelle Suche in Dokumenten und Datenbanken, was einen erheblichen Aufwand bedeutet. Dieser Aufwand ergibt sich aus dem Mangel an konsolidierten Daten nach internen und externen Standards. Das daraus resultierende mangelnde Vertrauen in die Daten führt zu langwierigen Überprüfungsschleifen und der manuellen Eingabe von Daten auf der Grundlage lokaler Informationen.
brox IT Solutions hat für ein großes deutsches Pharmaunternehmen eine Lösung entwickelt, die Daten aus dem Zulassungsprozess und F&E-Datenbanken integriert, um diese Herausforderungen zu meistern. Die Lösung wurde auf einem Wissensgraphen aufgebaut, der eine unkomplizierte Erweiterung der Daten ermöglicht und ein entsprechendes Such-Frontend enthält, um auch nicht-technischen Anwendern einen mühelosen Zugriff auf die Daten zu ermöglichen. Der verringerte Aufwand für die manuelle Suche in Datenbanken und Dokumenten kann zu einer erheblichen Kostenreduzierung führen.
Zielsetzung
Ein Pharmaunternehmen musste die in den Zulassungsunterlagen enthaltenen Daten mit Daten aus internen Datenbanken, wie z. B. Substanzen und Molekülen, sowie mit organisatorischen Stammdaten integrieren. Das Unternehmen wollte die Daten integrieren, um:
- Die Datenqualität der Einreichungsdokumente zu gewährleisten,
- Informationen darüber zu erhalten, welche Substanzen in welchen Ländern registriert sind und
- den Forschungsaufwand auf Bereiche zu lenken, die zu Produkten führen.
Das Frontend zur Exploration der Daten musste die Suche nach relevanten und gefilterten Informationen ermöglichen und gleichzeitig Nutzern ohne data science oder analytischen Hintergrund die Interaktion mit den Informationen erlauben.
Herausforderungen
Eine der größten Herausforderungen bei diesem Projekt war die Verknüpfung von Daten aus den Bereichen Forschung und Entwicklung sowie aus dem Bereich der regulatorischen Daten. Zu den Daten aus dem Bereich der regulatorischen Daten gehörten auch Dokumente, die durch Text-Mining vorverarbeitet wurden. Darüber hinaus wurden die Daten aus gering strukturierten Quellen extrahiert, um den künftigen IDMP-Anforderungen der Gesundheitsbehörden zu entsprechen. Daher stimmten die extrahierten Informationen, Bezeichner und Namen nicht immer mit den Legacy-Systems überein. Nach der Datenbereinigung mussten die Daten mit den internen Stammdaten zu Substanzen und Rechtspersonen abgeglichen werden, die bereits in einem Wissensgraphen gepflegt wurden. Die Ergebnisse des Abgleichs mussten in einem Wissensgraphen gespeichert werden, um die Integration mit anderen Quellen zu ermöglichen. Eine weitere Herausforderung bestand darin, den Wissensarbeitern die Daten über ein benutzerfreundliches, intuitives Front-End zur Verfügung zu stellen. Um ein Interaktionsmuster zu verwenden, das diesen Benutzern bekannt war, wurde dieses Frontend auf der Grundlage einer Suchmaschine aufgebaut . Diese Suchmaschine musste in den Wissensgraphen integriert werden und somit eine facettierte Suche über die im Graphen dargestellten Daten ermöglichen. Der Wissensgraph war nun leicht auf andere Personas erweiterbar, z. B. auf Produktverantwortliche in anderen Abteilungen, die ursprünglich nicht in den Anwendungsbereich fielen.
Lösung
Die Lösung, die für diese Herausforderungen entwickelt wurde, bestand hauptsächlich aus zwei Aspekten: der Datenintegration und der Frontend-Implementierung.
Die Datenintegration wurde unter Verwendung der folgenden Komponenten durchgeführt:
- Eine ETL-Software wurde verwendet, um Daten aus Textmining-Ergebnissen zu extrahieren und einen Graphen zu erstellen.
- Der Abgleich der Textmining-Ergebnisse erfolgte über Abgleichmuster, die mit SPARQL-Abfragen erstellt wurden.
- Diese Daten wurden dann in einer RDF-Datenbank eingefügt.
Für die Frontend-Implementierung waren die folgenden Komponenten Teil der Lösung:
- Die Suchmaschine wurde mit elasticsearch erstellt
- Einspeisung in elasticsearch erfolgte mit rdflib für die Extraktion der Daten aus dem Graph Store und der elastic library for python für die Indizierung der Daten.
- Das Frontend für die Suche wurde mit searchkit implementiert, was eine schnelle Implementierung dank einfacher und zugänglicher Templates ermöglichte.
Geschäftsvorteile
Die Implementierung der Lösung verschaffte dem Pharmaunternehmen Zugang zu mehreren Vorteilen, die ohne die Lösung nicht möglich gewesen wären:
- Unstimmigkeiten zwischen regulatorischen und F&E-Daten können nun aufgedeckt werden. Das Auffinden dieser Inkonsistenzen kann das regulatorische Risiko verringern.
- Zusammenhänge zwischen Produkten, Substanzen und den entsprechenden juristischen Personen, die sie vertreiben dürfen, können nun in der Grafik gefunden werden. Das Auffinden dieser Informationen erfordert normalerweise stunden-oder sogar tagelange manuelle Arbeit beim Durchsuchen von Dokumenten. Dies ist also ein Potenzial zur Kostensenkung.
- Auf regulatorische Daten kann leicht zugegriffen werden, und sie können nach Land, internen Substanzidentifikatoren, verbundenen Unternehmen und anderen Aspekten gefiltert werden. Diese können dabei helfen, einen Überblick über den aktuellen Marktzugang des Unternehmens zu erhalten und somit die Suche nach neuen Einnahmequellen zu erleichtern.
- Die Lösung ist sehr erweiterbar: Da die regulatorischen Daten nun im Graphen enthalten sind, können zusätzliche Anwendungsfälle auf diesen Daten aufgebaut werden, indem der Graph erweitert und ein neues Frontend darauf aufgebaut wird.
- Die Implementierung einer Lösung konnte innerhalb weniger Wochen erfolgen, da bereits ein Graph für die internen F&E-Daten vorhanden war und Tools wie Pentaho, Graphdatenbankenund Searchkitein schnelles Prototypingermöglichten. So können die Kosten für neue Anwendungen, die mit einem ähnlichen Ansatz erstellt werden, gesenkt werden.
Dr. Matthias Jurisch
Autor
Manager Information Management Unit