Digitale Akten dank KI schneller in das Nationalarchiv überführen

Kundenprojekte

Mit KI / maschinellem Lernen wurden Systeme so trainiert, dass historisch wertvolle Akten identifiziert und überführt werden können.

18. Februar 20228 Min.
The nationa archives case study a woman looking at documents

Herausforderung

Großbritannien suchte nach einer effizienten Methode für den Umgang mit den ersten digitalen Dokumenten, die nach der 20-Jahre-Regel zur Bewahrung historisch wertvoller Akten in das Nationalarchiv überführt werden mussten.

Lösung

Mit den neuesten Entwicklungen im Bereich der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML) trainierte Iron Mountain seine Systeme so, dass potenziell historisch wertvolle Akten identifiziert, zu entsorgende Duplikate erkannt, Entitäten extrahiert und Dateien analysiert werden können.

Ergebnisse

Mit KI und ML können die Ministerien ihre Unmengen an Akten viel schneller und effizienter aussortieren und überführen, als dies mit manuellen Prozessen der Fall wäre.

Eine Herausforderung für die Regierung

Alle britischen Ministerien sind dafür verantwortlich, regelmäßig ihre Akten zu prüfen. Diejenigen, bei denen ein historischer Wert festgestellt wird, müssen nach dem Public Records Act von 1958 (PRA) in das Nationalarchiv (The National Archives) überführt werden, wenn sie ein Alter von 20 Jahren erreichen.

Ein wichtiger Schritt in diesem Prozess ist die Sensibilitätsprüfung. Dabei wird sichergestellt, dass die überführten Akten keine Informationen enthalten, die anderen Schaden zufügen oder den Ruf der britischen Regierung beschädigen könnten.

Der Anbruch des digitalen Zeitalters

Um 2004 fingen die britischen Ministerien an, auf digitales Arbeiten umzustellen, und manche Ministerien und Behörden sind so jung, dass sie von Anfang an größtenteils digital waren. Das bedeutet: Viele der jetzt dem PRA unterliegenden Akten existieren nur in digitaler Form. Dazu gehören ganz unterschiedliche Informationen, von strukturierten Datenbeständen über E-Mails bis hin zu Word-Dokumenten und Excel-Tabellen.

Aufgrund der Menge und Vielfältigkeit dieser digitalen Informationen ist es fast unmöglich, allein mit den bisherigen manuellen Methoden herauszufinden, welche Akten wertvoll sind. Deshalb stellen sich nun drei zentrale Fragen:

  • Können künstliche Intelligenz (KI) bzw. maschinelles Lernen (ML) die Klassifizierung und Prüfung digitaler Akten beschleunigen und vereinfachen?
  • Wie gut kann diese Technologie zwischen wertvollen Akten und wertlosen kurzlebigen Daten oder Duplikaten unterscheiden?
  • Ist es möglich, die gesamte Auswahl in ein zentrales System einzuspeisen?

Um diese Herausforderung zu meistern, rief das Nationalarchiv das Projekt AI for Digital Selection ins Leben. Damit sollte ermittelt werden, welche bereits vorhandenen KI-Tools verwendet werden könnten, um das „digitale Chaos“ aus Dokumenten, E-Mails, Datensätzen und anderen Informationstypen in den verschiedenen Ministerien zu prüfen und eine Auswahl zu treffen. 

Jahrelange Geschäftsbeziehung

Iron Mountain hatte schon seit mehreren Jahren für das Nationalarchiv sowie einige Ministerien im großen Maßstab Papierakten ausgelagert. Außerdem bietet das Unternehmen für die intelligente Dokumentenverarbeitung die Lösung InSightTM an, eine Content Services Platform.

Iron Mountain wurde für die Teilnahme am Projekt "AI for Digital Selection" ausgewählt, um die Effizienz von KI im Auswahlprozess zu untersuchen.

Umgang mit mehreren Dateiformaten

Die Tools von Iron Mountain unterstützen verschiedenste Medienformate, was bei diesem Proof of Concept äußerst wichtig war: Mehr als 100 verschiedene Dateitypen mussten verarbeitet werden, darunter Audio- und Videodateien sowie Textdokumente. Einige besonders exotische Formate wurden in dieser Phase noch nicht berücksichtigt, doch diese machten nur 10 % der Dateien aus. Die in die Studie einbezogenen Dateien wurden anschließend zur Analyse in die Content Services Platform von Iron Mountain geladen

Welche Leistungen umfasst die Lösung?

Zu überführende Akten identifizieren

Für das Projekt stellte das Nationalarchiv Iron Mountain Datenbestände mit und ohne Labeling bereit. Anhand dieser Daten wurde nachgewiesen, dass die KI-Funktionalitäten von InSightTM in der Lage sind, Akten nach bestimmten Auswahlkriterien zu identifizieren.

Sensible Daten entfernen

Auch bei Dateien, die für die Öffentlichkeit freigegeben werden, muss es einen Schritt zum Entfernen sensibler, vertraulicher Informationen geben. Auf Papier ist das Zensieren ein physischer Prozess, bei dem man Informationen im Rahmen einer Prüfung manuell schwärzt. IT-Forensiktools gehen anders vor – Wörter oder Sätze werden verschleiert, bei Bedarf wird mit Scrambling gearbeitet.

Schritte zum Erfolg

Für das Pilotprojekt lud Iron Mountain zuerst die 17.000 Testdokumente in einen Storage-Bucket in der Google Cloud. Die Dokumente wurden mit optischer Texterkennung (OCR) bearbeitet, damit sie vollständig durchsuchbar sind. Die InSightTM Plattform für intelligente Dokumentenverarbeitung klassifizierte sie anschließend in 20 vordefinierte Kategorien. Dafür wurde NLP (Natural Language Processing) eingesetzt, ein Softwareprozess, der den Inhalt eines Dokuments und die Textzusammenhänge erfasst. Dadurch konnte die Plattform die in den Dateien enthaltenen Informationen exakt extrahieren und zwischen den Dateien in der Stichprobe Verknüpfungen herstellen, um eine aussagekräftige Suche zu ermöglichen.

Mit den Machine-Learning-Funktionalitäten von InSightTM konnte das Projektteam in einem iterativen Prozess nach und nach das Modell trainieren. Am Ende erreichte das Tool einen F1-Score von über 85 %. Weitere Ergebnisse:

  • Zu entsorgende Duplikate wurden erkannt.
  • Für die dauerhafte Aufbewahrung infrage kommende Akten wurden ermittelt.
  • Entitäten, wie Namen von Organisationen und Menschen, wurden extrahiert.
  • Dateien wurden analysiert: Inhaltszusammenfassung, Alter usw.
  • Die durchschnittliche Genauigkeit und Trefferquote wurden ermittelt.

Erfolgreicher Proof of Concept

InSightTM konnte alles liefern, was in Bezug auf Funktionalität, Dokumentenklassifikation und Duplikatserkennung erforderlich war. Iron Mountain freut sich, The National Archives bei diesem Programm von nationalem Interesse unterstützen zu dürfen. Es wurde ein Rahmenvertrag abgeschlossen, über den nun ganz unkompliziert alle Ministerien die Lösung nutzen können, um Dokumente zügig zu überführen.

Zum Download der Case Study als PDF klicken Sie bitte auf den Download Button: