Przyspieszenie przekazywania dokumentacji cyfrowej do archiwum państwowego z wykorzystaniem sztucznej inteligencji

Studium przypadku

Rząd Wielkiej Brytanii musiał znaleźć skuteczny sposób na obsługę pierwszej partii dokumentów z początków ery cyfrowej. Miały one zostać umieszczone w Archiwum Państwowym w ramach obowiązującej zasady przechowywania dokumentacji o wartości historycznej przez 20 lat.

28 lipca 20228 minut
Przyspieszenie przekazywania dokumentacji cyfrowej do archiwum państwowego z wykorzystaniem sztucznej inteligencji
Projekt AI for Digital Selection ma na celu poznanie istniejących narzędzi sztucznej inteligencji (AI), które mogłyby zostać wykorzystane do przeprowadzenia oceny i sortowania dokumentów, e-maili, zbiorów danych i innych rodzajów informacji przechowywanych w całym kraju.
Archiwum Państwowe
Więcej szczegółów będzie dostępnych w raporcie przygotowywanym przez Archiwum Państwowe zatytułowanym: „Wykorzystanie sztucznej inteligencji do sortowania cyfrowych dokumentów w administracji rządowej: ocena rozwiązań rynkowych wykorzystujących uczenie maszynowe do selekcji dokumentów cyfrowych kwalifikujących się do trwałego przechowywania”.

Wyzwanie

Rząd Wielkiej Brytanii musiał znaleźć skuteczny sposób na obsługę pierwszej partii dokumentów z początków ery cyfrowej. Miały one zostać umieszczone w Archiwum Państwowym w ramach obowiązującej zasady przechowywania dokumentacji o wartości historycznej przez 20 lat.
Icon
Icon

Rozwiązanie

Firma Iron Mountain wykorzystała najnowsze osiągnięcia w dziedzinie sztucznej inteligencji (AI) i uczenia maszynowego (ML), aby „wytrenować” swój system do rozpoznawania dokumentów kwalifikujących się do trwałego przechowywania, wykrywania powtarzających się dokumentów do usunięcia, wyszukiwania dokumentów i dostarczania informacji o aktach.

 

Rezultat

Możliwości AI i ML pozwolą departamentom rządowym na bezpieczne przekazywanie dokumentacji znacznie szybciej i sprawniej niż w przypadku pracy nad tą samą ilością materiałów bez użycia tych narzędzi.

Wyzwanie dla rządu

Pierwsza partia brytyjskich dokumentów rządowych z początków ery cyfrowej zostanie wkrótce udostępniona publicznie w ramach „Zasady 20 lat”. Udane wykorzystanie możliwości AI i ML umożliwi departamentom rządowym bezpieczne przekazywanie dokumentów znacznie szybciej i sprawniej niż w przypadku pracy nad tą samą ilością materiałów bez tych narzędzi.
Ed IrvingBusiness Development Director, Central Government, Iron Mountain

Wszystkie departamenty rządowe Wielkiej Brytanii są odpowiedzialne za przegląd swoich akt. Dokumenty uznane za mające wartość historyczną muszą zostać przekazane do Archiwum Państwowego (The National Archives - TNA) po upływie 20 lat zgodnie z wymogami ustawy o dokumentach publicznych z 1958 r. (Public Records Act - PRA).

Kluczowym krokiem w tym procesie jest ocena stopnia wrażliwości informacji. Zapewnia ona, że przekazywane akta nie zawierają żadnych informacji, które mogłyby zaszkodzić innym osobom lub narazić rząd Wielkiej Brytanii na utratę reputacji.

Początek ery cyfrowej

Większość głównych departamentów rządowych Wielkiej Brytanii zaczęła przechodzić na pracę w formacie cyfrowym około 2004 r.; niektóre departamenty i agencje od zawsze funkcjonują wyłącznie w formie cyfrowej (choć nadal generują pewne ilości dokumentów papierowych). Oznacza to, że wiele materiałów podlegających ustawie PRA istnieje obecnie wyłącznie w formacie cyfrowym. Obejmują one szeroki zakres informacji, od ustrukturyzowanych zbiorów danych po e-maile, dokumenty tekstowe i arkusze kalkulacyjne.

Skala i różnorodność tych cyfrowych informacji oznacza, że identyfikacja i selekcja cennych dokumentów jest prawie niemożliwa przy zastosowaniu tradycyjnego podejścia opartego na „wyłącznie ludzkim wysiłku”. Departamenty rządowe zaczynają zastanawiać się nad trzema kluczowymi kwestiami:

  • Czy technologie sztucznej inteligencji (AI) lub uczenia maszynowego (ML) mogą przyspieszyć i uprościć proces klasyfikacji i przeglądu dokumentacji cyfrowej?
  • Jak skutecznie można dzięki tym technologiom podzielić dokumenty na bardzo ważne i te mniej istotne lub powtarzające się, które nie mają żadnej wartości?
  • Czy możliwe jest jednorazowe wprowadzenie wszystkiego do jednego systemu?

Dzięki wsparciu rządu, Archiwum Państwowe stworzyło projekt AI for Digital Selection. Projekt ma na celu poznanie istniejących narzędzi AI, które mogłyby zostać wykorzystane do przeprowadzenia oceny i sortowania „cyfrowej sterty” dokumentów, e-maili, zbiorów danych i innych rodzajów informacji przechowywanych przez rząd.

Wdrożenie AI w celu cyfrowego sortowania dokumentów

Om er echt zeker van te zijn dat de verwerkingstools de vereiste niveaus van nauwkeurigheid en controle konden bereiken, besloot The National Archives een pilot uit te voeren. Ze hadden ook een partner nodig met aantoonbare ervaring in het veilig en efficiënt aanpakken van grote, complexe projecten.
Ed IrvingBusiness Development Director, Central Government, Iron Mountain

Archiwum Państwowe (TNA) przeprowadziło przegląd dostępnych narzędzi, aby wybrać od trzech do pięciu z nich do dogłębnego przetestowania z wykorzystaniem zbioru dokumentacji własnej. Planem było sprawdzenie, jak narzędzia te radzą sobie z identyfikacją dokumentów, które powinny być wybrane do trwałego przechowywania i tych, które nie powinny być przechowywane. Ponadto TNA chciało pomóc departamentom rządowym w wykorzystaniu AI do sortowania dokumentów. Wiązało się to z określeniem, gdzie te techniki mogą być wykorzystane przy wyborze cyfrowych dokumentów do przeniesienia do Archiwum Państwowego.

Dobrze ugruntowane relacje 

Firma Iron Mountain ma już długą i dobrze ugruntowaną relację z Archiwum Państwowym, jak również z niektórymi największymi departamentami rządu brytyjskiego, od kilku lat wspierając przenoszenie dokumentacji papierowej na dużą skalę. Firma oferuje również usługi InSight™, które obejmują inteligentne przetwarzanie dokumentów łączące analitykę treści, zarządzanie danymi i wiedzę z zakresu zarządzania informacjami firmy Iron Mountain z możliwościami uczenia maszynowego (ML) i sztucznej inteligencji (AI).

Firma Iron Mountain została wybrana do udziału w projekcie AI for Digital Selection, którego celem jest zrozumienie skuteczności AI w procesie cyfrowego sortowania dokumentów.

Obsługa wielu formatów plików 

Narzędzia firmy Iron Mountain są w stanie obsługiwać szeroki wybór formatów plików, to było istotne, ponieważ w teście sprawdzającym trzeba było przetworzyć ponad 100 różnych typów plików, w tym pliki audio, wideo i dokumenty tekstowe. Niektóre z najbardziej niejasnych formatów zostały wyłączone z testów, jednak rzeczywista liczba plików, które nie zostały objęte testem była niewielka – mniej niż 10%. Pliki uwzględnione w teście zostały następnie załadowane do platformy do zarządzania treścią firmy Iron Mountain w celu analizy.

Na czym polegało to rozwiązanie?

Ustalenie tego, co należy przenieść 

W ramach projektu, Archiwum Państwowe dostarczyło firmie Iron Mountain oznakowane i nieznakowane zestawy danych w celu zademonstrowania możliwości AI na platformie InSight™ w zakresie identyfikacji dokumentów istotnych dla wybranych kryteriów.

Usunięcie danych wrażliwych 

Nawet w przypadku dokumentów, które są udostępniane publicznie, musi istnieć etap, na którym można usunąć informacje wrażliwe. W świecie opartym na papierze usuwanie informacji jest procesem fizycznym, który odbywa się w ramach przeglądu prowadzonego przez człowieka – dokumenty są oznaczane lub edytowane ręcznie. Narzędzia cyfrowej technologii kryminalistycznej przyjmują inne podejście – zaciemniają słowa lub zdania, w stosownych przypadkach szyfrując treść.

Kroki do sukcesu 

W ramach testów firma Iron Mountain najpierw załadowała 17 000 dokumentów testowych do chmury Google. Dokumenty zostały przetworzone przy użyciu technologii optycznego rozpoznawania znaków (OCR), aby umożliwić ich przeszukiwanie. Platforma inteligentnego przetwarzania dokumentów InSight™ sklasyfikowała je w 20 wstępnie zdefiniowanych kategoriach przy użyciu przetwarzania języka naturalnego (NLP), procesu komputerowego, który może rozszyfrować treść dokumentu i niuanse wynikające z kontekstu używanego języka. Umożliwiło to platformie dokładne wydobycie informacji zawartych w plikach i zbudowanie skojarzeń w całym zbiorze, aby zapewnić możliwość efektywnego wyszukiwania.

Potencjał platformy InSight™ w zakresie uczenia maszynowego umożliwił zespołowi projektowemu szkolenie modułu w procesie iteracyjnym w trakcie trwania projektu. Ostatecznie narzędzie osiągnęło wynik F1 powyżej 85%. Uzyskano również następujące rezultaty:

  • Identyfikacja podwójnych dokumentów do usunięcia 
  • Identyfikacja dokumentów kwalifikujących się do trwałego przechowywania 
  • Wyodrębnienie nazw podmiotów, w tym organizacji i osób 
  • Analiza plików, w tym podsumowanie zawartości, podsumowanie wieku itp.
  • Average Precision and Recall scores

Potwierdzona skuteczność 

Platforma InSight™ zapewniła wymagany poziom funkcjonalności, klasyfikacji dokumentów i wykrywania duplikatów. Firma Iron Mountain ma przyjemność wspierać Archiwum Państwowe w realizacji tego programu o znaczeniu krajowym. Rozwiązanie może być teraz stosowane w całym sektorze w celu przyspieszenia procesu przekazywania dokumentów ze wszystkich departamentów rządowych za pośrednictwem prostych ścieżek zamówień ramowych.