Kansallisten arkistojen tapaustutkimus: digitaalisten tietueiden siirtymän nopeuttaminen tekoälyn avulla

Asiakastapauksia

InSight™-ratkaisu tarjosi Ison-Britannian hallitukselle tärkeät vaaditun tason toimivuuden, asiakirjojen luokittelun ja kaksoiskappaleiden havaitsemisen.

15. heinäkuuta 20228 minuuttia
A woman is looking at the computer
Haaste

Ison-Britannian hallituksen oli löydettävä tehokas tapa käsitellä ensimmäistä erää digitaaliajan alun asiakirjoista. Nämä oli tarkoitus sijoittaa paikalliseen kansallisarkistoon 20 vuoden ajaksi historiallisten tietojen säilytyssäännön mukaisesti.

Ratkaisu

Iron Mountain hyödynsi uusinta kehitystä tekoälyn (AI) ja koneoppimisen (ML) osalta opettaakseen järjestelmänsä tunnistamaan ehdolla olleet tietueet pysyvää säilytystä varten, havaitsemaan kaksoiskappaleet niiden hävittämistä varten, poimimaan kokonaisuuksia sekä tarjoamaan tiedostoanalyyseja.

Tulokset

AI- ja ML-ominaisuudet antavat ministeriöille mahdollisuuden siirtää tietueita luotettavasti huomattavasti nopeammin ja tehokkaammin kuin käsittelemällä saman materiaalimäärän ilman näitä työkaluja.

Hallituksen haaste

Kaikki Ison-Britannian ministeriöt ovat vastuussa tietueidensa tarkistamisesta. Vuoden 1958 Public Records Actin (PRA) vaatimusten mukaisesti historiallista arvoa omaavat tietueet on siirrettävä paikalliseen kansallisarkistoon (TNA), kun ne ovat 20 vuotta vanhoja.

Keskeinen vaihe tässä prosessissa on herkkyyden arviointi. Tämä varmistaa, että siirretyt tietueet eivät sisällä mitään sellaisia tietoja, jotka voivat aiheuttaa haittaa muille tai mainetta uhkaavan riskin Ison-Britannian hallitukselle.

Digitaaliajan alku

Suurin osa Ison-Britannian tärkeimmistä ministeriöistä aloitti digitaaliseen työskentelyyn siirtymisen vuoden 2004 tienoilla; jotkut ministeriöt ja virastot taas ovat olleet olemassa ainoastaan digitaalisella aikakaudella (mistä huolimatta ne silti laativat papereita). Tämä tarkoittaa, että monet PRA:n alaiset tietueet ovat nykyisin olemassa ainoastaan digitaalisessa muodossa. Niihin kuuluu laaja tietojoukko jäsennellystä datasta aina sähköpostiviesteihin, Word-asiakirjoihin ja laskentataulukoihin.

Tämän digitaalisen tiedon laajuus ja monimuotoisuus tarkoittaa, että arvokkaiden tietueiden tunnistaminen ja valitseminen on lähes mahdotonta perinteistä, yksistään inhimillistä työtä käsittävää menettelyä käyttämällä. Ministeriöt ovatkin alkaneet tarkastella kolmea keskeistä kysymystä:

  • Voivatko tekoälyn (AI) tai koneoppimisen (ML) teknologiat nopeuttaa ja yksinkertaistaa digitaalisten tietueiden luokitus- ja tarkasteluprosessia?
  • Kuinka tehokkaasti tämä teknologia voi lajitella arvokkaita tietueita ja lyhytaikaista dataa tai kopioida arvottomia tiedostoja?
  • Onko mahdollista yhdistää kaikki valittu yhdeksi järjestelmäksi?

Tukeakseen hallituksen haastetta TNA kokosi AI for Digital Selection -projektin. Hankkeen tavoitteena on oppia lisää olemassa olevista tekoälytyökaluista, joita voitaisiin käyttää arvioimaan ja valitsemaan "digitaalista kasaa" asiakirjoja, sähköpostiviestejä, dataa ja muun tyyppisiä tietoja, joita hallituksella on hallussaan.

Tekoälyn kehittäminen digitaaliseen valikointiin

“Haasteen tärkeyden ja monimutkaisuuden vuoksi paikallinen kansallisarkisto päätti suorittaa pilottiohjelman varmistaakseen, että jokainen työstämiseen käytettävä työkalu pystyy saavuttamaan vaaditut tarkkuuden ja hallinnan tasot. Se tarvitsi myös yhteistyökumppanin, jolla on todistetusti kokemusta suurten ja monimutkaisten projektien turvallisesta ja tehokkaasta käsittelystä.”

 

TNA teki katsauksen käytettävissä olevista työkaluista tunnistaakseen kolmesta viiteen työkalua perusteellista testausta varten omien yritystietueidensa avulla. Tarkoituksena oli selvittää, miten työkalut onnistuvat tunnistamaan tietueita, jotka tulisi valita pysyvään säilytykseen, ja mitä puolestaan ei tulisi valita. Lisäksi TNA halusi auttaa ministeriöitä käyttämään tekoälyä valikoinnissa. Tämä sisälsi tunnistamisen siitä, miten nämä tekniikat voitaisiin sisällyttää kansallisarkistoon siirrettävien digitaalisten asiakirjojen valintaprosessiin tai työnkulun automaatioon.

Vakiintunut suhde

Iron Mountainilla on jo pitkä ja vakiintunut suhde TNA:han sekä joihinkin Ison-Britannian hallituksen suurimpiin ministeriöihin laajamittaisen paperitietueiden siirron tukemisessa jo useiden vuosien ajan. Yritys tarjoaa myös InSight™-palveluja, jotka sisältävät älykkään asiakirjakäsittelyn yhdistäen Iron Mountainin sisältöanalytiikan, tiedonhallinnan sekä tiedonjohtamisen asiantuntemuksen koneoppimisen (ML) ja tekoälyn (AI) sisältämään potentiaaliin.

Iron Mountain valittiin osallistumaan AI for Digital Selection -projektiin tekoälyn tehokkuuden ymmärtämiseksi digitaalisen valikoinnin prosessissa.

Useiden tiedostomuotojen hallinta

Iron Mountain -työkalut pystyvät käsittelemään laajaa valikoimaa mediamuotoja, mikä oli välttämätöntä, koska konseptitodistusta koskevassa tutkimuksessa oli käsiteltävänä yli 100 erilaista tiedostotyyppiä, mukaan lukien ääni-, video- ja tekstipohjaiset asiakirjat. Jotkut epäselvimmistä tiedostomuodoista jätettiin sivuun kokeilutarkoituksessa, mutta tutkimuksen ulkopuolelle jääneiden tiedostojen todellinen määrä oli pieni – alle 10 %. Sen jälkeen konseptitodistukseen sisältyneet tiedostot ladattiin Iron Mountainin sisältöpalvelualustalle tiedon analysointia varten.

Mitä ratkaisu sisälsi?

Siirtoa vaativien tietueiden selvittäminen

Osana projektia TNA toimitti Iron Mountainille merkittyjä ja merkitsemättömiä tietojoukkoja havainnollistaakseen InSightTM:lle ominaisia tekoälyominaisuuksia valintakriteereihin liittyvien tietueiden tunnistamisessa.

Arkaluonteisten tietojen poistaminen

Jopa yleisön saataville tuotavissa tiedostoissa on oltava vaihe, jossa arkaluonteiset, julkaisukiellon omaavat tiedot voidaan poistaa. Paperiin turvautuvassa maailmassa tiedon poistaminen on fyysinen dokumentinhallintaprosessi, jossa ihminen on vastuussa tiedon tarkastusta – asiakirjoja merkitään tai muokataan käsin. Digitaalisten rikostekniikka työkalujen menettelytapa on erilainen – ne peittävät sanoja tai lauseita ja salaavat sisältöä tarkoituksenmukaisesti.

Menestykseen johtaneet vaiheet

Kokeilua varten Iron Mountain latasi aluksi 17 000 testiasiakirjaa Googlen pilvitallennustilaan. Asiakirjat käsiteltiin käyttämällä optista merkintunnistusteknologiaa, jotta ne olisivat täysin haettavissa. InSight™ Intelligent Document Processing -alusta luokitteli ne seuraavaksi 20 ennalta määritettyyn kategoriaan käyttämällä luonnollista kielenkäsittelyä (NLP), ohjelmistoprosessia, joka voi ratkaista asiakirjan sisällön sekä käytetyn kielen lauseyhteydelliset vivahteet. Tämä antoi alustalle mahdollisuuden poimia tarkasti tiedostojen sisältämät tiedot ja muodostaa mielleyhtymiä näytejoukon välillä varmistaakseen merkityksekkään haun onnistumisen.

InSight™:n koneoppimisominaisuudet antoivat projektitiimille mahdollisuuden opettaa mallia toistuvassa prosessissa projektin kulun aikana. Lopulta työkalu saavutti yli 85 %:n F1-pisteet. Myös seuraavat tulokset pystyttiin toimittamaan:

  • Hävitettävät kaksoiskappaleet tunnistettiin
  • Ehdolla olleet tietueet pysyvää säilytystä varten tunnistettiin
  • Organisaatiot ja ihmiset käsittävät kokonaisuudet poimittiin
  • Tiedostoanalyysit, mukaan lukien sisällön yhteenveto, ikäyhteenveto jne.
  • Keskimääräiset tarkkuus- ja palautuspisteet

Todiste onnistuneesta konseptista

InSight™ tarjosi vaaditun tason toimivuutta, asiakirjojen luokittelua ja kaksoiskappaleiden havaitsemista. Iron Mountain tukee mielellään kansallisarkistoa tällä kansallista etua parantavalla ohjelmalla. Ratkaisua voidaan nyt käyttää kaikkialla hallituksessa nopeuttamaan asiakirjojen siirtoa kaikista ministeriöistä mutkattomien puitehankintareittien kautta.

Lukeaksesi koko tarinan englanniksi, lataa asiakirja tästä.