immagine-preview

Mag 10, 2018

L’intelligenza artificiale per svelare i segreti dell’Archivio Vaticano

Un progetto dell'Università Roma 3 che adotta un nuovo approccio per il riconoscimento automatico della scrittura. Con l'aiuto degli studenti dei licei romani, per catalogare secoli di storia del Papato

Come rendere fruibili km e km di faldoni di documenti manoscritti che sono stati accumulati (e conservati) per secoli nell’Archivio segreto del Vaticano? Si tratta di 80 chilometri di scaffali che costituiscono l’archivio più grande e più difficile da usare del mondo. La segretezza è l’ultimo dei problemi. L’archivio è protetto dalla difficoltà di ricerca delle informazioni.

Una sfida tecnologica

Chi fosse interessato, deve mandare rispettosa istanza e poi andare in loco a fare passare le pagine scritte da copisti secondo le mode calligrafiche del tempo. Dando per scontata familiarità con il latino medioevale, bisogna fare i conti con gli stili di scrittura che rendono difficile anche solo l’esercizio della lettura. Chi cercasse qualcosa in particolare, deve armarsi di santa pazienza e sfogliare (e decifrare) foglio dopo foglio fino a quando non trovi il nome, la località, la data che sta cercando.

 

Se fosse possibile fare la ricerca testuale, l’archivio sarebbe infinitamente più facile da utilizzare.

Peccato che il riconoscimento automatico che digitalizza i testi si basi sulla possibilità di riconoscere le singole lettere che poi vengono organizzate in parole. I caratteri a stampa si riconoscono perché è possibile identificare ogni singola lettera sfruttando lo spazio che c’e sempre tra una lettera e la successiva. Nei testi scritti a mano, le lettere sono unite e, senza spazio, è impossibile utilizzare questa tecnica. Occorre riconoscere gruppi di lettere o, meglio, intere parole considerate alla stregua di immagini. Questo implica la disponibilità di un database infinito, composto da tutte le parole più comuni (opportunamente declinate, naturalmente) magari scritte anche con stili diversi, e di una notevole potenza di calcolo.

 

Non stupisce che il riconoscimento testuale dei manoscritti non sia facilmente disponibile.

Un cambio di punto di vista

Per dare una svolta, bisogna cambiare tecnica.

È quello che hanno fatto Paolo Merialdo, Donatella Firmani ed Elena Nieddu dell’università di Roma 3 insieme a Marco Maiorino dell’archivio Vaticano con il progetto In Codice Ratio.

 

I quattro ricercatori hanno pensato di sfruttare il diverso spessore dei tratti vergati con pennini e penne d’oca per isolare i singoli colpi di penna, per poi utilizzare una tecnica a puzzle per ricostruire le lettere. In effetti hanno avuto bisogno di una schiera di studenti di licei romani per insegnare al programma la migliore combinazione dei tratti per formare le singole lettere, che sono scritte in modo leggermente diverso dai diversi copisti che hanno operato in epoche diverse. Agli studenti è stato chiesto di dire se la proposta di riconoscimento del programma era soddisfacente oppure no.

 

Avevano davanti un esempio da manuale, l’immagine reale e l’interpretazione del programma. Dopo abbastanza risposte, il programma impara e affina la tecnica. Tuttavia nonostante gli sforzi dei programmatori, degli studenti e dell’intelligenza artificiale, il riconoscimento non è perfetto. Le n, per esempio, sono facilmente confuse con ii e anno diventa aiino, aniio, aiiiio. Bisogna quindi introdurre un po’ di buon senso nel programma di riconoscimento perché sappia che non ci sono parole con due i e tanto meno con 4.

Una prova sul campo

A questo punto gli sviluppatori hanno pensato di essere pronti per una prova e hanno sottoposto al programma di riconoscimento 18.000 pagine tratte dai Registri Vaticani (un sottoinsieme dell’archivio) contenenti lettere a regnanti, pareri legali e corrispondenza varia. Com’era facile immaginare, il risultato non è perfetto, dal momento che circa un terzo delle parole contiene lettere mal riconosciute: m, n e i sono il tallone d’Achille seguite da s e f, dal momento che gli antichi copisti allungavano la s facendola assomigliare a una f. Non è il programma l’unico ad avere questo problema. Mi ricordo l’antica illustrazione (con didascalia) di un sifone che mia figlia aveva letto fifone, restando giustamente interdetta.

Ciononostante, il software ha riconosciuto il 96 per cento delle lettere e la trascrizione che ha fornito, pur imperfetta, è già utilizzabile per capire il contenuto del manoscritto: un passo avanti fondamentale. L’approccio adottato da In Codice Ratio (segmentazione, ricostruzione probabile, apprendimento attraverso intervento di volontari) può essere utilizzato in tutte le lingue. Il successo dipende dalla qualità della scrittura. Il Vaticano aveva copisti di alto livello: manoscritti prodotti da non professionisti possono essere degli ossi più duri.

 

Sono curiosa di vedere quali saranno le prime sorprese ad emergere dall’Archivio Vaticano che, fanno notare gli esperti, più che segreto è l’archivio privato del Papa. Forse l’intelligenza artificiale lo renderà più accessibile, e quindi meno segreto.

Rimani sempre aggiornato sui
temi di StartupItalia!
iscriviti alla newsletter