La ĉefa celo de la projekto CLARIAH-AT Esperanto-gazeteltondaĵoj estis krei kompletajn tekstojn por gazetartikoloj el la Kolekto Hachette. Tiu kolekto enhavas artikolojn pri Esperanto el la periodo de 1898 ĝis 1915, kiujn konservas la Kolekto por Planlingvoj kaj la Esperantomuzeo de la Aŭstria Nacia Biblioteko (ONB). En tiu blogaĵo ni volas prezenti la deirpunkton, progreson kaj rezultojn de la unujara esplorprojekto.
La Kolekto Hachette
La kolekto de gazeteltondaĵoj prilaboritaj en tiu projekto konsistas el ĉirkaŭ 17 000 artikoloj prenitaj el revuoj aperintaj ĉefe en Francio, sed ankaŭ en multaj aliaj eŭropaj landoj inter 1898 kaj 1915. La artikoloj mem raportas pri eventoj kaj homoj rilataj al Esperanto, ekzemple pri regionaj, naciaj kaj Universalaj Kongresoj. Tial ili donas bonegan kaj unikan ŝancon studi la historion de la Esperanto-movado en Eŭropo komence de la 20-a jarcento.
Esplordemandoj
Estas granda intereso pri tiu periodo inter lingvistoj kaj historiistoj. Kiel sekvo de la projekto, tiu grava kolekto de Esperanto-artikoloj fariĝis plene serĉeblaj. Tio ebligas plian esploradon, ĉar la tekstoj nun estas alireblaj por analizoj uzante ciferecajn metodojn. Fine, ni kompletigis la kolekton kreante kompleksajn dosierojn el la simplaj skanaĵoj. Ni kombinis bildojn, tekstajn dosierojn kaj metadatenojn, ĉio en unu dosiero.
Superrigardo pri la dukto
Kadre de la projekto estis kreita dukto, per kiu plenaj tekstoj estis ĉerpitaj el la originalaj bildoj. Tiu dukto konsistas el kvar ŝtupoj:
- Segmentado de la bildoj apartenantaj al artikolo en unuopajn tekstujojn
- Turnado de la tekstkestoj, por ke la teksto estu horizontala
- Aplikado de Tesseract OCR al ĉiu tekstkesto por signorekono
- Kreado de IIIF-metadatuma dosiero pro ĉiu artikolo surbaze de la generitaj tekstdosieroj
En la venonta parto ni ŝatus pli detale pritrakti la unuopajn paŝojn, por ke ili povu servi kiel inspiro por projektoj kun simila historia materialo. Por la analizado de la aranĝo, ni uzas la modelon YOLOv8 (vidu ĉi tie por pliaj informoj), kiu estas potenca modelo por kutimaj taskoj kiel objektorekono, bilda klasifiko kaj segmentado. Por plibonigi la kvaliton de aranĝrekono, fajnagordado estis farita per mane komentitaj bildoj. La modelo tiam estis aplikita al ĉiuj bildoj en la datumaro kaj ĉiuj sekcioj komentitaj kun “teksto” estis pludonitaj al la sekva etapo. Rigardu figuron 1 por bildigo de la datumoj generitaj en tiu paŝo.
Figuro 1: Aplikado de la YOLOv8-reto al sekcio de du-kolumna artikolo en la datumaro. Maldekstre: originala bildo, dekstre: supermetado de la originala bildo kaj la generitaj tekstaj komentarioj.
Tipa defio pri la gazeteltondaĵoj en tiu kolekto estas, ke ili ne estas gluitaj paralele al la randoj de la papero. La rezultkvalito de la plenaj tekstoj generitaj per tipa OCR-softvaro malpliiĝas signife, se la enigaj tekstoj ne estas plene horizontalaj. Tial ni evoluigis Python-skripton bazitan sur la malfermita biblioteko OpenCV, kiu rekonas la direkton de tekstbloko kaj poste turnas la bildon per la necesa angulo. Rigardu figuron 2 por vidi la aplikaĵon de la skripto al du specimenaj bildoj.
Figuro 2: Apliko de la evoluinta Python-skripto al ĉerpitaj tekstkestoj. La rezulto de la kalkulo estas rotacio maldekstren de 3,36° (por la unua bildo de maldekstre) kaj 2,75° (por la tria bildo de maldekstre).
Ni uzis la malfermitkodan programaron Tesseract OCR por tekstrekono, ĉar Esperanto kaj 21 aliaj lingvoj en la datumaro estas rekte subtenataj. En la kvara kaj lasta paŝo, la tekstdosieroj apartenantaj al ĉiuj tekstkestoj sur unu paĝo estas kombinitaj en ununura dosiero, kiu estas konvertita al IIIF-konformaj komentarioj. Tiam IIIF metadatena dosiero estas kreita por ĉiu artikolo kun unu aŭ pluraj bildoj, el kiuj ĉiu enhavas la koncernajn tekstkomentariojn.
Rezultoj: ONB-katalogeroj, plenteksta serĉado kaj IIIF-datumaro
Kiel parto de la projekto la metadatenoj menciitaj supre estis integritaj en la katalogsistemon de ONB. Ili estas alireblaj per la termino “Sammlung Hachette“. Tio ebligas serĉojn uzante la kutimajn filtrajn metodojn de la katalogo kaj inkludas ligilon al la koncernaj ciferecigitaj tekstoj. La ĉefa celo de la projekto estis igi la plenajn tekstojn de la gazetartikoloj serĉeblaj. Tio sukcesis per la helpo de Solr kaj ni ofertas plentekstan serĉon en la kolekto per la ONB-laboratorioj. Fakte, la elektita realigo permesas kombinitan serĉon en ĉiuj metadatenoj (titolo, aŭtoro, ĵurnalo, dato, loko, lingvo, ŝlosilvortoj) same kiel en la plenaj tekstoj, inkluzive de la kutima similecserĉo de Solr. Ni ofertas la generitajn datumojn kiel pakitan datumaron ĉi tie. Krom la projektrezultoj kiel elŝutaĵo, pliaj informoj pri la amplekso kaj enhavo de la datumaro estas tie alireblaj. Ekzistas ankaŭ informoj pri rajtoj, citproponoj kaj la ebleco foliumi la datumaron.
En la spirito de kunfunkcipovo kaj reuzebleco, kiuj estis deziritaj en la alvoko por proponoj, ni kreis IIIF-kolekton, kiu enhavas ĉiujn IIIF-datumarojn generitajn en la projekto kaj tiel permesas aliron al ĉiuj bildoj, metadatenoj kaj plenaj tekstoj. Tiu kolekto estas alirebla ĉi tie.
Ligiloj, financiga informo kaj komunumo
Tiu projekto estis subtenata de CLARIAH-AT. La retejo de la projekto ĉe la financa subtenanto troveblas ĉi tie. Koresponda artikolo por tiu projekto inkluzive de pli teknikaj detaloj aperis en la retejo de ONB Labs (vidu ĉi tie). La fontkodo, same kiel la trejna datumaro kaj la generita modelo por aranĝa analizo troveblas en la Gitlab-deponejo de la projekto. Ni volonte respondas demandojn pri la projekto kaj antaŭĝojas konektiĝi kun la Esperanto-komunumo. Sendu al ni retmesaĝon al labs@onb.ac.at.
Comments · Komentoj