Štorija se začne v Kranju pred skoraj štiridesetimi leti, v drugi polovici osemdesetih let. Takrat sem ravno začel študirati angleški jezik s književnostjo in kot mnogi socialistični sodržavljani sem na Koroškem v Avstriji nabavil svoj prvi IBM-ov osebni računalnik. Podjetnejši med Slovenci so takrat poškilili čez mejo, v kapitalizmu ustanavljali podjetja in nam od tam prodajali računalniško robo. Na tistem prvem PC-ju se je dalo delati čudovite stvari – pisati in tiskati besedila, računati, igrati igrice, celo delati glasbo in še marsikaj. Kaj bi si angleščino študirajoči človek želel drugega, kot da mu ne bi bilo več treba obračati strani v debelih slovarjih in bi v sekundi na računalniku lahko poiskal katerokoli geslo. In res – nekako mi je prišlo na uho, da v Kranju nekdo prodaja angleško-slovenski slovar na mehkih oseminčnih disketah (kdo se jih še spomni?) in pri dotičnem mi je uspelo kupiti to čudo. Ne jaz ne drugi srečni lastniki se tedaj nismo spraševali o malenkostih, kot so: ali avtorji slovarja sploh vedo, da to obstaja? Ali je prodajalec razmišljal o avtorskih pravicah? Ali je kje založba, ki se zaradi piratiziranja počuti oškodovano? Drug sistem, drugi časi.
Čez nekaj let smo z operacijskega sistema DOS prešli na Windows, v novem slovenskem kapitalizmu pa je lastništvo postala resna stvar. Državna založba Slovenije se je preimenovala v DZS in ugotovila, da so slovarji, tudi elektronski, dober biznis. In zgodilo se je, da sem se na tej založbi kot urednik za slovarje zaposlil tudi sam. Takrat smo potem skupaj z računalniškim podjetjem Amebis izdajali dvojezične slovarje, ki jih je bilo treba kupiti skupaj z lično veliko škatlo in v programu ASP inštalirati na osebni računalnik. Ta je za razliko od piratskega predhodnika znal izvajati čudovito kompleksna iskanja po slovarjih, avtorji pa so prejemali svoje tantieme. Skratka, devetdeseta so bila čas množične digitalizacije starejših dvojezičnih slovarjev, v digitalni obliki pa so takrat še nastajali tudi novi slovarji, kot denimo Debenjakovi nemški ali Šlenčevi italijanski.
Potem je prišel svetovni splet in z njim problem: ravno smo se udobno znašli v kapitalizmu, ko je bil po skoraj perverzni logiki iz silicijeve centrale ponovno uveden komunizem – na spletu je bilo vse zastonj in enako dostopno vsem. Slovarji so se z osebnega računalnika preselili na splet, a jih tam nihče ni znal zares prodajati. Ne le pri nas, nikjer na svetu. To so hitro ugotovile tudi založbe in v prvem desetletju tega stoletja začele množično opuščati financiranje sestavljanja novih dvojezičnih slovarjev in zapirati slovarska uredništva. Treba je bilo iti drugam. V podjetju Amebis smo potem okrog leta 2010 ob izvajanju večjega digitalizacijskega projekta zasnovali tudi portal Termania, ki je omogočil prikaz in urejanje slovarjev na spletu. Nekje v prvi polovici prejšnjega desetletja so bili tako omogočeni tehnični pogoji za to, kar je zdaj na portalu Franja: dvojezični slovarji so bili digitalizirani, spletni vmesnik, ki je hkrati prikazoval rezultate iz večjega števila slovarjev, je bil na voljo. Kar je manjkalo, so bile avtorske pravice za objavo.
Od tedaj je moralo miniti še desetletje, da so se lastniki avtorskih pravic dvojezičnih slovarjev zares prepričali o možnostih njihove prodaje. Hkrati se nam je nekaterim, ki smo od blizu spremljali dogajanje, zdelo škoda, da so se jezikovni viri z veliko znanja o slovenščini znašli v nesmiselnem, celo tragičnem položaju: kupoval jih ni več nihče, hkrati pa so postali tako rekoč nevidni in pozabljeni, saj jih zaradi zaščite avtorskih pravic nihče ni mogel uporabiti kako drugače. Potencialna rešitev se je glasila: odprti podatki. Pred par leti se je v naslednjem digitalizacijskem projektu z imenom Razvoj slovenščine v digitalnem okolju ponudila priložnost za odkup avtorskih pravic in prenos vsebine slovarjev v odprt dostop, kar smo izvedli na Fakulteti za računalništvo in informatiko, skupaj s partnerji, med katerimi je bil tudi Inštitut za slovenski jezik. To je potem omogočilo javno objavo odkupljenih vsebin, med drugim na portalu Franja. Hkrati bodo isti podatki lahko neposredno vključeni v odprt veliki jezikovni model za slovenski jezik, ki nastaja zdaj. In še kam.
A konec zgodbe ni tako pozitiven. Ko smo začeli s procesom odkupovanja, je bil sestavljen spisek z najbolj pomembnimi deli, na katerem je bilo 88 naslovov. Prav na vrhu spiska sta bila Slovar slovenskega knjižnega jezika in Enciklopedija Slovenije, pri nobenem od obeh pa prenos v odprti dostop ali odkup ni uspel. Pri prvem na to niso pristali originalni avtorji, takrat zaposleni na Inštitutu za slovenski jezik, zdaj tudi lastniki avtorskih pravic SSKJ. Pri drugem je bilo lastništvo avtorskih pravic preveč nejasno. Na koncu so bile odkupljene pravice za 22 slovarjev in eno enciklopedijo. Zakaj je to pomembno? Brez prenosa slovarjev v odprti dostop portala Franja sploh ne bi bilo. Slovenska umetna inteligenca pa se o slovenščini ter o znamenitih Slovencih in Slovenkah tudi zdaj ne bo učila ne iz SSKJ, ne iz Enciklopedije Slovenije.