Zgodovina srečanja slovenščine in telekomunikacijskih metod kodiranja črk in besed je sicer kar zanimiva. Nasploh se je prva intenzivnejša potreba po črkovnem kodiranju vzpostavila s telegrafi nekje v sredini 19. stoletja, skoraj hkrati ali le malo zatem, ko smo pri slovenščini opravili menjavo črkopisa z bohoričice na gajico. Že takrat je latinična pisava in angleščina začela diktirati kodirne standarde, saj je Morsejeva abeceda vsebovala le 26 črk latinične angleške abecede. Kasneje so se vzpostavili standardi Morsejeve abecede tudi za druge pisave, na primer za cirilico ali grško pisavo, vendar so večinoma uporabili le prečrkovanje črk angleške abecede. Če pomislimo na Bohoričev zapis sičnikov in šumnikov, se lahko tudi zabavamo ob misli, koliko težav s kodiranjem črk bi bilo slovenščini prihranjeno, če bi ostali pri bohoričici.
Kakorkoli, odločili smo se za gajico in dobili nekaj posebnih znakov, ki nam v elektronski komunikaciji že od takrat delajo zgago. Ko se je po drugi svetovni vojni začela razvijati računalniška industrija, je bil vzpostavljen standard ASCII ali American Standard Code for Information Interchange, uradno sprejet leta 1963, ki je izpolnjeval v prvi vrsti potrebe črkovnega kodiranja za teleprinterje. S svojim enozložnim 7-bitnim naborom, ki je bil – jasno – zelo anglocentričen. Kasneje se je tudi izkazalo, da gre za zelo trdoživ standard, ki ga pri elektronskem črkovnem kodiranju srečujemo tako rekoč še danes. Ker je bilo ves čas jasno, da obstaja močna potreba po večjem številu črkovnih znakov od 127-ih znakov ASCII-ja, so se iz leta 1972 sprejetega standarda ISO 646 razvili 7-bitni nacionalni standardi, ki so izkoriščali manj uporabljene znake iz nabora. V bivšem jugoslovanskem prostoru je bil tako sprejet standard JUS I.B1.002 oziroma tako imenovani YUSCII, istočasno pa so druge tabele uporabljale preostali prosti bit in različne enozložne 8-bitne tabele so prevladovale vse do sprejetja standarda ISO/IEC 10646 s šestnajstbitnim kodiranjem in hkratnim uspehom s standardom kompatibilnega kodnega nabora Unicode UTF-8 oz. UTF-16. V vmesnem času so bili najpomembnejši 8-bitni standardi predvsem mednarodni standard ISO 8859-2 iz leta 1987 ter industrijska standarda 825 za DOS in windows-1250, povezana zlasti z Microsoftom. Morda je pri vsem skupaj dobro vedeti, da za digitalni zapis mnogih slovenskih besedilnih korpusov, kot je denimo Gigafida, in tudi vseh drugih virov, ki jih hrani Center za jezikovne vire in tehnologije Univerze v Ljubljani, še vedno uporabljamo kodno tabelo UTF-8.
In zakaj se o tem sprašujemo na koncu leta 2024? Letos smo začeli zbirati besedila za slovenski veliki jezikovni model, torej za umetno inteligenco v slovenščini, zbrati pa je treba resnično velike količine besedil, če hočemo, da bo zadeva sorazmerno dobro delovala. Za cilj smo si zastavili, da bomo zbrali 40 milijard besed, pri čemer jih imamo trenutno kakih 10 milijard. In kaj je ena od prvih težav, na katero smo naleteli pri zbiranju? Uporaba različnih standardov zapisa in različnih kodnih tabel, seveda. Kot ~love{ki bralci verjetno nimate toliko te^av z razumevanjem mojega besedila s {umniki v drugi kodni tabeli, ~e pa se bo jezikovni model u~il iz tak{nih podatkov, in bo tak{nih besedil veliko, bo pa~ prepričan, da smo se Slovenci in Slovenke odlo~ili za umetnointeligen~ni jezik, ki izgleda kot kombinacija ~rk in razli~nih lo~il.
Po internetu kroži znamenita urbana legenda, ki pravi takole: dimenzije dveh pogonskih raket na zdaj že upokojenem ameriške vesoljskem čolničku je določila velikost dveh konjskih zadnjic. Kako to? Rakete so izdelovali v ameriški tovarni, ki jih je do izstrelišča morala dostaviti po železnici. Te imajo določeno širino med tiri, ki so jih določili prvi graditelji železnic, ki so bili angleški prišleki v Ameriki. Ti so širino določili glede na osno razdaljo med kolesi tramvajev, ki so jih v Angliji vlekli konji. To razdaljo so določili prvi graditelji cest v Evropi, stari Rimljani, in v osnovi izhaja iz dimenzij rimske bojne vprege z dvema konjema. Čeprav so inženirji pri Space Shuttlu želeli uporabiti večje pogonske rakete, jih torej niso mogli zaradi standarda, postavljenega v antičnem Rimu.
Tudi če je to le urbana legenda, je predobra, da je ne bi uporabili za ponazoritev tega, kako trdoživi so lahko standardi in koliko težav nam še vedno lahko povzročajo naši čudoviti, skoraj dvesto let stari krilati znaki.