Nyelvhalál a digitális korban
Érdemes-e nekünk, magyaroknak, még ma is tartani Johann Gottfried von Herder jóslatától? A 18. századi német költő, filzófus jövendölése szerint a magyarok „…más népek közé vannak beékelve, s századok multán talán nyelvüket is alig lehet felfedezni.”
Fotó: dreamstime
A digitális korban azonban ami egyszer kikerült a webre az többé nem vész el, sőt inkább az ellenkező folyamatra látunk példákat: ahogy a klasszikus kínai, a szanszkrit, az ógörög és sok más már rég kihalt nyelv lassanként megjelenik a világhálón. Ugyanakkor egyre több olyan nyelvről tudunk, melyeket közvetlenül fenyeget a kihalás veszélye. Az Endangered Languages (veszélyeztetett nyelvek) weboldala 3200 ilyet sorol fel, ami a világ mintegy 8000 nyelvének 40 százaléka.
Hogy valójában mi a helyzet, azt tárja fel Kornai András matematikus, nyelvész a tudományos világ legtekintélyesebb online folyóiratában, a PLOS ONE-ban, 2013. október 22-én megjelent, “Digital language death” (Digitális nyelvhalál) című cikkében. A szerző először a nyelvek életképességének hagyományos kritériumait gondolja újra a digitális térben: a nyelvet beszélők száma helyett a nyelvet a hálózaton használók számára figyel. Az olyan, hagyományos értelemben kihalással egyáltalán nem fenyegetett nyelvek esetében mint a mandinka, (Alex Haley: Gyökerek c. regényéből és az ebből készült tévésorozatból ismerhető) hatalmas különbséget jelent, hiszen sokmillióan beszélik, de a lakosság kevesebb mint egy százaléka tudja írni is. Hiába ez a hivatalos nyelv ma két országban is, Szenegálban és Gambiában, hiába van mandinka nyelven rádió- és tévéadás, a digitális térben egyszerűen nincsenek jelen.
A matematikus-nyelvész kutatásának alalpjául óriási mennyiségű, webről gyűjtött adat állt rendelkezésre. „Az adatok gyűjtésében, elemzésében nagy segítségemre voltak munkatársaim az MTA SZTAKI-ban, Zséder Attila fejlesztő mérnök és Pajkossy Katalin matematikus. Hogy a kritériumokat számszerűsíteni tudjuk: minden nyelvet több mint harminc dimenzió mentén vizsgáltunk. Négy csoportra bontottuk a nyelveket: digitálisan mozdulatlan, örökségi, élő, és viruló nyelveket különböztettünk meg, nagyjából aszerint, hogy mennyi digitális kommunikáció zajlik azon a nyelven: a mozdulatlanokon gyakorlatilag semmi, a virulókon naponta több milliárd szónyi új anyag válik digitálisan elérhetővé” – mondta Kornai András.
Az örökségi nyelvek, mint a latin vagy az ógörög azért érdekesek, mert ezek hatalmas kulturális örökséget közvetítenek, de akik ezt felviszik a webre azok nem anyanyelvi beszélők. Büszkén vallhatja valaki, hogy ő mandinka, lengyel, vagy magyar, de senki nem mondhatja: én latin vagyok. Ettől még lelkesen szerkesztheti a latin wikipédiát. Amikor egy-egy nyelvet megmentünk a digitális nyelvhaláltól, akkor sajnos nem digitálisan élő, hanem örökségi nyelvek jönnek létre.
A módszer lényege, hogy nagyon világos és egyértelmű példákat választottak az egyes csoportokból, majd olyan matematikai modelleket állítottak fel, amik megtanulják melyik nyelv melyik osztályba esik.
„Ezek a modellek, mint kiderült, nem is használják a rendelkezésükre álló 35 dimenziót, ezekből mindössze 6-8-at tartottak fontosnak. Ennek ellenére, a különboző példákon és különböző paraméterhalmazokkal tanított modellek lényegében mind egyetértenek egymással amikor az eredeti példáktól eltérő nyelvekre alkalmazzuk őket: a ma ismert nyelvek és nyelvjárások több mint 95 százaléka digitálisan halott. Nem arról van szó, hogy egyszer majd, talán, valamikor ki fog halni: a mozdulatlan tetemek itt fekszenek előttünk” – tájékoztatott Kornai András.
És hogy mit lehet tenni? A professzor szerint két dolgot is: „Egyrészt a digitálisan halott nyelvek döntő többsége a hagyományos értelemben mégcsak nem is veszélyeztetett: biztosak lehetünk benne, hogy mandinka vagy nynorsk (a norvég egy változata) anyanyelvű beszélőket még száz év múlva is fogunk találni. Ezek a nyelvek örökségi nyelvvé tehetők, sokan dolgoznak ezen, de itt van még az a több mint négyszáz nyelv, aminek még van esélye. Ezekkel ma kevesebbet foglalkoznak, pedig nem mindegy, hogy a kibertérbe magunkkal visszük-e őket. A magyar nincs veszélyben, digitálisan sem! Ezt világosan le kell szögezni. Amíg épül a magyar wikipédia (jelenleg,nagyságra a 24-edik, tehát nemhogy az életképes 4-5 százalékban, de még a felső 0,5 százalékban is bent van), amíg magyarul csetelnek a felhasználók, magyarul írnak a fészbukra, virágzik a blog- és portálkultúra, addig nagy baj nem lehet.
A magyar gépi fordítást legjobban a Google, a magyar beszédfelismerést pedig a Nuance csinálja. Ezek a szoftverek nagyok és bonyolultak, fejlesztésükön egyszerre sok tucatnyi ember dolgozik. Még ha nem is olyan nagyszerű a Google Translate, nem sokan adnának pénzt valami jobbért. A magyar nyelvtechnológia igazából csak magyaroknak kell.
A Magyar Nyelv- és Beszédtechnológiai Platformot jobban ismerik Brüsszelben mint itt¬hon. A magyar kultúrörökség digitalizálására, nagyon helyesen, volt eddig némi állami támogatás, mint ahogy a kisebb finnugor közösségek nyelvtechnológiai támogatására is, de ezek a kicsi, néhány tizmilliós projektek csak az örökségi státusz felé visznek – ha azt akarjuk, hogy a magyar nyelv necsak túléljen hanem viruljon is a digitális korszakban, akkor nagyobb léptékben kell gondolkodni.
Forrás: sztaki.hu/ ng.24.hu