top of page

Mis on keeletehnoloogia?

Keeletehnoloogia (ingl k natural language processing ehk NLP või ka language technology) on tehisintellekti valdkond, mis keskendub inimkeele masinatele arusaadavaks muutmisele. Keeletehnoloogia ühendab keeleteaduse ja arvutiteaduse võimekused, et uurida keele reegleid ja ülesehitust ning luua intelligentseid süsteeme, mis on võimelised mõistma, analüüsima ja eraldama tekstis ning kõnes peituvat tähendust. Lihtsustatult öeldes võimaldab keeletehnoloogia meil end arvutile suulise või kirjaliku keele abil arusaadavaks muuta.

Keeletehnoloogia jaguneb keele vormi põhjal kaheks suureks haruks: inimkõne töötlemisele  keskenduvaks kõnetehnoloogiaks ja kirjalikel tekstide töötlemisel põhinevaks tekstitehnoloogiaks.

Kõnetehnoloogia

Kõnetehnoloogia keskendub inimeste kõneldud keele automaatsele tuvastamisele, analüüsile ja mõistmisele. Kõnetehnoloogia peamised alasuunad on kõnetuvastus, kõnesüntees ja kõnelejatuvastus. 

Kõnetuvastus on inimkõne automaatne äratundmine ja selle tekstilisele kujule teisendamine. Kõnetuvastuse rakendusvaldkonnad on näiteks dokumentide dikteerimine, koosolekute protokollimine, kõne abil seadmetega suhtlemine, telesaadete automaatsubtitreerimine, kuulmispuudega inimestele loodud abisüsteemid jne.

 

Kõnesüntees võimaldab kirjalikud tekstid automaatselt kõneks muundada. Kõnesünteesi rakendusvaldkondadeks on näiteks uudiste, raamatute, subtiitrite jt tekstide ettelugemine vaegnägijatele, düsleksikutele, väikelaste vanematele aga ka teistele, kel pole võimalik muude tegevuste tõttu teksti jälgida. 

Kõnelejatuvastus võimaldab automaatselt kõneleja isiku tema kõne ja intonatsiooni järgi ära tunda. Kõnelejatuvastust kasutatakse näiteks automaatsel protokollide genereerimisel, isikusamasuse kontrollimisel ja kriminaaluurimisel. 

Tekstitehnoloogia

Tekstitehnoloogia keskendub kirjalike tekstide automaatsele töötlemisele, sealt mustrite tuvastamisele ja nende analüüsimisele. Tekstitehnoloogia alamsuunad on näiteks tekstianalüüs, tekstikaeve, masintõlge ja automaatne tekstiloome. 

Tekstianalüüs on keeletehnoloogia baastehnoloogia, mis tegeleb mittestruktureeritud tekstide eeltöötluse ning grammatilise ja semantilise analüüsiga ehk valmistab andmed ülesandespetsiifilisteks meetoditeks ette. 

Tekstikaeve on automaatne protsess, mis kasutab loomulikku keeletöötlust, et saada struktureerimata tekstist väärtuslikke teadmisi. Muutes andmed masinatele arusaadavaks teabeks, on võimalik tekste näiteks automaatselt klassifitseerida, määrata nende meelsust, eristada tekstidest olulisi elemente (näiteks nimeolemeid), koostada automaatseid sisukokkuvõtteid jne.  

Masintõlkimine on automatiseeritud protsess, mis võimaldab lähtekeelse teksti sihtkeelde tõlkimist arvutitarkvara vahendusel. Kaasaegne masintõlge läheb kaugemale lihtsast sõnasõnalisest tõlkimisest, et edastada sihtkeeles lähtekeelse teksti täielikku tähendust. See analüüsib kõiki teksti elemente ja tuvastab, kuidas sõnad üksteist mõjutavad.

Automaatne tekstiloome võimaldab koostada erinevat tüüpi tekste ilma inimsekkumiseta. Automaatsel teksti genereerimisel on palju rakendusi alates aruannete loomisest, vestluse stiilis tekstiloomest, essee koostamisest, küsimustele vastamisest ja muust.

bottom of page