Kratijupid

Kratijupp on tehisintellektil põhinev rakendus, mida saavad tasuta taaskasutada ja vastavalt oma vajadustele edasi arendada kõik avaliku ja ka erasektori huvilised. 2020 aasta lõpuks on plaanis vähemalt 5 sellist rakendust avalikkusele kättesaavaks teha.

 

Muuseas loodame lähiajal avalikustada järgnevad lahendused: kõnetuvastus, kõnesüntees, teksti märksõnastaja, juturobot ja palju muud.

Tõlkemootor

Koodivaramusse lisandus koostöös Tartu Ülikooliga teine kratijupp ehk tehisintellektil põhineva rakenduse baaskomponent. Valminud tõlkemootorit Neurotõlge saavad masintõlkeks tasuta taaskasutada ja vastavalt oma vajadustele edasi arendada kõik huvilised.

 

Teine koodivaramusse lisandunud krattide baaskomponent on tõlkemootor Neurotõlge, mis toetab seitset keelt (eesti/läti/leedu/inglise/soome/saksa/vene), kusjuures kõik 42 tõlkesuunda mahuvad ühe närvivõrdel põhineva mudeli sisse. Lahenduse puhul ei ole vaja sisendkeelt eraldi valida, vaid seda teeb süsteem ise, kasutajal tuleb valida vaid väljundkeel. Lisaks on võimalik valida ka tõlke stiili, olgu see siis kõnekeel või ametlikum tõlge. Lisaks suudab tõlkemootor ka samas keeles stiili kohendada ja parandada kirjavigu.

 

Tõlkemootori lahendust võimalik paigutada endale sobivasse keskkonda, mis võimaldab seeläbi tõlkida ka asutusesiseseks kasutamiseks mõeldud dokumente. Tõlkemootor töötab veebis addressil https://translate.ut.ee/, kus saab seda kasutada nii otse demona, integreerida tõlkeraamistikega ja kasutada läbi API.

 

Koodivaramu on kättesaadav veebilehelt https://koodivaramu.eesti.ee, tõlkemootori lahendus siit.

 

Juhul kui kedagi huvitavad erilahendused ja valdkonna spetsiifilised masintõlke lahendused, siis võib minuga ühendust võtta.

 

Tõlkemootori valmimist on toetanud Tartu Ülikool, EAS, Haridus- ja Teadusministeerium, TÜ HPC Interlex ja Luisa tõlkebüroo.

Tekstianalüütika töövahend
Texta

 Esimene koodivaramusse lisandunud krattide baaskomponent on Texta OÜ loodud tekstianalüütika töövahend, mida tänaseks on juba mitmed asutused kasutanud oma tööprotsesside tõhustamiseks ja rutiinsete tegevuste automatiseerimiseks. Näiteks Haridus- ja Teadusministeerium viib Texta tööriista abil läbi dokumendihalduse auditit, mille eesmärk on tuvastada dokumendid, mis on lubamatult avalikustatud (nt asutusesisesed dokumendid, isikuandmed jm). Justiitsministeerium koostöös Registrite ja Infosüsteemide Keskusega eemaldasid Textaga ligi 80 000 kustunud karistusega kohtulahendist isikuandmed ja avalikustasid need seejärel uuesti kohtute infosüsteemis. Texta Toolkit kasvas välja rakendusuuringutest STACCis ning selle arendust on toetatud ka Eesti Keeletehnoloogia programmist.

Välja on tulnud uus Texta Toolkit 2.0 (lisatud 4.3.2020).

 

Toolkitt 2.x on uus graafiline liides, projektipõhised ressurssid. Uus back end, kiirem ja lihtsam integratsioon süsteemidega, kogu liides on kättesaadav ja töötav läbi API. Täiustatud andmemudel, võimalus masinõppemudelite täppisseadistamist. Pytorch närvivõrkude treenimiseks. Apache Tika dokumentide protsessimiseks, efektiivsem dokumentide lisamine Toolkitti ning optiline tekstituvastamine skännitud dokumentidelt.

 

Inimkeeles rääkides on lihtsam märgendada dokumente, memosid, kiirendada ja efektiivistada kliendivestlusi - on see läbi e-mailide märgenduse, automaatse suunamise kui ka automaatselt genereeritud vastuse ning infoeraldus - viia vajalik osa e-mailist, tekstist, dokumendist, pdfist jms süsteemi.

 

Tekstianalüütika töövahend on kättesaadav riiklikust koodivaramust.

 

Kõnesünteesi töövahend

Tegemist on Tartu Ülikooli keeletehnoloogia uurimisrühma poolt välja arendatud eestikeelse närvivõrkudel põhineva kõnesünteesi prototüübiga, mis on treenitud eestikeelsete uudiste korpusel. Meie kõnesüntees oskab hetkel jäljendada nelja erineva kõneleja häält, mis kõik on pandud ühe mudeli sisse. Projekt on alles arendusjärgus ja kaugeltki mitte perfektne, aga närvivõrkudel põhinev kõnesüntees kõlab loomulikumalt kui varasemad meetodid.

Kõnemudeli tugevusteks on kõne loomulik kõla ja intonatsioon, numbrite, sümbolite ja lühendite hääldamine.

Lisaks veebidemole, mis on leitav siit, on olemas ka rakendusliides, mille kohta info on leitav siit.

Lähtekood koos paigaldusjuhendiga on kättesaadav riiklikust koodivaramust.

Kõnesünteesi valmimist on toetanud TalTechi foneetika ja kõnetehnoloogia labor, TÜ foneetika labor ning EKI kõneuurimise ja kõnetehnoloogia osakond.

©2019 kratt@mkm.ee