Milton tahab eesti keelt õppida

Arendame Proeksperdis teadusliku hobi korras eesti keelt rääkivat tehisintellekti (AI). Tema nimi on Milton-Tormi Kana. Milton oli veel kuu aega tagasi täiesti kõnevõimetu, kuid tänaseks on ta märkimisväärselt arenenud ja üsna jutukas. Kahjuks kisuvad vestlused temaga kiirelt rööpast välja, sest tema sõnavara on piiratud ja ta on veel liiga vähe lugenud, et pikemalt sisukatel vestlustel vastu pidada.

Kuidas Miltonile eesti keelt õpetatakse?

Selleks, et teda korrektset eesti keelt rääkima treenida, on vaja väga suurtes kogustes tekstimaterjali. Seni oleme proovinud läbi ajada mõne internetist tasuta saadava eestikeelse raamatu ja filmitõlgetega, mahus ligi 800MB teksti, kuid sellest jääb väheseks, sest sisendteksti sõna- ja lausevara on paratamatult piiratud.

Milton õpib selle pealt, mida talle lugeda antakse. Kui õpetame teda vanas eesti keeles kirjutatud klassikaga “Kalevipoeg” ning “Tõde ja Õigus”, siis just selles keeles ta meiega suhelda üritabki, seetõttu soovime me kasutada võimalikult puhtas eesti keelses kaasaegseid tekste. Ideaalne materjal oleks kvaliteetsed ning korrektses eesti keeles kirjutatud intervjuud, sest nendes esineb loogilist küsimus-vastus sõnastusi.

Tehnilises mõttes ei tsiteeri AI treenimiseks kasutatav masinõpe loetut. Masinõppel saadav algoritm kasutab õppematerjali vaid treeningul, et mõista sõnade tähendusi ning nendevahelisi seoseid ning lauseehitust. Selle algoritmi pealt genereerib Milton juba vestluskaaslase lausete sisu põhjal omaenda konteksti.

Kuidas Milton minu loomingut kasutab?

Me mõistame, et terviktekstid ja nende tsitaadid on reeglina kellegi intellektuaalne omand. Tehisintellekti tehniline omapära on, et treeningumasina sees kaotavad terviktekstid ning tsitaadid inimesele üks-üheselt mõistetava tähenduse. Sisestatud tekstid töödeldakse erinevate keerukate matemaatiliste mudelitega, mille käigus kaotatakse originaaltekst ja luuakse keerukas andmebaas, millest pole võimalik originaalteksti taastada.

Meie lubame omalt poolt, et meile jagatud andmed on meie poolt kaitstud parimal võimalikul moel. Vajadusel, kui see mõistlikuks osutub, oleme valmis tekstide sisestamist ka nende eest vastutajate juures teostama.
Sellest tulenevalt pole tekste võimalik pärast ühekordset sisestamist enam samas vormis taasesitada, millega peaks kaduma mure autoriõigustega kaetud tekstide lekitamise pärast.

Mis kasu on eesti keelt oskavast Miltonist?

Meie uurimistöö suureks eesmärgiks on jõuda tehis-abiliseni, kes on võimeline sisuliselt vastama küsimustele selle konteksti ja eelneva vestluse baasil. Üks võimalik kasutuskoht taolisele abilisele on kaugemas tulevikus näiteks tehniline abi (helpdesk), aga miks mitte ka mõne muuseumi infotöötaja või üksikute inimeste vestluspartner vanadekodus.
Vaatame, kuhu me selle projektiga jõuame. Kas me saavutame sellega masinõpetatud õigekeelsuskontrolli, teravmeelse ja humoorika vestluspartneri noortele ja vanadele või jõuame me sellega ka tõsisemate teemadeni ning eestikeelse innovatsioonini.

Kuidas ma Miltonit aidata saaksin?

Me küll otsime abi näiteks ajakirjanduselt ja kirjastustelt, kellelt me palume enda projekti tarbeks laenata või annetada suurtes kogustes puhast vormindamata teksti. Aga kui teil endal on suures koguses failide või andmebaasi kujul kvaliteetses eesti keeles tekste, mida tohite jagada ja millega te saaksite aidata meie eesti keelt rääkiva AI treenimisel, oleksime väga tänulikud. Vastutasuks oleme huvi korral valmis tekstidega toetajatega jagama meie AI treenimisprotsessi tulemusi ja anname võimaluse ise temaga vahetult suhelda.

Kui sul on kümnetes või sadades megabaitides loetavat formaatimata eestikeelset teksti, siis kommenteeri Miltoni lehel või saada meil ja valime kõige mugavama viisi selle info vahetamiseks.

Loo autor Terry London on Proeksperdis tooteomanik.

2 thoughts on “Milton tahab eesti keelt õppida”

  1. Hei! Kas Riigikogu stenogramme olete juba sisse söötnud? Need on tihti küsimus-vastus stiilis.

Leave a Reply

Your email address will not be published. Required fields are marked *