Siirry sisältöön
Haku

Kotuksen uutiset 2023

26.10.2023 13.00

Virossa panostetaan kieliteknologiaan

ChatGPT on mullistanut käsityksiämme, mutta kieliteknologia on paljon muutakin.

Eesti Keele Instituutissa (EKI) tehdään enenevässä määrin kieliteknologiaan liittyviä töitä. Tallinnassa sijaitsevassa instituutissa työskentelee alan huippuosaajia.

Kotimaisten kielten keskuksen (Kotus) asiantuntijoita vieraili syyskuussa EKIssä. Vierailun aikana vahvistettiin Suomen ja Viron kieliasiantuntijalaitosten yhteistyötä ja keskusteltiin ajankohtaisista kielityön kuulumisista.

Juuri kieliteknologia oli yksi keskeisistä teemoista. Siihen on Eesti Keele Instituutissa panostettu viime vuosina voimakkaasti.

Tässä jutussa kysymyksiimme vastaavat EKIn kieli- ja puheteknologian osaston johtaja Kadri Vare ja kieliteknologi Helen Kaljumäe. Heidän mukaansa kieliteknologian merkitys on korostunut erityisesti Open AI -tutkimuskeskuksen julkaiseman ChatGPT-palvelun ansiosta. Kieliteknologian parissa EKIssä tehtävä työ on kuitenkin pääosin paljon muuta kuin tekoälyn kanssa työskentelyä.

Tässä uutisessa käytetyt kuvat ovat Microsoft Bingin Image Creator -tekoälypalvelun luomia. Kuvateksteissä kerrotaan, millaista kuvaa tekoälyltä on pyydetty (syöte).

Syöte: ”Yksi suomalainen ja yksi virolainen asiantuntija keskustelemassa. Kuvassa täytyy näkyä Suomen lippu ja Viron lippu.”

Miksi EKI on panostanut kieliteknologiaan?

Eesti Keele Instituut on opetus- ja tiedeministeriön alaisuudessa toimiva tutkimus- ja tuotekehityslaitos. Niinpä oli luontevaa, että juuri EKIn yhteyteen päätettiin perustaa Eesti NLP Instituut eli kieliteknologian osaamiskeskus. 

Osaamiskeskuksen tarkoituksena on tarjota tukitoimia projekteille, joita rahoittaa Viron kansallinen kieliteknologian tutkimus- ja tuotekehitysohjelma. Keskitymme erityisesti markkinointiin ja tutkimukseen, mutta koordinoimme myös Viron kieliteknologiakentän kokonaisuutta.

Kieliteknologiankenttään kuuluvat tutkimus- ja tuotekehityslaitokset sekä julkisella että yksityisellä sektorilla. Kannustamme toimijoita aktiivisempaan ja kansainvälisempään yhteistyöhön.

Millaisia kieliteknologiatöitä teette EKIssä?

Kieli- ja puheteknologian osastolla on yhteensä 17 työntekijää. Osastomme työtehtävät vaihtelevat paljon. 

Yksi tiimi työskentelee puhe- ja äänisynteesien parissa. Tämä tarkoittaa puheeseen ja ääneen liittyvää tutkimustyötä, jonka tutkimusaiheita ovat esimerkiksi puhetyylit, puhutun kielen variaatiot, lauseprosodia ja tunteisiin vetoava puhe. Tiimin työn keskiöön kuuluu viron kielen puhesynteesin kehittäminen, mikä tarkoittaa käytännössä aineiston keräämistä ja prosessointia sekä kielimallien kouluttamista. 

Kaksi työntekijäämme pyrkii vastaamaan kysymykseen, miten kieliteknologiaa voisi hyödyntää kielenoppimisessa ja koulutuksessa. Tämä on uusi aluevaltaus EKIlle, ja olemme vasta työn käynnistelyvaiheessa.

Virolaisen viittomakielen koordinoijamme työnkuvana on kartoittaa kielen käyttöalaa ja sitä, mitä voisimme EKIssä tehdä edistääksemme virolaisen viittomakielen käyttöä. Työ on vasta alussa, mutta pitkän aikavälin tavoitteena on luoda robotti, joka osaisi virolaista viittomakieltä.

Teemme töitä myös suuren käännösprojektin parissa. Tõlkevärav mahdollistaa helpomman käännöstyön, sillä sen avulla koko käännösprosessi on mahdollista tehdä tekstin syöttämisestä viimeistelyyn saakka yhdellä alustalla. Konekäännöksen lisäksi alusta sisältää myös muita kieliteknologiaa hyödyntäviä apuvälineitä, kuten anonymisoinnin ja kieliopintarkistuksen.

Osastossamme työskentelee myös data-analyytikko. Hänen päätehtäviinsä kuuluu aineiston siirtäminen vanhemmilta palvelimilta EKIn nykyisille palvelimille. Lisäksi osastoomme kuuluu kolme kieliteknologia, joiden työnkuva kattaa monenlaiset aiheet kieliteknologian kentältä.

Kieliteknologimme ovat aina valmiita sukeltamaan kieliteknologian uusimpiin innovaatioihin. Esimerkiksi kun ChatGPT julkaistiin, vaadittiin välitöntä reagointia ja selvitystyötä siitä, mitä tekoälyn valtavan nopea kehittyminen tarkoittaa viron kielen näkökulmasta. Aloitimme nopeasti tekoälyyn liittyvien koulutusten pitämisen ja annoimme haastatteluja medialle.

Syöte: ”Viron lippu, joka on kiinnitetty tietokoneeseen.”

Millaisia projekteja nyt on käynnissä?

Jatkuvana vastuualueenamme on koordinoida viron kieliteknologian kansallista ohjelmaa. Teemme tutkimusta ja keskustelemme alan toimijoiden kanssa. EKI valvoo jo käynnissä olevia projekteja ja selvittää tulevia kehityskohteita.

Keskitymme nyt suorituskyvyn mittaamiseen. Sen avulla on mahdollista arvioida, kuinka hyvin erilaiset kielimallit ja kieliteknologiset apuvälineet toimivat viron kielessä.

Päivittäin työskentelemme monenlaisen datan ja aineistojen parissa. Tällä hetkellä keräämme verkkoaineistoa, jota kielentutkijat voivat hyödyntää. Pyrimme ottamaan haltuun KORPin infrastruktuurin ja syöttämään kaikki tärkeimmät aineistomme sinne. Analysoimme samalla, mitä aineistoillemme tulee tehdä, jotta ne olisivat mahdollisimman monen tutkijan käytössä entistä paremmin.

Toki kirjoitamme jatkuvasti mediaan kieliteknologiaa käsitteleviä artikkeleita. Tarjoudumme puhujiksi konferensseihin ja tarjoamme apuamme eri toimijoille.

Mitä kieliteknologian kentällä on tapahtumassa?

ChatGPT on tehnyt kieliteknologiasta tunnetumpaa, ja meidän on oltava kiitollisia siitä. Pyrimme hyötymään näkyvyydestä, sillä ChatGPT mahdollistaa mediassa laajemman kieliteknologisen keskustelun. Jos vaikkapa uutisen otsikossa mainitaan ChatGPT, uutista pidetään merkittävänä.

Keskusteluilmapiirin muutoksen myötä olemme päässeet nostamaan esille meille tärkeitä teemoja. ChatGPT:n ja kielimallien yhteydessä olemme painottaneet, miksi virolaista kieliteknologiaa yhä tarvitaan myös isojen kielimallien aikakaudella.

Monet käyttävät nykyään vironkielistä tekoälyä osana työtään. Yksi tärkeistä teemoista onkin, kuinka hyvin esimerkiksi ChatGPT:n kielimallit oikeasti tuntevat Viron kulttuuria ja viron kieltä. Sama teema nousee esiin myös muiden kielten kohdalla, jopa englannin. Yhä useampia ja useampia kielimalleja koulutetaan, mutta malleilla ei ole tarpeeksi lähteitä, joihin voisi verrata niiden luomia vastauksia.

Syöte: ”Suuri konferenssiyleisö kuuntelemassa esitelmää. Seinälle on heijastettu maailmankartta ja suuria puhekuplia.”

Voiko sanoa, että ChatGPT on mullistanut kieliteknologian?

On tärkeää tietää, kuinka hyvin kielimallit toimivat verrattuna apuvälineisiin, jotka on tehty ”perinteisemmin kieliteknologisin menetelmin”. Tahdomme ymmärtää, onko työhömme käytetty panos lopputuloksen arvoinen vai ratkaisevatko ChatGPT ja vastaavat palvelut yksinkertaisesti kaikki kieliteknologiaan liittyvät ongelmat. Emme esimerkiksi ole varmoja, tulisiko meidän kannustaa tutkijoita keskittymään isoihin kielimalleihin vaikkapa kehitettäessä automaattista semanttista analyysiä.

Seuraamme jatkuvasti, mihin uusia isoja kielimalleja koulutetaan ja mihin ne pystyvät. Kehitys on tällä hetkellä niin nopeaa, että on usein vaikeaa pysyä perillä uusimmista käänteistä. Erityisesti viron kielen sisältämät avoimen lähdekoodin kielimallit ovat meille kiinnostavimpia. Olemme pohtineet, miten voisimme käyttää hyväksi tällaisia malleja sanakirja- tai termityössä.

Tekevätkö yliopistot kieliteknologiatyötä Virossa?

Suurin osa kieliteknologian tärkeästä tutkimus- ja kehitystyöstä tehdään yliopistoissamme. Yliopistojen kehittelemät työkalut ovat avoimen lähdekoodin työkaluja, joten muut kieliteknologiset toimijat voivat vapaasti käyttää niitä omiin tarpeisiinsa.

Tarton yliopisto on ollut vuosikausien ajan konekäännöksiin liittyvien kysymysten moottori. Nykyään Tartossa testaillaan myös isoja kielimalleja. Tavoitteena on selvittää, miten ne saadaan toimimaan entistä paremmin viron kielellä. Tärkeimmät tekstianalyysin työkalut, kuten viron kielen morfologinen analysaattori, on kehitetty Tartossa.

Tallinnan teknillinen yliopisto on työskennellyt vuosien ajan viron kielen puheentunnistuksen parissa. Siellä käytettiin hyödyksi viron kielen isoja kielimalleja jo kauan ennen ChatGPT:n julkaisua.

Myös Tallinnan yliopisto tekee nykyään työtä kieliteknologian parissa. Siellä on keskitytty erityisesti kouluttamiseen, kielenoppimiseen ja korpuksiin.

Millaista yhteistyötä EKI tekee alan toimijoiden kanssa?

Teemme EKIssä paljon kieliteknologista yhteistyötä erilaisten valtiollisten toimijoiden ja yksityisten yritysten kanssa. Kansainvälisesti olemme osa CLARIN:ia (Common Language Resources and Technology Infrastructure) ja EDIC:iä (European Digital Infrastructure Consortium).

Olemme tällä hetkellä etsimässä yhteistyökumppaneita, joilta voisimme oppia lisää isojen kielimallien kouluttamisen ja hienosäädön prosesseista. Olemme taannoin aloittaneet yhteistyön AI Swedenin kanssa. Toivottavasti saamme kumppaneita Suomestakin!

Toimitus ja tekoälyn ohjastaminen: Olli Tamminen

Kuvat: Microsoft Bingin Image Creator

Syöte: ”Kättelevät kädet. Toinen käsi Suomen lipulla kuvioitu, toinen käsi Viron lipulla kuvioitu.”


Palaa otsikoihin