Vesa Heikkinen on suomen kielen dosentti ja erityisasiantuntija Kotimaisten kielten keskuksessa sekä www.kotus.fi-sivuston päätoimittaja.
Kieliteknologiablues
Se on pian täällä, digitaalinen vallankumous. Mutta olemmeko valmiita? Kun perehtyy alan asiantuntijoiden kirjoittamaan raporttiin aiheesta, alakulo valtaa väkisinkin alaa. Uhkaako meitä sittenkin digitaalinen kuolema?
Raportin Suomen kieli digitaalisella aikakaudella mukaan (s. 2) tieto- ja viestintätekniikka valmistautuu nyt vallankumoukseen: Tietotekniikan seuraava sukupolvi hallitsee ihmiskielen niin laajasti, että erikieliset käyttäjät pystyvät viestimään keskenään kukin omalla äidinkielellään. Laitteet tottelevat helppokäyttöisiä äänikomentoja ja etsivät tietoa maailman digitaalisista tietovarannoista. Kehittyneen kieliteknologian avulla voidaan tehdä automaattisia käännöksiä ja avustaa tulkkeja. Teknologia auttaa tekstien tiivistämisessä ja monenlaisissa opiskelutarpeissa. Se auttaa myös maahanmuuttajia oppimaan suomea.
Kieliteknologia on monessa mukana. Mahdollisuuksia on paljon niin opettamisessa kuin viihdeteollisuudessakin, niin mobiileissa tietopalveluissa kuin sosiaalisessa mediassakin. Raportissa (s. 6–7) korostetaan kieliteknologian merkitystä eurooppalaisen liike-elämän, organisaatioden ja koulutuksen kehittymisessä: kansalaisten tulee voida kommunikoida vapaasti ja ristiin rastiin kielten rajojen yli.
Mutta pelkona on, että tämä kaikki toimiikin vain niin sanotuilla suurilla kielillä, siis niillä, joiden osaajia on niin paljon, että voidaan puhua ”kaupallisesta potentiaalista”. Tässä katsannossa Suomi suomineen on – jos tässä uskaltaa käyttää talousjargonia – pieni markkina.
Jo nyt englannin ja suomen välillä on ”ammottava teknologinen kuilu, joka tätä nykyä vieläpä levenee”, kuten raportti (s. 2) maalailee. Vielä 1980- ja 1990-luvuilla kieliteknologista perustutkimusta rahoitettiin Suomessa rohkeasti ja tuloksia saavutettiin, jopa kansainvälisesti merkittäviä. Nyt tilanne on kuitenkin se, että Suomi on menettämässä rooliaan kieliteknologian edistäjänä.
Kieliteknologiakysymykset liittyvät kielten kohtaloihin. Raportissa mainitaan (s. 1) arvio, jonka mukaan vähintään 2000 maailman 6000 kielestä kuolee sukupuuttoon tulevina vuosikymmeninä.
Jotta suomen kieli pärjäisi digitaalisen vallankumouksen pyörteissä ja uudella digiajalla, tarvitaan kieliteknologista tutkimusta, siis suomen kielen ominaislaadun huomioon ottavaa kieliteknologista tutkimusta. Siihen pitäisi löytyä rahaa juuri nyt, alkaa olla jo kiire.
Raportti (s. 32) kutsuu kaikkia toimijoita mukaan: politiikkaa, tutkimusta, liike-elämää ja koko yhteiskuntaa. Vetoomus on ehkä muotoilultaan hieman mahtipontinen, mutta aiheellinen.
Kuten raportti karvaasti osoittaa (s. 33–34) kieltenvälisessä vertailussa ei suomi kovin hyvin menesty. Suomen kieleen on panostettu vähemmän resursseja kuin Euroopan suuriin kieliin.
Kieliteknologisista sovelluksista ainoastaan puheenkäsittelyssä suomi on luokassa ”kohtuullinen tuki”. (”Tuki” viitaa tässä siihen, kuinka paljon mihinkin kieliteknologian osa-alueeseen on panostettu.) Tekstianalyysissa sekä puhe- ja tekstiaineistoissa suomi on luokassa ”osittainen tuki”. Konekäännöksissä suomi on luokassa ”heikko tai olematon tuki”. No, toisaalta luokkaan ”hyvä tuki” näissä kaikissa yltää vain – englanti.
Raportin ankeahko loppupäätelmä (s. 32) on se, että Suomessa ollaan jäämässä jälkeen keskeisten digitaalisten resurssien kehittämisessä. Huonompi homma, sillä juuri digitaaliset resurssit ovat, kuten asiantuntijat painottavat, ”oleellisia kielen säilymisen turvaamiseksi”.
LINKKEJÄ
Tästä pääsee raporttiin
Tästä pääsee META-NETin ”valkoisiin kirjoihin”: META-NET White Paper Series
Tästä pääsee Tiede-lehden artikkeliin Euroopan kieliä uhkaa digitaalinen
kuolema
Palaa otsikoihin | 9 puheenvuoroa
"Tietotekniikka muuttaa jokapäiväistä elämäämme." Hallelujaa, tätä ei kukaan vielä tiennytkään! Kun aloitus on tuollainen, ei jatkolta kannata paljoa odottaa.
Taitaa olla taas yksi write-only "selvitys".
Jos suomen kieli on tuollaisten sepustusten varassa, kannattaa ruveta jättämään jäähyväisiä. Mutta ei sentään taida olla, vaikka sellaisia esitelläänkin ikään kuin niillä olisi suurikin merkitys.
Fintwol on hyvä havaitsemaan muun muassa suomen kielen morfologista monitulkintaisuutta. Millä tavalla monitulkintaisia ovat esimerkiksi muodot ”tarttumistapa”, ”rintalasta” ja ”kiiltonahan”? Kokeilkaa yllä mainitulla demolla.
Eli tekniikka rikkaan kielemme analysointiin on.
Kiitos kommenteista!
Kotuksessakin on käytetty mainittua analysaattoria. Ks. esim. Mikko Lounelan julkaisuista:
http://varia.kotus.fi/~mlounela/julkaisut.html
Ks. myös tätä:
http://www.kotus.fi/files/2144/Heikkinen_Lounela_Uosukainen_Twollatun_tekstiaineiston_disambiguointi.pdf
Suomen kielen analysaattoreista lisää artikkelissa Automaattinen analysaattori tekstilajitutkimuksessa (teoksessa Heikkinen ym. toim. 2012: Genreanalyysi – tekstilajitutkimuksen käsikirja, sivut 372–391).
Suomen kielen lauseenjäsentimien demoja ei taida enää olla netissä. Konekäännösohjelmia kyllä pääsee kokeilemaan, mutta niiden osana oleviin jäsentimiin taitaa kohdistua niin vähän kiintoa, ettei niitä tarvitse pitää nähtävillä. Muutenkin lauseenjäsennys lienee sellainen kieliopin osa-alue, että sitä vain harva suomalainen enää hallitsee.
* http://www.ling.helsinki.fi/cgi-bin/hfst-tagger/tagger-demo.pl (Demo for HFST POS-taggers)
* http://www.ling.helsinki.fi/cgi-bin/omor/omordemo.bash (HFST).
Olemme Turun yliopistossa kehittämässä vapaasti saatavilla olevaa puupankkia eli syntaksimerkinnöillä varustettua kieliaineistoa sekä parseria, joka analysoi virkkeen syntaksirakenteen automaattisesti. Molemmat ovat kieliteknologian perusresursseja, joita käytetään esimerkiksi hakukoneiden ja konekäännöksen kehittämiseen. Tilanne ei siis ole niin huono miltä se saattaa vaikuttaa!
Kaikki ryhmämme aineistot ovat vapaasti saatavilla kotisivuillamme bionlp.utu.fi, ja puupankin tämänhetkistä versiota voi selailla osoitteessa http://bio3-ett.utu.fi/view/tdt/ . Tervetuloa kokeilemaan!
Siellä on englanninkielistä kuvausta ja valmiita jäsennyksiä, joissa käytetyt merkinnät eivät kyllä ihan oppikoulupohjalta avaudu; peruskoulupohjalta tilanne lienee vielä huonompi.