Korpukset ja kielen tutkiminen

Korpus on kielentutkimukseen tarkoitettu aineisto, jota voidaan käyttää tietokoneella. Se on siis sähköinen varasto tekstejä tai nauhoitteita. Korpuksia käytetään, kun haetaan tapauksia ilmaisujen käytöstä, lasketaan niiden yleisyyksiä tai arvioidaan tutkimusoletuksia. Kun tutkija haluaa selvittää jonkin sanan tai rakenteen käyttäytymistä, hän voi hakea korpuksesta sanan esiintymismuotoja, sen naapurisanoja ja hyviä käyttöesimerkkejä. Korpuksia voidaan toki käyttää myös muihin kielentutkimuksen kannalta olennaisiin tarkoituksiin, rajana ovat tutkijan taidot ja mielikuvitus. Suurin osa maailman korpuksista on tekstikorpuksia, vaikka kielitieteen perinteessä puhuttua kieltä pidetään usein kirjoitettua alkuperäisempänä.

Korpuksen asema kielen tutkimuksessa riippuu paljon tutkijan itsensä kielikäsityksestä – siitä, mitä kieli tutkijan mielestä on.

Eräässä koulukunnassa kieli nähdään ihmisen mieleen kuuluvana järjestelmänä, jonka perusteella hän voi tuottaa ja ymmärtää loputtoman määrän erilaisia kielenmukaisia ilmaisuja. Tutkimuskohteena on viime kädessä tämä järjestelmä, eivät sen perusteella tuotetut ilmaukset. Tästä luonnollisesti seuraa, että kielen tutkimisessa ensisijainen tiedon lähde on kielenpuhujan sisäinen näkemys, ja aineistot ovat välttämättä toisarvoisia.

Toista koulukuntaa edustaa käsitys, jossa kieli on kaikkien niiden ilmausten joukko, joita kielen käyttäjät tuottavat. Tästä joukosta voitaisiin tutkijan ihannemaailmassa täydellisillä keruu- ja otantamenetelmillä koota aineisto, joka kuvaa kaikkia kielenkäyttötilanteita ja niissä syntyneitä ilmaisuja tasapuolisesti – täydellinen korpus. Tätä korpusta tutkimalla saataisiin empiirisiä kuvauksia siitä, millaista kieli on. Tämäntyyppiset kuvaukset täyttäisivät luonnontieteellisenkin tutkimuksen kriteerit paremmin kuin intuitioon perustuvat kuvaukset. Eräältä kannalta katsoen ne olisivat siis tieteellisempiä. Täydellinen korpus on tietenkin utopiaa, mutta yhä useammat tutkijat maailmassa keräävät ja käyttävät yhä isompia ja monipuolisempia kieliaineistoja.

Mainittujen näkemysten lisäksi on toki muitakin. Esimerkiksi lingvistisessä tekstintutkimuksessa ja psyko- ja sosiolingvistisessä tutkimuksessa tutkimuskohteen merkittäviä ominaisuuksia voivat olla se, miltä teksti näyttää, missä tilanteessa se on kirjoitettu, missä tilanteessa se luetaan ja muut tekstiin liittyvät ei-kielelliset seikat. Monet näistä seikoista ovat sellaisia, että tieto niistä voidaan tarpeen vaatiessa sisällyttää sähköiseen aineistoon. Kaikkea ei kuitenkaan voi merkitä, eikä aineiston koostajan voi olettaa tietävän mitä kaikkia tietoja joskus tulevaisuudessa kaivataan. Esimerkiksi tieto sanomalehtijutun julkaisuajankohdasta tai puhujan kotipaikasta lisätään usein aineistoon. Jutun sijaintia lehden sivulla tai puhujan perhesuhteita taas ei välttämättä merkitä. Kuitenkin juuri nämä tiedot saattaisivat olla joillekin tutkijoille tärkeitä.

Korpusten merkitys kielen tutkimisessa ei siis ole itsestään selvä asia, eikä korpusten sisältö välttämättä sovi täsmälleen kaikkeen tutkimukseen. Yksi asia kuitenkin näyttää varmalta: sähköisten aineistojen merkitys kielen tutkimisessa vahvistuu jatkuvasti.

Kotimaisten kielten tutkimuskeskus, Kotus, on jatkuvasti mukana keräämässä erilaisia kieliaineistoja tutkijoiden käyttöön. Näihin kuuluu mm. sanalippuja, puhetilanteiden nauhoituksia ja eri tavoin rikastettuja sähköisiä tekstiaineistoja. Kotus on vastikään koostanut korpuksen 1900-luvun suomenkielisistä aikauslehtiteksteistä. Juuri valmistumassa on suomen ja suomenruotsin rinnakkaiskorpus ja suomalaisen viittomakielen korpus on suunnitteilla. Vanhastaan tutkimuskeskuksessa on mm. kirjalliseen muotoon saatettuja murrehaastatteluja, eri murrealueiden sananparsia ja vanhoja tekstejä kirjakielemme syntyajalta 1500-luvulta 1800-luvun lopulle saakka. Suomen suurinta sähköistä korpusta, Kielipankkia, hallinnoi kuitenkin tieteen tietotekniikan keskus, CSC. Kielipankki sisältää noin 230 miljoonaa sanaa suomen ja suomenruotsin aineistoja.

Monet Kotuksen aineistoista ovat sellaisia, että niitä ei voi tarjota vapaasti kansalaisten käyttöön. Tämä johtuu muun muassa tekijänoikeuslainsäädännöstä ja tarpeesta suojata haastateltujen ja heidän lähipiirinsä yksityisyyttä – näin esimerkiksi yksityishenkilöiden haastatteluihin perustuvissa murreaineistoissa. On sellaisiakin aineistoja, joissa tällaisia ongelmia ei ole. Kotus pyrkii tuomaan lähitulevaisuudessa – vielä tämän vuoden aikana – verkon kautta kaikkien kansalaisten saataville tällaisia aineistoja.

MIKKO LOUNELA

Esitetty Ylen Radio 1:ssä 16. ja 17.6.2006