Helsingin Sanomien Verkkoliite selvitti vuonna 1998 sanojen yleisyyttä suomalaisilla Internet-sivuilla. Yleisimmäksi sanaksi osoittautui the, englannin kielen määräinen artikkeli!

Suomen kielen sanaston yleisyyssuhteita on tutkittu aikaisemminkin (Saukkonen ym.: Suomen kielen taajuussanasto, 1979). Aineistona on käytetty mm. kauno- ja tietokirjallisuuden sekä lehtien tekstejä. Noin 430 000 sanaesiintymään perustuvan tilaston kymmenen yleisintä sanaa ovat olla, ja, se, ei, joka, että, tämä, hän, voida, saada.

Taajuuksia on vastikään laskettu huomattavasti suuremmastakin aineistosta, 21 miljoonan sanan tekstipankista (Heikkinen–Lehtinen–Lounela: Kielikello 3/2001). Kahdeksan yleisintä sanaa ovat samoja ja järjestyskin lähes sama.

Yleisimpien sanojen joukossa on verbejä (olla, kieltoverbi ei, voida, saada), pronomineja (se, joka, tämä, hän) ja konjunktioita (ja, että). Ensimmäinen substantiivi vanhemmassa tilastossa on aika (sijalla 20) ja ensimmäinen adjektiivi suuri (sijalla 22). Tekstipankin aineiston yleisin substantiivi on vuosi (sijalla 9).

Yleisimpien sanojen joukossa on verbejä, pronomineja ja konjunktioita.

Sanojen yleisyyksiä on laskettu myös puhutusta kielestä (Jussila ym.: Suomen murteiden taajuussanasto, 1992). Eri murteista koostuvan aineiston kärjessä on seuraava kymmenikkö: se, olla, ja, niin, sitten, kun, ne, ei, minä, että. Lista näyttää tutulta, ja se kuulostaa melkein repliikiltä. Aito puhehan on usein polveilevaa, katkeilevaa, hapuilevaa.

Murteiden aines perustuu kerrontaan ja muisteluun, mistä selittyy minä-pronominin ja sitten-adverbin yleisyys. Pronominit se ja ne ovat murteissa – ja puhekielessä ylimalkaan – taajakäyttöisiä siksi, että niillä viitataan paitsi eläimiin, esineisiin ja asioihin myös ihmisiin.

Olla-verbin sijoittumiseen tilaston kärkeen vaikuttaa olennaisesti sen käyttö aikamuotojen apuverbinä. Lisäksi suomessa olla-verbillä ilmaistaan sekä olemassa oleminen että omistaminen toisin kuin esimerkiksi ruotsissa (vara, hava) tai englannissa (be, have). Ja-sanalla rinnastetaan sekä sanoja että lauseita. Murteissa ja yleispuhekielessäkin esiintymiä lisää sen toinen merkitys, ’myös’ (”Matti tulee ja”).

Myös ruotsin yleisin sana on rinnastussana, och (Allén: Nusvensk frekvensordbok, 1970). Alussa mainitun Verkkoliitteen laatiman tilaston kärjessä näkyy niin ikään ja-sanan yleisyys: suomen ja on toisena, englannin and viidentenä.

Taajakäyttöisimmät sanat ilmaisevat erilaisia viittaus- jarakennesuhteita. Suomen kielen sanojen keskipituus on kahdeksan merkkiä, mutta yleisimmät sanat ovat 2–5-kirjaimisia, yksi- tai kaksitavuisia. Kärkipäässä on vanhoja omaperäisiä sanoja; vain ja on lainaa germaanisista kielistä.


Kirjoitus on julkaistu Helsingin Sanomien Kieli-ikkunassa 2.4.2002.(avautuu uuteen ikkunaan, siirryt toiseen palveluun)

Jaa