Siirry sisältöön
Haku

Vesa Heikkinen


Vesa Heikkinen. Kuva: Sonja Holopainen, Kotus.
Vesa Heikkinen. Kuva: Sonja Holopainen.

Vesa Heikkinen on suomen kielen dosentti ja erityisasiantuntija Kotimaisten kielten keskuksessa sekä www.kotus.fi-sivuston päätoimittaja.


rss

22.12.2016 10.08
Vesa Heikkinen

Somen suosituimmat sanat

Analyysin tulokset yllättävät. Mä ainaski olin vähän että mitä hä. #eiku

Monesti kuulee väitettävän, että sosiaalisessa mediassa käytettävä kieli on aivan erilaista kuin vaikkapa lehtikieli tai yleiskieli. Osittain väite varmaankin pitää paikkansa: sosiaalisessa mediassa todennäköisesti käytetään runsaasti puhekielisiä muotoja, erikoisia sanoja, lyhenteitä, hymiöitä ja niin edelleen.

Somessa tuntuu vallitsevan joulu ainainen, rento ja riehakas. Jopa toimittaja ja uutisankkuri Matti Rönkä, selvän ja asiallisen yleiskielen sanansaattaja, ryhtyy someillessaan irrottelemaan:

Hupsista keikkaa! 15 sekkaa ennen lähetystä istuin rauhassa toimituksessa... EIKÄ STUDIOON SAISI KOSKAAN JUOSTA. Lääh ja puuh, ei sydäriä. (Twitter, @MattiRnk, 20.12.2016.)

Some esitetään toisinaan myös suoranaisena uhkana. Kielen rapauttajana! Pilaajana!

Mutta ei huolta. Laajasta sosiaalisen median aineistosta tehdyn automaattisen analyysin perusteella somen kielessä on paljon samaa tuttua ja turvallista kuin muussakin kirjoitetussa kielessä.

Selvimmin yhtäläisyydet näkyvät, kun vertaillaan 20 yleisimmän suomen kielen sanan listoja:

* Suomen kielen taajuussanasto (1979): olla, ja, se, ei, joka, että, tämä, hän, voida, saada, mutta, niin, kuin, ne, kun, alue, myös, tai, kaikki, aika.

* Parole-korpus (Kielikello 3/2001): olla, ja, se, ei, että, joka, hän, tämä, vuosi, saada, mutta, myös, voida, kuin, kun, suomi, tulla, aika, mikä, tehdä.

* Sosiaalisen  median aineisto (Futusome 2016): olla, ja, ei, se, ne, että, mikä, tämä, joka, hyvä, niin, kun, voida, mutta, saada, tulla, jos, aika, nyt, .

Suomen kielen taajuussanasto (Saukkonen ym. 1979) sisältää noin 10 000 suomen kielen yleisintä sanaa. Aineistona on 1960-luvun kauno- ja tietokirjallisuutta, vuonna 1967 ilmestyneet sanoma- ja aikakauslehdet sekä vuosien 1968–1969 radion puheohjelmia.

Parole-korpuksen laajuus on noin 21 miljoonaa sanaa. Korpus koostettiin EU:n LE-PAROLE-hankkeen yhteydessä. Tarkoituksena oli luoda kustakin unionin kielestä vähintään 20 miljoonan sanan tekstipankki. Virallisesti hanke alkoi huhtikuussa 1996 ja päättyi huhtikuussa 1998.

Sosiaalisen median aineisto sisältää yli miljardi (1 000 000 000) sanaa, jotka on koottu keskustelupalstoilta, uutiskommenteista, blogeista, Facebookista, Twitteristä, Instagramista ja Youtubesta. Tekstejä eli sosiaalisen median viestejä aineistossa on yli 60 miljoonaa. Aineiston tekstit on julkaistu vuoden 2016 huhtikuun ja lokakuun välisenä aikana. Aineistoa on analysoitu Futusome-yrityksen SomeTutkija-työkalulla.

Isojen, eri lähteistä ja eri aikoina koottujen tekstiaineistojen vertailu osoittaa, että kielessä on paljon myös pysyvää. Yleisin perussanasto näyttää pysyvän vuosikymmenestä toiseen ja tekstilajista toiseen samankaltaisena.

Kiinnostavaa on, että tähän ydinsanastoon kuuluu eri sanaluokkien sanoja ja erityisen paljon sanoja, joilla on monenlaisia niin sanottuja kieliopillisia tehtäviä. Huomattavasti tarkempaa tutkimusta toki vaatii sen selvittäminen, miten yleisimpien sanojen käyttö mahdollisesti on muuttunut ja muuttumassa.

Sosiaalisen median tekstimäärät ovat valtavia ja karttuvat koko ajan kiivaaseen tahtiin. Suomenkielisillä some-sivustoilla on paljon myös osin tai kokonaan englanninkielisiä tekstejä, mikä kertoo omaa tarinaansa kielten sekakäytöstä ja rinnakkaiselosta. Tässä vertailussa some-aineistoista on jätetty huomiotta englanninkieliset sanat, vaikka niitäkin kärkeen oli pyrkimässä (the, to, and jne.).

Yksi kiinnostava yksityiskohta some-aineistosta on vielä hauska poimia. Paikan suosituimpien sanojen listalla on ottanut myös yksikön ensimmäisen persoonan persoonapronomini, ei tosin minä vaan – .

LÄHTEET

Futusomen verkkosivut
Maija Länsimäki: Suomen yleisin sana (Kieli-ikkuna 2.4.2002)
Vesa Heikkinen, Outi Lehtinen ja Mikko Lounela: Kuvia kirjoitetusta suomesta (Kielikello 3/2001)
Kaksikymmentä yleisintä sanaa koko Parolessa, sanomalehdissä, tietokirjoissa ja romaaneissa verrattuna Suomen kielen taajuussanastoon (Kielikello 3/2001)
Suomen kielen taajuussanaston esittely

LISÄTIETOA TEKSTIAINEISTOISTA JA NIIDEN ANALYSOINNISTA

Vesa Heikkinen, Mikko Lounela & Eero Voutilainen: Aineistot ja niiden käyttö tekstilajitutkimuksessa. (Genreanalyysi: tekstilajitutkimuksen käsikirja, Gaudeamus, 2012.)

Vesa Heikkinen, Mikko Lounela & Eero Voutilainen: Automaattinen analysaattori tekstilajitutkimuksessa. (Genreanalyysi: tekstilajitutkimuksen käsikirja, Gaudeamus, 2012.)

Genreanalyysi: tekstilajitutkimuksen käsikirja (teoksen esittely)

Mynämäen seppä v. 1929. Kuva: Suomen murteiden sana-arkisto.
Sosiaalinen media on täynnä sanaseppiä. Tässä takoo Mynämäen seppä pajassaan vuonna 1929. Kuva: Suomen murteiden sana-arkisto, Kotus.

Palaa otsikoihin | 2 puheenvuoroa

14.3.2017 11.57
Aarni ja Veikko
Kielen monimuotoistuminen
Some-kieli monipuolistaa suomenkieltä. Somessa kieli on melko samanlaista, kuin kaduilla kuultava puhekieli. Varsinkin uudempien sukupolvien keskuudessa muista kielistä otetut lainasanat korvaavat suomalaisia sanoja. Tavallaan yllämainittu ei ole ollenkaan huono asia. Nuorten englanninkielen taito vahvistuu joiltakin osin ja vanhempien sukupolvien ansiosta alkuperäinen kieli ei ole katoamassa minnekään.
14.3.2017 12.08
Jael ja Jasmin
Some kehittää
Sosiaalinen media kannustaa nuoria luovuuteen. Kun halutaan keksiä esimerkiksi kuvateksti tai twiitti, hyödynnetään vieraita kieliä omintakeisen tekstin luomiseksi. Usein näissä teksteissä esiintyy myös tuttuja suomenkielisiä sanoja ja ilmauksia, joita esiintyi yleisimpien suomen kielen sanojen listoilla. Sosiaalinen media on osa nykypäivää. Sen avulla nuoret voivat siis hyödyntää osaamistaan eri kielien osalta, mutta myös kehittää omaa äidinkieltään.