Vesa Heikkinen on suomen kielen dosentti ja erityisasiantuntija Kotimaisten kielten keskuksessa sekä www.kotus.fi-sivuston päätoimittaja.
Somen suosituimmat sanat
Monesti kuulee väitettävän, että sosiaalisessa mediassa käytettävä kieli on aivan erilaista kuin vaikkapa lehtikieli tai yleiskieli. Osittain väite varmaankin pitää paikkansa: sosiaalisessa mediassa todennäköisesti käytetään runsaasti puhekielisiä muotoja, erikoisia sanoja, lyhenteitä, hymiöitä ja niin edelleen.
Somessa tuntuu vallitsevan joulu ainainen, rento ja riehakas. Jopa toimittaja ja uutisankkuri Matti Rönkä, selvän ja asiallisen yleiskielen sanansaattaja, ryhtyy someillessaan irrottelemaan:
Hupsista keikkaa! 15 sekkaa ennen lähetystä istuin rauhassa toimituksessa... EIKÄ STUDIOON SAISI KOSKAAN JUOSTA. Lääh ja puuh, ei sydäriä. (Twitter, @MattiRnk, 20.12.2016.)
Some esitetään toisinaan myös suoranaisena uhkana. Kielen rapauttajana! Pilaajana!
Mutta ei huolta. Laajasta sosiaalisen median aineistosta tehdyn automaattisen analyysin perusteella somen kielessä on paljon samaa tuttua ja turvallista kuin muussakin kirjoitetussa kielessä.
Selvimmin yhtäläisyydet näkyvät, kun vertaillaan 20 yleisimmän suomen kielen sanan listoja:
* Suomen kielen taajuussanasto (1979): olla, ja, se, ei, joka, että, tämä, hän, voida, saada, mutta, niin, kuin, ne, kun, alue, myös, tai, kaikki, aika.
* Parole-korpus (Kielikello 3/2001): olla, ja, se, ei, että, joka, hän, tämä, vuosi, saada, mutta, myös, voida, kuin, kun, suomi, tulla, aika, mikä, tehdä.
* Sosiaalisen median aineisto (Futusome 2016): olla, ja, ei, se, ne, että, mikä, tämä, joka, hyvä, niin, kun, voida, mutta, saada, tulla, jos, aika, nyt, mä.
Suomen kielen taajuussanasto (Saukkonen ym. 1979) sisältää noin 10 000 suomen kielen yleisintä sanaa. Aineistona on 1960-luvun kauno- ja tietokirjallisuutta, vuonna 1967 ilmestyneet sanoma- ja aikakauslehdet sekä vuosien 1968–1969 radion puheohjelmia.
Parole-korpuksen laajuus on noin 21 miljoonaa sanaa. Korpus koostettiin EU:n LE-PAROLE-hankkeen yhteydessä. Tarkoituksena oli luoda kustakin unionin kielestä vähintään 20 miljoonan sanan tekstipankki. Virallisesti hanke alkoi huhtikuussa 1996 ja päättyi huhtikuussa 1998.
Sosiaalisen median aineisto sisältää yli miljardi (1 000 000 000) sanaa, jotka on koottu keskustelupalstoilta, uutiskommenteista, blogeista, Facebookista, Twitteristä, Instagramista ja Youtubesta. Tekstejä eli sosiaalisen median viestejä aineistossa on yli 60 miljoonaa. Aineiston tekstit on julkaistu vuoden 2016 huhtikuun ja lokakuun välisenä aikana. Aineistoa on analysoitu Futusome-yrityksen SomeTutkija-työkalulla.
Isojen, eri lähteistä ja eri aikoina koottujen tekstiaineistojen vertailu osoittaa, että kielessä on paljon myös pysyvää. Yleisin perussanasto näyttää pysyvän vuosikymmenestä toiseen ja tekstilajista toiseen samankaltaisena.
Kiinnostavaa on, että tähän ydinsanastoon kuuluu eri sanaluokkien sanoja ja erityisen paljon sanoja, joilla on monenlaisia niin sanottuja kieliopillisia tehtäviä. Huomattavasti tarkempaa tutkimusta toki vaatii sen selvittäminen, miten yleisimpien sanojen käyttö mahdollisesti on muuttunut ja muuttumassa.
Sosiaalisen median tekstimäärät ovat valtavia ja karttuvat koko ajan kiivaaseen tahtiin. Suomenkielisillä some-sivustoilla on paljon myös osin tai kokonaan englanninkielisiä tekstejä, mikä kertoo omaa tarinaansa kielten sekakäytöstä ja rinnakkaiselosta. Tässä vertailussa some-aineistoista on jätetty huomiotta englanninkieliset sanat, vaikka niitäkin kärkeen oli pyrkimässä (the, to, and jne.).
Yksi kiinnostava yksityiskohta some-aineistosta on vielä hauska poimia. Paikan suosituimpien sanojen listalla on ottanut myös yksikön ensimmäisen persoonan persoonapronomini, ei tosin minä vaan – mä.
LÄHTEETFutusomen verkkosivut
Maija Länsimäki: Suomen yleisin sana (Kieli-ikkuna 2.4.2002)
Vesa Heikkinen, Outi Lehtinen ja Mikko Lounela: Kuvia kirjoitetusta suomesta (Kielikello 3/2001)
Kaksikymmentä yleisintä sanaa koko Parolessa, sanomalehdissä, tietokirjoissa ja romaaneissa verrattuna Suomen kielen taajuussanastoon (Kielikello 3/2001)
Suomen kielen taajuussanaston esittely
LISÄTIETOA TEKSTIAINEISTOISTA JA NIIDEN ANALYSOINNISTA
Vesa Heikkinen, Mikko Lounela & Eero Voutilainen: Aineistot ja niiden käyttö tekstilajitutkimuksessa. (Genreanalyysi: tekstilajitutkimuksen käsikirja, Gaudeamus, 2012.)
Vesa Heikkinen, Mikko Lounela & Eero Voutilainen: Automaattinen analysaattori tekstilajitutkimuksessa. (Genreanalyysi: tekstilajitutkimuksen käsikirja, Gaudeamus, 2012.)
Genreanalyysi: tekstilajitutkimuksen käsikirja (teoksen esittely)
Palaa otsikoihin | 2 puheenvuoroa