Kaikille tuttu englantilainen lainasana, data, perustuu latinan dare ’antaa’ -sanaan ja sen datum ’annettu’ -johdokseen. Kielitoimiston sanakirjassa datan kerrotaan olevan asian säännönmukainen esitys viestittävässä tai käsittelykelpoisessa muodossa. Sanalla on myös varjoihin jäänyt suomenkielisempi vaihtoehto anne. Datalla voidaan usein viitata myös tietoon.

Tässä kirjoituksessa tunnustelemme kieltä koskevan tiedon perustaa Kotuksen arkistojen kautta: miten elävä kieli muuttuu arkistoitavaksi dataksi?

Aistittavia ärsykkeitä

Tietokäsitystämme ja sen muutosta informaatioyhteiskunnallisessa murroksessa tutkinut filosofi Ilkka Niiniluoto on 1980-luvulla julkaistuissa teoksissaan todennut datalla tai daatoilla tarkoitettavan numeerisia, kvantitatiiviseen muotoon koodattuja aineistoja. Periaatteessa datalla voidaan katsoa tarkoitettavan kaikkia aineistoja, jotka muodostuvat osana tietokoneita tai muita vastaavia laitteita hyödyntävää tiedonkäsittelyä.

Data voi olla myös sensorista, jolloin sillä tarkoitetaan jotain aistittavaksi tarkoitettua tietoa tai ärsykettä. Tällaista sensorista dataa voi siis olla esimerkiksi säätilaan liittyvät yksityiskohdat, puheen äänteet ja paperilla näkyvät kirjaimet, joista datan – anteen – käsittelijä muodostaa tietoa omalla itselleen ominaisella jäsentelytavallaan.

Ihminen muodostaa mielessään käsityksen ilman lämpötilasta ja valon määrästä, ymmärtää kielenosaamisensa perusteella sen, mitä hänelle sanotaan, ja lukee kirjaimista muodostuvan tekstin. Tietokone puolestaan muodostaa sensorisesta datasta merkkijonoja, joita se tulkitsee ohjelmointinsa mukaisesti. Se myös mahdollisesti kääntää muodostamansa tiedon ihmiselle helpommin tulkittavaan muotoon.

Kaiken takana on dataa

Nykymaailmassa tuntuu usein siltä, että yksilöiden ja yhteisöjen tekemät valinnat perustetaan ainoastaan dataan. Voidaan siis todeta, että kaiken takana on dataa.

Dataa käsitellään myös Kotimaisten kielten keskuksessa. Eri osastoissa ja toiminnoissa muun muassa ylläpidetään kotimaisten kielten keskeisiä normistoja ja sanatietokantoja sekä toimitetaan sanakirjoja, jotka kuvaavat nykyistä ja mennyttä kielenkäyttöä. Tämä kaikki ja siitä viestiminen tapahtuu tietotekniikkaa hyödyntäen. Silti Kotuksessa työskennellään paljon myös fyysisten paperien kanssa, erityisesti arkistoaineistojen parissa. 

Aineellisia ja aineettomia arkistoja

Niin, ne arkistoaineistotkin voivat olla dataa ja sitähän ne näkökulmasta riippuen usein ovatkin. Informaatioteknologisen käänteen myötä eri arkistoihin on muodostunut runsaasti syntysähköisiä aineistoja, joilla ei ole analogista historiaa. Analogisia aineistoja ja niiden metatietoja pyritään myös jatkuvasti saattamaan sähköiseen muotoon, jotta niiden saavutettavuus parantuisi.

Arkistotyö ei olekaan nykymuodossaan ainoastaan elokuvallisen romanttista vanhojen koteloiden ja kansioiden ylläpitoa ja järjestelyä, vaan pääosin työskentely tapahtuu näppäimistön äärellä erilaisia tietojärjestelmiä ja tuottavuusohjelmistoja hyödyntäen.

Vaihtelua työtehtävissä tietysti on, eiväthän aineistot ylläpidä ja suojaa itseään. Esimerkiksi Suomen murteiden sanakirjan toimittamiseen kuuluu nimenomaan sanalippujen ja lippaiden käsittelyä ja järjestelyä. Paperinen murrearkisto on edelleen elävä arkisto: liput liikkuvat, viittauksia lisätään, ja jo valmiit sana-artikkelit täydentyvät uusien lippulöydösten myötä. Arkistoa myös järjestellään alati uudelleen.

Analogiset aineistot kulkevat myös digitalisoinnin prosesseissa mukana. Tietojärjestelmiin kirjataan kuvauksia aineistojen sisällöistä ja usein myös ulkoisesta olemuksesta. Aineiston karttumiseen liittyvät tiedot ovat olennaisia: kuka aineistoa on kartuttanut ja mitä tai keitä toimijoita eri rooleissa siihen liittyy? Mukaan liitetään usein myös teknisiä huomioita ja tietoja analogisen aineiston sijainnista. Myös aineistoyksikön liitännäisyydet kokonaisuuksiin ovat keskeisiä: mihin sarjoihin, kokoelmiin ja arkistoihin tai muuhun vastaavaan aineisto kuuluu ja mitä aihepiirejä asia koskettaa?

Ovatko analogiset aineistot myös dataa? Kysymykseen on kaksi vastausta. Käsiteltävässä muodossa olevaa tietoahan ne ehdottomasti ovat. Kuitenkin, jos data käsitetään sähköisesti käsiteltävänä potentiaalisena tietona, ovat analogiset aineistot pikemminkin digitaalisten ilmentymiensä ja järjestelmiin lisättävien tietojen taustalla vaikuttavia tietosisältöjä.

Suomen murteiden sanakirjaa XML-muotoisena. Kuvankaappaus: Sakari Korpikallio, Kotus.

Kotuksen kieliaineistot

Kotus ei nykymuodossaan ole varsinainen aineistotalo tai muistiorganisaatio, vaan valtionhallinnon asiantuntijavirasto. Hallinnoimme kuitenkin laajoja ja monimuotoisia kieli- ja kulttuuriperintöaineistoja. Kuuteen erilliseen arkistoon on jakautunut noin 2,7 hyllykilometriä analogisia aineistoja, joihin on tallennettu tietoa kielestä ja muista kulttuuriperinnön osa-alueista.

Arkistoissa lepää jopa yli satavuotiaita paperisia sanalippuja. Kuten edeltä kävi ilmi, monet sanaliput kuitenkin joutuvat tänäkin päivänä lopettamaan leponsa ja lähtemään töihin. Esimerkiksi Suomen murteiden sanakirjaa toimitetaan murrearkiston fyysisten sanalippujen pohjalta. Kielihistoriallinen paperiaineisto on siis kiinteästi nykypäivää ja osa arkista työtä Kotuksessa.

Käsin kirjoitettujen sanalippujen mukanaan kantama, kieltä koskeva tieto siirtyy sanakirjatoimittajan pöydälle ja siten lopulta kenen tahansa sanakirjan netistä avaavan kävijän silmien eteen. Lopuksi pohdimmekin vielä sitä, millaisten vaiheiden kautta elävästä kielenkäytöstä tulee kieliaineistoja.

Kielestä aineistoksi

Niin sanakirjat, Kotuksen erilaisten julkaisujen kielitieto kuin kielenhuollon suositukset perustuvat lopulta kielenkäytöstä tehtyihin havaintoihin, ja havainnot puolestaan perustuvat konkreettisiin kielenkäyttötilanteisiin ja käytössä esiintyneisiin kielenaineksiin. Ei siis ole yhdentekevää, millaisia kieltä koskevan tiedon pohjana toimivat aineistot ovat.

Kielitietoa saadaan kieltä tutkimalla, ja empiirinen kielentutkimus ylipäänsä perustuu jonkin rajatun ja jollakin perusteella valitun aineiston analyysiin. Kielen tutkiminen ei ala siitä pisteestä, jossa tutkijan edessä on valmis aineisto, jota hän ryhtyy perkaamaan. Olennainen osa tutkimusta on jo aineiston valinta, rajaus ja kerääminen.

Ennen kuin kasassa on aineisto, on jo tapahtunut kaikenlaista: on kenties äänitetty asiointikeskustelua tai haastattelupuhetta ja litteroitu siitä tekstiä, tai on poimittu esiintymiä tietystä kielen ilmiöstä esimerkiksi sanomalehtiaineistosta, joka puolestaan on kerätty joistakin lehdistä joltakin aikaväliltä. Aineistoa koskevia valintoja tehdään kulloisenkin tutkimuskysymyksen ja tavoitteen mukaan. Kielentutkija siis tuottaa aineistonsa.

Jos ajatellaan arkistossa majailevaa yksittäistä sanalippua, taustalla voi olla kielenkäyttäjän itse Sanastaja-lehteen lähettämä lippu tai elävässä elämässä puheen virrasta poimittu sana tai lause. Kielenaines on tallennettu oheistietoineen jossakin tietyssä ajassa ja paikassa – esimerkiksi Raumalla kesällä 1928. Sanatiedon muistiin merkitsijä on kopioinut kuulemansa sanalippuun, ja Sanakirjasäätiön työntekijä on hakusanoittanut sen, lisännyt metatietoja (kuten keruupiirin), järjestänyt lippaisiin ja niin edelleen.

Näin kielenkäytöstä vaihe vaiheelta tuotetaan arkistoitua kielitietoa. Murrearkistosta kielenpalanen jatkaa matkaansa sanakirjatoimittajan pöydälle, josta käsin se on mukana sana-artikkelin luomisessa. Lopulta verkossa julkaistaan sana-artikkeli, jota kuka tahansa pääsee silmäämään.

Suomen murteiden sana-arkiston aineistoja. Kuva: Sakari Korpikallio, Kotus.

Kieltä, puhetta, tekstiä

Kun puhutusta kielestä tehdään tekstiä, se muuttuu perustavasti. Tätä havainnollistaa hyvin vilkaisu keskustelunanalyyttiseen litteraattiin. Tarkassa litteroinnissa nimittäin näkyvät niin sekunnin kymmenyksien tauot kuin sisään- ja uloshengitykset sekä takeltelut ja itsekorjaukset.

Puhuttujakin kieliaineistoja on sellaisinaan saatavilla verkossa: murre-esimerkkejä voi kuunnella Kotuksen verkkosivuilta Suomen murrekirjan äänitteet -sivulta. Julkaisemattomia äänitteitä on mahdollista tilata ottamalla yhteyttä Kotuksen arkistoihin (linkki tämän kirjoituksen lopussa).

Kaikki kielentutkimus ei tietenkään käsittele puhuttua kieltä, ja tekstintutkimus on jo vakiintunut kielentutkimuksen ala. On hyvä hoksata, että myös tekstiaineistot tuotetaan: kun kirjoitettua tekstiä valitaan aineistoksi ja sijoitetaan uuteen ympäristöön eli ensin tutkijan aineistokokoelmaan ja sitten esimerkkikatkelmaksi vaikkapa Kielikello-artikkeliin, se on käynyt läpi muutoksen kielenkäytöstä aineistoksi.

Tekstin merkitys muuttuu, kun se siirretään kontekstista toiseen. Uudessa kehyksessä teksti luetaan ja tulkitaan hieman eri tavalla: vaikkapa kiinnostavan uutisen tai jännittävän kertomuksen katkelma voi päätyä aineistoesimerkiksi havainnollistamaan jotakin kielenpiirrettä.

Pysäytyskuvaa liikkuvasta kielestä

Mitä datan määritelmä, arkistot ja kielentutkimuksen aineistokysymykset tekevät samassa kirjoituksessa, saatat miettiä tänne asti päästyäsi. Jos halutaan ymmärtää kieltä ja tuottaa siitä tietoa, täytyy tarkastella kielenkäyttöä, ja jos kielenkäyttöä halutaan tarkastella, siitä on ensin saatava kiinni.

Tämä kiinni ottaminen on aineistojen – datan – keräämistä ja tuottamista. Siksi Kotuksen arkistojen hyllyissä on sanalippuja pullistelevia lippaita, eri kieliä ja kielimuotoja edustavia kirjoituksia sekä kieltä käsittelevää oheisaineistoa, ja siksi kieltä käsittelevissä tutkimusartikkeleissa tehdään selkoa aineiston valinnasta.

Kieliaineistojen keruu ja käsittely ei myöskään lopu, vaan asiantuntijat haravoivat ajassa elävää kieltämme päivittäin muodostaen havaintoja kielestä tässä, nyt ja tulevaisuudessa.

Kieltä koskeva tieto, myös Kotuksen arkistoihin talletettu valtava kuva suomen kielen muodoista ja käytöstä, perustuu havaintoihin. Havaintoja varten on pitänyt kerätä kieltä, ja kielen keruu tarkoittaa käytännössä datan luomista. Datan takana on alituisessa liikkeessä oleva, elävä kieli ja sen ympärillä toimiva kulttuuri.


Painettuja teoksia

Ilkka Niiniluoto (1980): Johdatus tieteenfilosofiaan – Käsitteen ja teorianmuodostus. Otava.

Ilkka Niiniluoto (1989): Informaatio, tieto ja yhteiskunta. Filosofinen käsiteanalyysi. Valtionhallinnon kehittämiskeskus.


Kirjoittajat joutuvat työstämään tekstejään yhteisnimellä Hen- ja Sakari, sillä lempinimi Hesari oli jo varattu.

Jaa