Kotimaisten kielten keskuksen aineistopolitiikan tavoitteena on julkaista mahdollisimman monia aineistoja CC-BY-lisensoituina. Tämä tarkoittaa sitä, että aineistoa saa käyttää hyvin vapaasti erilaisissa tarkoituksissa, kunhan mukana on viittaus Kotimaisten kielten keskukseen.

Avoimesti lisensoitu koneluettava aineisto mahdollistaa esimerkiksi sanakirjojen yhdistämisen muihin tietokantoihin, sanastoihin ja korpuksiin. Tällaisia yhdisteltyjä aineistoja on mahdollista julkaista myös uusina rikastettuina aineistoina. Huomattakoon tämän lisäksi, että eri sanakirjojen esimerkkilauseet ovat niin moninaisia ja runsaita, että niitä voisi hyvin ajatella omina erilliskorpuksinaan.

Helppoa ja selkeää

Nyt avoimesti lisensoidut aineistot ovat olleet jo vuosia avoimesti käytettävissä verkossa. Tarkkoja lisenssitietoja ei kuitenkaan ole mainittu eikä aineistoa ole voinut ladata kokonaisuudessaan.

Aineiston avoin lisensointi on äärimmäisen tärkeää ja noudattaa avointen aineistojen suhteen käytettyjä FAIR-periaatteita. Ilman lisenssiä aineistoa ei ole turvallista käyttää, ellei kaikesta ole erikseen sovittu kirjallisesti aineiston tekijöiden kanssa. Tämä ei ole tarkoituksenmukaista, ja Kotukselle onkin ensiarvoisen tärkeää, että tutkijat voivat käyttää aineistoja mahdollisimman helpolla ja selkeällä tavalla. CC-BY-lisenssi on yksi parhaista tavoista varmistaa tämän toteutuminen.

Myös käyttökokemukset avoimiksi

Koska sähköisten aineistojen julkaisu hakee vielä muotoaan, arvostamme latauspakettiin liittyviä käyttökommentteja ja palautetta. Jos käytät aineistoa tutkimuksessasi, tiedon julkaisuista voi aina lähettää myös Kotukseen.

Avointen aineistojen hengessä toivomme myös, että käyttäjät jakaisivat avoimesti aineiston käsittelyssä käyttämänsä ohjelmat ja kokemukset, jolloin jokaisen käyttäjän ei tarvitse keksiä uudestaan, kuinka menetellä mahdollisesti monille tutkijoille vielä vieraan XML-muotoisen aineiston kanssa. Tämä varmistaa myös tutkimuksien toistettavuuden uusien aineistoversioiden kanssa. Ladattavia aineistopaketteja tullaan päivittämään aina samanaikaisesti verkkoversioiden kanssa, kuten keväällä 2019 on tehty Suomen murteiden sanakirjan kanssa.

Kotuksen aineistoista Karjalan kielen sanakirja on jo aiemmin julkaistu XML-muotoisena latauspakettina sanakirjan yhteydessä. Nyt avattujen latauspakettien myötä seuraavat aineistot ovat liittyneet samaan avoimen tieteen eturintamaan.

Karjalan kielen sanakirjaa XML-muotoisena. Kuvakaappaus.
Karjalan kielen sanakirjaa XML-muotoisena. Kuvakaappaus: Kotus.

Álgu-tietokanta

Álgu-tietokanta on saamelaiskielten etymologinen tietokanta. Tietokantaa alettiin kartuttaa Kotimaisten kielten keskuksessa vuonna 2002, ja siinä on yhteensä noin 120 000 sanaa.

Álgu-tietokannan latauspaketti on XML-muotoinen versio tietokannasta, joka sisältää kaiken verkkoversion aineiston. Aineisto on luotu suoraan Álgun MySQL-tietokannasta.

Vanhan kirjasuomen sanakirja

Vanhan kirjasuomen sanakirja on myös XML-muotoinen paketti, mutta tarkka rakenne on erilainen kuin Álgussa, sillä sanakirjaa ei ole tehty Álgun tapaan tietokantamuotoon. Sanakirjassa noudatetaan samaa ISO-standardia kuin Karjalan kielen sanakirjassa.

Vanhan kirjasuomen sanakirjan teko on vielä kesken. Se jatkuu useita vuosia. Sanakirjaan lisätään uusia sanoja jatkuvasti ja päivitykset viedään verkkoon noin kerran vuodessa.

Sanakirja liittyy useisiin vanhan kirjasuomen korpuksiin, jotka ovat käytettävissä Kielipankin Korp-palvelussa. Palvelussa voi tehdä erilaisia hakuja näihin teoksiin.

Suomen murteiden sanakirja

Suomen murteiden sanakirjan teko jatkuu vielä vuosikymmeniä. Sanakirjan verkkoversio sisältää tällä hetkellä sana-artikkelit a–lysmä. Aineisto on silti jo niin laaja, että monenlainen käyttö on varmasti mahdollista.

Esimerkit kattavat runsaasti Suomen eri pitäjiä. Tältä osin aineisto täydentää erinomaisesti muita avoimesti julkaistuja suomen murreaineistoja, mukaan lukien Kielipankissa olevat Suomen kielen näytteitä -sarja ja Lauseopin arkiston korpus.


Jaa