Siirry sisältöön
Haku

Kotuksen uutiset 2021

1.3.2021 10.26

Nykysuomen sanakirja nyt verkossa

”Näköisjulkaisu on iso voitto.”

Nykysuomen sanakirja on julkaistu verkossa pdf-muodossa tekstiskannattuna näköisjulkaisuna. Julkaisusta on mahdollista tehdä merkkijonohakuja eli käytännössä hakea sanoja, ja saavutettavuuteen on pyritty kiinnittämään huomiota.

Legendaarinen Nykysuomen sanakirja, tuttavallisesti Nykäri, julkaistiin kuutena niteenä vuosina 1951–1961. Vuosi 2021 on siis sanakirjan ensimmäisen osan ilmestymisen 70-vuotisjuhlavuosi ja viimeisen osan ilmestymisen 60-vuotisjuhlavuosi.

Nykysuomen sanakirjan logo.
Nykysuomen sanakirjan logo.

Vapaasti verkossa

Alkujaan Suomalaisen Kirjallisuuden Seuran toimittaman ja WSOY:n kustantaman teoksen tekijänoikeudet ja kustannusoikeudet ovat nykyisin Kotuksella. Kotuksen julkaisustrategiaan kuuluu asiantuntijatyön tulosten julkaiseminen vapaasti verkossa kaikkien käyttöön. Kotus sai Nykysuomen sanakirjan julkaisemiseen apurahan Suomen tiedekustantajien liitolta.

Kotuksen suunnittelupäällikön Lotta Jalavan mukaan vuosikymmeniä sitten julkaistun teoksen saaminen verkkoon tässä muodossa on hyvä saavutus. ”Kun ottaa huomioon sen, että kyse on 1950- ja 1960-lukujen kirjasta, on iso voitto, että näköisjulkaisusta saatiin näinkin käyttökelpoinen.”

”Vaikka näköisjulkaisu ei vastaakaan toiminnoiltaan tietokantapohjaista ja käyttöliittymältään modernia verkkosanakirjaa, se on paljon tyhjää parempi”, Jalava iloitsee.

Ennelintu ja muita Nykysuomen sanakirjan sana-artikkeleita.
Apuraha ja muut ennemerkit eivät pettäneet. Ennelintu ja muita Nykysuomen sanakirjan sana-artikkeleita.

Digitointia ja tekstintunnistusta

Kuusiosaisen kirjasarjan työstäminen näköiseditioksi aloitettiin teettämällä kirjajärkäleistä digitointi. ”Tämä vaati yhden painetun kirjasarjan uhraamista siten, että kirjoista avattiin selkämys”, kertoo Jalava.
 
Tiedostojen saavutettavuuden ja käytettävyyden parantamiseksi niiden työstämistä jatkettiin asiantuntijatyönä, jossa käytettiin uusimpia automaattisen tekstintunnistuksen (OCR) tekniikoita. Työn teki niihin perehtynyt kielentutkija Niko Partanen.

”Kun lähtökohtana on painettu kaksipalstainen sanakirja, jossa hakusana, sen merkitykseen liittyvät luokitukset ja selitteet sekä käyttöesimerkit on merkitty tietyillä tyylikeinoilla, kuten lihavoinnilla, kursiiveilla ja palsta-asetteluilla, käytettävyyden varmistaminen edellytti monenlaisia parannuksia”, kertoo Lotta Jalava.

Hairahtumaton ja muita Nykysuomen sanakirjan sana-artikkeleita.
Tyylikästä tyylikeinoa kerrakseen. Hairahtumaton ja muita Nykysuomen sanakirjan sana-artikkeleita.

Arvokasta kokemusta

Tarkistuksia tekstintunnistustasoon edellyttivät myös monet sana-artikkeleissa käytetyt harvinaiset merkit. Jotta näköisjulkaisu olisi mahdollisimman hyvin käytettävissä esimerkiksi ruudunlukuohjelmistoa tarvitseville, tekstielementeille tehtiin automaattinen luokittelu ja niiden kuvailutiedot täydennettiin.

”Konsultaatiota ja vinkkejä tähän Kotus sai Celialta, joka on saavutettavan kirjallisuuden ja julkaisemisen asiantuntija”, kertoo Jalava. ”Kotus sai tässä projektissa arvokasta kokemusta vanhojen painettujen teosten uudelleenjulkaisemisesta digitaalisessa muodossa.”

Yli 4 500 sivua, yli 200 000 sanaa

Nykysuomen sanakirja on ensimmäinen kattava esitys suomen kielen keskeisestä sanastosta. Sanakirja kuvaa viime vuosisadan alkupuolen kielenkäyttöä ja sisältää yleiskielen sanojen lisäksi runsaasti vanhaa ja murteellista sanastoa.

Aineistona oli neljä miljoonaa sanalippua, joihin sisältyi 850 000 eri sanaa. Sanakirjan keskiössä ovat silloisen nykysuomen keskeiset sanavarat. Sanakirjassa on 201 000 sanaa ja 4 588 sivua.

Ativoida ja muita Nykysuomen sanakirjan sana-artikkeleita.
Nykäri, tuo myöhempien sanakirjojen atlantti. Ativoida ja muita Nykysuomen sanakirjan sana-artikkeleita.

Kielitoimiston sanakirjan edeltäjä

Nykyistä yleiskieltä kuvaava Kielitoimiston sanakirja on Nykysuomen sanakirjan seuraaja. Siitä puuttuu paljon sellaista sanastoa, jota Nykysuomen sanakirja kuvaa. Toisaalta jatkuvasti päivitettävässä Kielitoimiston sanakirjassa on paljon sellaista sanastoa, jota Nykysuomen sanakirja ei tunne.

Myös sanojen selitykset ovat näissä kahdessa sanakirjassa usein erilaisia. Sanojen merkitykset ja tyyliarvot muuttuvat vuosien varrella.

Sanakirja kuudessa osassa

Nykysuomen sanakirjan näköisjulkaisu koostuu kuudesta erillisestä pdf-tiedostosta. Tiedostot ovat kooltaan useita satoja megatavuja.

Lisätietoja

Lotta Jalava, suunnittelupäällikkö

lotta.jalava[ät]kotus.fi, puh. 0295 333 267


Palaa otsikoihin