Elävät päät -blogia kirjoittavat Vanhan kirjasuomen sanakirjan toimittajat, jotka työskentelevät Kotimaisten kielten keskuksessa. Blogissa jaetaan sanakirjatyön sivutuotteita: havaintoja, pohdiskeluja ja oivalluksia Ruotsin vallan aikaisten tekstien ääressä.
Vanhan kirjasuomen sanakirja 10 vuotta verkossa
Vanhan kirjasuomen sanakirja (VKS) vietti merkkipäivää 21. marraskuuta 2024. Tällöin tuli kuluneeksi kymmenen vuotta siitä, kun ensimmäinen jakso sanakirjasta julkaistiin kaikkien vapaasti käytettävissä olevana verkkosanakirjana. Sen kunniaksi avaan hieman prosessia, jossa painetusta sanakirjasta on syntynyt verkkosanakirja.
Vanhan kirjasuomen sanakirjan verkkojulkaisu syntyi osana Kotuksen sanakirjat verkkoon! -projektia vuosina 2012–2014. Verkossa VKS:ää päätettiin alkaa julkaista vuosittain marraskuun lopulla, lähellä 21. marraskuuta 1741 syntyneen Christfrid Gananderin syntymäpäivää. Ganander laati yli 35 000 hakusanaa sisältävän suomalais-ruotsalais-latinalaisen sanakirjan Nytt Finskt Lexicon, joka tosin on julkaistu painettuna vasta 1900-luvulla.
Marraskuussa 2014 julkaistiin VKS:n näytejaksona aakkosväli ma–mööpeli, seuraavana vuonna l- ja n-alkuiset sanat ja sen jälkeen aiemmin painettuna ilmestyneet aakkosvälit osa kerrallaan sekä lisäksi vuosittain uutta aineistoa o:sta eteenpäin. Niinpä marraskuussa 2017 verkkoon oli saatu vietyä koko siihen asti valmiina oleva sanakirja eli aakkosväli a–osviitu.
Sanakirjan l–n-alkuisia artikkeleita oli jo pitkään kirjoitettu ns. rakenteiseen muotoon eli niihin on koodattu dokumentin rakenne (hakusanat, sanaluokat, esimerkit yms.), jonka avulla muun muassa hakuja voidaan kohdistaa tiettyihin elementteihin verkkoon siirryttäessä. Myös painettuina ilmestyneet ensimmäinen ja toinen osa oli skannattu ja muunnettu rakenteiseen muotoon.
Verkkosanakirjan suunnittelun aikana kuitenkin todettiin, ettei sanakirjan siihenastinen rakenne ollut riittävän tarkka siihen, että saataisiin toteutettua kaikki haut, joita haluttiin. Muutenkin uusi julkaisumuoto vaikutti sanakirjan rakenteeseen. Esittelen joitakin eroja painettuina ilmestyneiden osien ja verkkosanakirjan välillä; painettuihin osiin lasken myös aakkosvälin l–n, jonka oli tarkoitus alun perin ilmestyä painettuna ja joka noudattaa pääosin painettujen ensimmäisen ja toisen osan (jatkossa VKS1 ja VKS2) toimitusperiaatteita.
Toiminnallisuuden vaatimat muutokset
Suurimmat muutokset verkkojulkaisuun siirryttäessä ovat aiheutuneet verkkosanakirjan toiminnallisuuksia koskevista toiveista, kuten siitä, millaisia hakuja on haluttu mahdollistaa. Osa toiveista kerättiin suunnitteluvaiheessa kyselyllä painetun sanakirjan käyttäjiltä, osa on koottu sanakirjan toimittajilta.
Lähdekoodille oma elementti. Käyttäjien toiveesta verkkosanakirjassa päätettiin mahdollistaa haku tietyn kirjoittajan esimerkeistä. Niinpä sanakirjan rakenteeseen lisättiin esimerkin sisään lähdekoodia varten oma elementtinsä, ja valmiiseen aineistoon nuo elementit koodattiin jälkikäteen.
Nyt tarkennetussa haussa on mahdollista hakea vaikkapa kaikki artikkelit, joissa on esimerkkejä Eerik Sorolaisen Postillan ensimmäisestä osasta (Sor 1621); tämän kirjoittamishetkellä tällaisia artikkeleita on 1 756. Haku on mahdollista kohdistaa myös yhden tekijän kaikkiin VKS:n lähteinä käytettyihin teoksiin jättämällä lähdekoodirajauksesta pois vuosiluku tai osan numero. Hakemalla esimerkeistä merkkijonoa jalopeur* ja rajaamalla hakua lähdekoodin katkelmalla Weg saadaan tulokseksi ne sanakirjan artikkelit, joissa Johan Wegelius nuoremman esimerkeissä esiintyy jalopeura-sana jossakin taivutusmuodossaan, kuten artikkelissa hengenvaara:
Weg 1749 76 David muinen Jalopeuran cansa tosin hengen waarasa oli
Yhdyssanojen osat näkyviin. VKS:n rakenteistuksen yhteydessä hakusanoihin lisättiin yhdyssanojen perus- ja määriteosien rajat (merkitty +-merkillä), joita painettuihin osiin ei ole merkitty (esim. jauho+mylly). Koska verkkosanakirjaan toivottiin mahdollisuutta rajata haku yhdyssanojen osiin, hakusanoihin jouduttiin merkitsemään myös yhdyssanojen osien toissijaiset rajat (merkitty hakusanoihin #-merkillä, esim. heinän#kokous+ilma, odaali+jauho#mylly). Verkkosanakirjassa näkyy kuitenkin selkeyden vuoksi vain ensisijainen, perus- ja määriteosan välinen raja.
Tarkennusta tekstivertailuihin. Sanakirjan eri lähteissä toistuvat useasti samat tekstit (esim. Raamatun tekstit, lakitekstit), joita verrataan keskenään ns. tekstivertailuissa. Jotta esimerkissä esiintyvän sanan hakeminen juuri tietyltä ajanjaksolta onnistuisi, tekstivertailujen kokonaisuudet jouduttiin pilkkomaan. Alun perin hakemalla esimerkeistä merkkijonoa makja* ajanjaksolta 1700–1749 löytyi muun muassa artikkeli makeasti, jossa haettu sana-asu kuitenkin esiintyy 1600-luvun tekstissä:
Finno Vk 72b [Kristus] Wäärän opin poies soitta Quin monel viel mackiast maista (Hemm 1605 P6a makjast, WK 1701 227:4 makiast) makiasta.
Tämä johtui siitä, että sulkeissa olevaa tekstivertailua tarkasteltiin kokonaisuutena. Koska tekstivertailusta löytyi sekä ajanjaksolle sijoittuva lähde (WK 1701) että haettu merkkijono (makja*), esimerkki täytti hakuehdon.
Sanakirjan rakenteeseen tehtiin muutos jakamalla tekstivertailukokonaisuudet osiin, joissa jokainen lähdetieto ja siihen liittyvä tekstisitaatti muodostavat oman yksikkönsä. Niinpä sama haku löytää nykyään vain artikkelin makea, jossa on seuraava esimerkki:
WK 1701 274:1 Pois makja Mailma jää, Mun Sielun Päänänsä, Tääld pyrki ylös
Muutoksia lähdekoodien merkintöihin. Hakutoimintojen ohella toinen tärkeä ominaisuus verkkosanakirjassa on linkittämisen mahdollisuus. Itsestään selviä linkitettäviä olivat viiteartikkelit, mutta linkkejä haluttiin muuallekin sanakirjan käytön helpottamiseksi.
Koska VKS:n lähteitä on runsaasti ja lähdemerkintöjen muistaminen työlästä, halusimme mahdollistaa esimerkkien lähdekoodeista helpon pääsyn lähdeluetteloon, josta sanakirjan käyttäjä voi halutessaan tarkistaa lähteen tarkat tiedot. Niinpä lähdekoodit on linkitetty oikeisiin kohtiin lähdeluettelossa. Tämän vuoksi painettujen osien esimerkeissä käytetty lähdekoodilyhenne ib. ’ibidem, sama teos’ on verkkosanakirjassa korvattu edeltävällä lähdekoodilla.
Toinen linkittämisen lähdeluetteloon aiheuttama muutos on se, että Gananderin sanakirjan tietoihin on täydennetty ensimmäisen osan numero, jota ei vanhastaan merkitty näkyviin. Molemmat muutokset vaikuttivat myös sanakirjan toimitusperiaatteisiin: o-alkuisista artikkeleista eteenpäin lähdeviitteet on kirjoitettu täydellisinä ja Gananderin sanakirjan ensimmäisenkin osan numero kirjoitetaan näkyviin.
Yhdyssanaluettelo erillisiksi elementeiksi. Verkkosanakirjassa haluttiin linkittää myös artikkelien lopussa olevien yhdyssanaluetteloiden sanat vastaaviin yhdyssana-artikkeleihin. Tämänkin onnistuminen vaati rakenteen muokkausta. Kunkin sana-artikkelin yhdyssanaluettelo oli siihen asti kirjoitettu yhteen yhteiseen elementtiin artikkelin loppuun. Jotta linkitys yhdyssana-artikkeleihin onnistui, piti luettelon jokainen yhdyssana erottaa omaksi elementikseen. Nykyään yhdyssanaluettelon yhdyssanat kirjoitetaan erillisiin elementteihin.
Julkaisumuodon muuttumisesta johtuvat muutokset
Viittaukset edelliseen tai seuraavaan artikkeliin menivät uusiksi. Osa muutoksista painettuina ilmestyneisiin osiin johtuu puhtaasti julkaisumuodon muuttumisesta. Tällainen on esimerkiksi aiemmin selitteenä käytetyn viittauksen edelliseen tai seuraavaan artikkeliin (= ed., = seur.) purkaminen. Painetussa sanakirjassahan tämä on mitä mainioin tapa selittää peräkkäisiä synonyymeja, mutta verkkoympäristössä se ei olekaan enää erityisen näppärää, joten selitteet on muutettu viittaamaan hakusanoihin. Niinpä kräämäloota-artikkelissakin vaihdettiin viittaustekniikkaa:
Toimitustyöhön on vaikuttanut myös se, ettei verkkosanakirjassa tarvitse säästää tilaa samalla lailla kuin painetussa kirjassa. Niinpä on voitu kirjoittaa lyhenteitä auki selitteissä aiempaa enemmän ja valita esimerkkejä hieman entistä enemmän ja pidempinä. Tavoitteena on silti edelleenkin pyrkiä mahdollisimman tiiviiseen artikkeliin.
Enemmän viitteitä. Tilan säästämiseen painetussa sanakirjassa liittynee sekin, ettei aakkosvälillä a–n ole tehty viiteartikkelia kaikista varianteista ja vanhoista muodoista, vaan periaatteena oli, että viite jätettiin pois, jos se viittasi välittömästi edellä tai jäljessä olevaan artikkeliin. Verkkoversioon lisättiin tällaisiinkin kohtiin viitteet. Painetuista osista puuttuvia viitteitä ovat mm.
eksyväinen a. → eksyvä.
faanu s.→ faana.
gehängi s. → gehengi.
jalalinen s. → jalallinen.
kuolematoin a.→ kuolematon.
Muuttunut julkaisuprosessi. Suuri muutos on tietenkin itse julkaisuprosessissa: ennen julkaisuvaiheessa luettiin oikovedoksia, nyt aineistoa testataan testiympäristössä ja korjauksia voidaan tehdä päivitysten yhteydessä aiemminkin ilmestyneisiin artikkeleihin. Ennen julkaisuvaiheessa tehtiin yhteistyötä kirjapainon kanssa, nyt Kotuksen tietohallintoyksikön.
Käytännössä julkaisuprosessi alkaa, kun toimittajat kirjoittavat sana-artikkelit FrameMaker-ohjelmalla. Tämän jälkeen Frame-tiedostot muunnetaan SGML-muotoon, josta IT-asiantuntija muuntaa ne edelleen XML-muotoon ja tekee julkaisun kannalta tarvittavat muutokset: lisää hakusanoille yksilölliset tunnisteet, yhdyssanojen ja viitehakusanojen linkit jne. Sen jälkeen muunnetut tiedostot viedään testiympäristöön, josta ne testauksen ja mahdollisten korjausten jälkeen kopioidaan edelleen lopulliseen verkko-osoitteeseensa, missä ne julkaistaan kaikkien vapaasti käytettäväksi.
Tulevaisuudessa on tarkoitus siirtyä käyttämään ohjelmaa, josta tiedostot tallennetaan suoraan XML-muotoon. Tällöin julkaisuprosessi yksinkertaistuu hieman, kun ei enää tarvitse muunnella tiedostoja edestakaisin Framen tallennusmuodon, SGML:n ja XML:n välillä.
Sisällölliset muutokset
Vanhat ja uudet lähdemerkinnät yhdenmukaisiksi. Verkkojulkaisuprojektin aikana tehtiin painettuina ilmestyneisiin artikkeleihin myös sisällöllisiä muutoksia. Toisen osan ilmestymisen jälkeen lähteisiin on lisätty nelisensataa uutta lähdettä (merkitty verkkosanakirjan lähdeluetteloon asteriskilla), joiden myötä esimerkiksi Acta Historica Fennica -kokoomateoksen asemesta viitataan nyt yksittäisiin asetuksiin. Tällaisia muuttuneita lähteitä aineistossa on seitsemisenkymmentä.
Lisäksi lähteisiin on otettu uusia asetuksia, jolloin samalta vuodelta saattaa olla useampia asetuksia. Tällöin vuosiluvun yhteyteen on lisätty kirjain erottamaan asetuksia toisistaan. Nämä ensimmäisten osien ilmestymisen jälkeen muuttuneet lähdemerkinnät on yhdenmukaistettu myös aakkosvälillä a–n vastaamaan uudempaa käytäntöä, niinpä painetun VKS1:n AHF 1788 245 -esimerkin lähdeviitteenä on verkkoversiossa As 1788e 3 ja aiempi lyhenne As 1649 on nykyään As 1649a:
epäluulla: As 1788e 3 [Vihollisen tarkoitus on] tehdä Meidän lemmeyttämme epäluultuxi Teidän edesänne
elinkausi: As 1649a A2a Taloin-Pojat, jotca – – Elincaudexi ia otolisexi ajaxi jongun Ulgostegon wapauden alla taitawat Länätyt olla
Viitehakusanat yhdenmukaisiksi. Aakkosvälillä a–n yhdenmukaistettiin myös viitehakusanoja, joiden osalta toimitusohjeet olivat muuttuneet aakkosväliä l–n kirjoitettaessa. Painetuissa osissa ne on kirjoitettu lyhennettyinä:
hollari s. → puuk-, rakuuna-, ruotu-, rust-, stoothollari.
Nykyään viitehakusanat kirjoitetaan kokonaan:
hollari s.→ huushollari, postihollari, puukhollari, rakuunahollari, ruotuhollari, rusthollari, stoothollari.
Viitehakusanaluetteloita (ja yhdyssanaluetteloita) on tarvittaessa myös täydennetty, kuten edellä olevasta esimerkistä näkyy.
Tiivistä yhteistyötä tietohallintoyksikön kanssa. Suurin osa muutoksista on hoitunut onneksi ohjelmallisesti, kiitos Kotuksen mainion tietohallintoyksikön. Sanakirjan aineistoon koodataan paljon sellaistakin, mikä on tarpeen toiminnallisuuden takia mutta ei näy käyttäjille eikä edes toimittajille heidän toimitusympäristössään.
Sanakirjantoimittajien lisäksi tarvitaan siis henkilöitä, jotka tuntevat sanakirjan julkaisuprosessin kuin omat taskunsa, hallitsevat tekniset temput ja vieläpä ymmärtävät toimittajien humanistikieltä. Toimittajat ovat ennen kaikkea sanakirjasisällön tuottajia ja asiantuntijoita, mutta ilman Kotuksen tietohallintoyksikön velhoja ei toimitetusta sanakirjasta saataisi verkkoon artikkeliakaan. Toki ohjelmallisesti toteutetut muutoksetkin, kuten yhdyssanojen toissijaisten rajojen merkitseminen ja ohjelmallisesti luotujen viitteiden tarkistus ja siirtäminen paikoilleen, vaativat toisinaan tarkistusta ja korjaamista.
Vaikka yhdenmukaistamista aiemmin painettuna ilmestyneiden artikkeleiden ja vain verkossa julkaistun jatkon välillä on tehtykin, kaikkea ei ole pystytty yhdenmukaistamaan. Esimerkiksi 1600–1700-lukujen sanakirjojen tiedot esitettiin painetuissa osissa ja vielä aakkosvälillä l–n eri sanakirjojen tiedoista tiivistettyinä kokonaisuuksina, mutta o-kirjaimesta alkaen ne on kirjoitettu auki, niin että jokaisen sanakirjan tiedot on vat omana kokonaisuutenaan. Tämän käytännön yhdenmukaistaminen ei onnistu ohjelmallisesti vaan vaatisi vanhojen sanakirjojen systemaattista läpikäymistä, mutta siihen eivät resurssit riitä. Alkupäähän lisättyjen uusien artikkelien osalta on kuitenkin käytännön syistä noudatettu yleensä nykyistä käytäntöä.
Verkkoversion lisäherkut
Verkkosanakirjaan on monipuolisten hakumahdollisuuksien lisäksi pystytty lisäämään muitakin ominaisuuksia, jotka painetussa sanakirjassa olisivat hankalia tai jopa mahdottomia toteuttaa. Ensinnäkin artikkelien yhteyteen on lisätty aikajanat, joiden on tarkoitus antaa yhdellä silmäyksellä yleiskuva sanan ajallisesta esiintymisestä. Aikajanalle on eroteltu erikseen vanhojen sanakirjojen tiedot (ns. vanhat leksikot, harmaa palkki) ja varsinaisten esimerkkien tiedot (sininen palkki).
Lisäksi verkkosanakirjassa on mahdollista tarkastella sana-artikkeleita paitsi Koko artikkeli -näkymässä myös Jäsennys-näkymässä ja Ensimmäiset esimerkit -näkymässä. Jäsennys-näkymä näyttää artikkelin hakusanan, variantit tai vanhat muodot, sanaluokan, merkitysryhmät selitteineen, alihaku- ja käyttöalaryhmät selitteineen sekä suljetun yhdyssanaluettelon. Ensimmäiset esimerkit -näkymässä on jäsennyksen lisäksi näkyvissä vielä kunkin merkitysryhmän ensimmäinen esimerkki. Näkymien tarkoituksena on helpottaa pitkien artikkeleiden rakenteen ja merkitysten hahmottamista ja ensiesiintymien löytämistä silloin, kun ensiesiintymä ei ole ensimmäisessä merkitysryhmässä.
Parannuksia vuoden 2014 jälkeen
Vierivä kivi ei sammaloidu, eikä Verkko-VKS:kään ole jämähtänyt kymmeneksi vuodeksi paikoilleen. Vuosittaisen uuden aineiston julkaisemisen lisäksi on tehty muutakin.
Responsiivinen käyttöliittymä. Näkyvin muutos sanakirjassa on ollut käyttöliittymäuudistus toukokuussa 2021. Silloin julkaistiin responsiivinen käyttöliittymä, joka helpottaa sanakirjan käyttöä puhelimella. Samalla sanakirjan ulkoasua yhdenmukaistettiin muiden Kotuksen sanakirjojen kanssa. Käyttöliittymäuudistuksen yhteydessä myös sanakirjan haku- ja lukuohjeita muokattiin ymmärrettävämmiksi ja saavutettavammiksi.
Parempi alihakusanahaku. Pinnan alla on tapahtunut muutakin, muun muassa alihakusanahakua on parannettu, niin etteivät sulkeet enää sotke hakutulosta. Aiemmin alihakusanahaussa ei löytynyt ensimmäistäkään artikkelia, jos haki merkkijonolla aikoihin. Nykyään tuolla merkkijonolla löytyvät artikkelit aika ja nykyinen, koska niissä on alihakusanoina tulla aikaan, aikoi(hi)n ja nykyisi(h)in aikoi(hi)n. Alun perin sulkeita käsiteltiin haussa välimerkkeinä, jotka katkaisivat merkkijonon, mutta nykyään sulkeelliset alihakusanat avataan julkaisuprosessin aikana piiloelementtiin, johon haku kohdistuu.
Toinen alihakusanoja koskeva parannus on se, että nykyään alihakusanoista voi hakea myös useammalla sanalla, joissa voi käyttää jokerimerkkejä. Näin ollen haku lev* itse* löytää nyt mm. artikkelit levättää1 (alihakusana levättää itse(ä)nsä) ja leväyttää (alihakusana leväyttää itsensä).
Ryhmäviitehakusanahaku lisätty. Sanakirjan käyttöä helpottavana parannuksena voitaneen pitää myös ryhmäviitehakusanojen (tuttavallisemmin nippuviitteiden) yhteyteen lisättyä linkkiä, joka suorittaa haun. Esimerkiksi viiteartikkelissa pihlava(-) linkki hakee pihlaja-alkuiset sanat.
Lisäksi vuosittain korjaamme löytämiämme kirjoitusvirheitä, virheitä esimerkkien kronologisessa järjestyksessä, muotoiluvirheitä ja paljon muita käyttäjän näkökulmasta suhteellisen huomaamattomia ja pieniä yksityiskohtia. Nämä pienet korjaukset yhdenmukaistavat sanakirjaa ja helpottavat hakujen tekemistä. Uusia artikkeleita lisätään aiemmin julkaistulle aakkosvälille ja aiemmin julkaistuja artikkeleita täydennetään tarvittaessa. Niinpä verkossa oleva aakkosväli a–k (a–kööpeli) ei ole identtinen Vanhan kirjasuomen sanakirjan painettujen ensimmäisen ja toisen osan kanssa.
* * *
Uusia parannuksia mietitään sekä saadun palautteen että toimitustyössä tehtyjen havaintojen pohjalta. Uudistusten ja sisällöllisten korjausten tai täydennysten teko on jatkuvaa tasapainoilua kahden asian välillä: yhtäältä pyrkimyksen sujuvoittaa sanankirjan käyttämistä ja toimitustyötä, toisaalta tavoitteen edistää sanakirjan valmistumista, niin, ettei upottaisi liian syvälle aiemmin julkaistun aineiston muokkaamiseen.
Kaikista uusista sanoista teemme kuitenkin ns. uutta kartuntaa, josta sitten mahdollisuuksien mukaan lisäillään aineistoa jo julkaistulle aakkosvälille. Ehkä joku joskus jatkaa vielä sanakirjan täydentämistä Vanhan kirjasuomen sanakirjan valmistumisen jälkeen.
- Vanhan kirjasuomen sanakirja (Kaino)
- Vanhan kirjasuomen korpus (Kielipankki, Korp-konkordanssipalvelu)
- Vanhan kirjasuomen sanakirjan XML-muotoinen latauspaketti (Kaino)
Palaa otsikoihin | 0 puheenvuoroa | Keskustele