Kotuksen vanhan kirjasuomen aineistoja on sekä sanalippuina arkistossa että tekstikorpuksena verkossa. Osasta lähteitä on arkistossa valokopiot, joitakin teoksia alkuperäisinäkin painatteina. Aineistot on kerätty alun perin Vanhan kirjasuomen sanakirjan toimitustyötä varten, mutta ne ovat myös tutkijoiden ja opiskelijoiden käytettävissä.
Vanhan kirjasuomen sana-arkisto
Vanhan kirjasuomen arkistokokoelma koostuu noin 550 000 hakusanoitetusta sanalipusta. Joukossa on niin käsin ja koneella kirjoitettuja kuin valokopioitujakin lippuja, joista osa on hyvin himmeitä ja siksi vaikealukuisia. Aakkosten loppupään liput, joista toimittajat eivät vielä ole kirjoittaneet sana-artikkeleita, on lajiteltu vain alustavasti hakusanoittain. Halutun materiaalin etsimiseen kannattaa siis arkistokäynnillä varata reilusti aikaa.
Kokoelman aineslähteinä ovat suomenkieliset painotuotteet ja yhtenäiset suomenkieliset käsikirjoitukset 1540-luvulta noin vuoteen 1810. Kokoelmaan sisältyvät muun muassa laajat poiminnat Eerik Sorolaisen Postillasta (v. 1621 ja 1625) ja Johan Wegeliuksen postillasta Se Pyhä Ewangeliumillinen Walkeus (v. 1747 ja 1749).
Mikrokorteilla on KWIC-indeksit Mikael Agricolan teosten sanastosta, vuoden 1642 Raamatusta ja vuoden 1734 Ruotzin Waldacunnan Lain 1759 painetusta suomennoksesta.
Sitaatin matka aineistosta sanakirjaan
Vanhan kirjasuomen sanakirjassa ovat keskeisessä asemassa sitaatit Ruotsin vallan aikaisista julkaisuista. Tekstikatkelmat valaisevat kunkin sanan merkityksiä ja käyttötapoja sekä niiden muutoksia kahden ja puolen vuosisadan mittaan. Toimittajien keksimiä esimerkkejä sanakirjassa ei siis ole.
Valitessaan sitaatteja yksittäiseen sana-artikkeliin toimittaja pyrkii kokoamaan kattavan otoksen sanan käyttötavoista eri aikoina. Jos sana sisältyy vakiintuneisiin sanontatapoihin eli idiomeihin tai sananparsiin, tällaiset käytöt poimitaan myös mukaan.
Monenlaista aineistoa
Toimituksen käytössä on useanlaista aineistoa. Tärkeimpiä päivittäisessä työssä ovat noin 550 000 paperista sanalippua käsittävä arkisto sekä noin 3,5 miljoonaa sanetta eli yksittäistä sanaesiintymää käsittävä sähköinen korpus, josta voi tehdä erilaisia hakuja.
Lisäksi toimittajat hyödyntävät alkuperäisteoksia, niiden valokopioita sekä noin 5 miljoonan saneen digitoitua aineistoa, joka on käytettävissä kuvatiedostoina. Niistä ei pysty siis tekemään hakuja, mutta niistä voi tarkistaa sitaattien oikeinkirjoituksen sekä etsiä lisää kontekstia ja apua lyhyiden esimerkkikatkelmien tulkintaan.
Oleellinen esiin massasta
Sanaliput ovat toimittajalle ensisijainen aineisto, jota hän täydentää korpushauilla. Korpuksen käytön apuvälineenä toimittajalla on oman aakkosvälinsä korpussanelista, josta näkyvät aakkosvälin sanojen kaikki korpukseen sisältyvät ja eri kirjoitusasuiset taivutusmuodot lukumäärineen.
Kun esiintymiä on vähän, ne kannattaa hakea kaikki, mutta kun niitä on paljon, hakua kannattaa rajata. Esimerkiksi olla-verbistä on korpuksessa satoja eri muotoja ja tuhansia yksittäisiä esiintymiä. Toimittaja tarvitsee myös luovuutta ennakoidessaan, millä kaikilla tavoilla työn alla olevaa sanaa on aikoinaan saatettu kirjoittaa; esimerkiksi o-alkuisia sanoja on kirjoitettu myös å-alkuisina.
Sanakirjaan otetaan mukaan myös sellaiset sanat, joista aineistossa on vain yksi esiintymä tai joiden käytöstä on tietoa vain vanhoissa sanakirjoissa. Varsinkin tällaisten ainokaisesiintymien merkityksestä voi olla vaikeaa saada varmuutta, mutta toimittaja joutuu usein muulloinkin selvittelemään sanan merkitystä monenlaisesta lähdekirjallisuudesta. Merkitysten selitteet pohjautuvat silti aina aineistoon itseensä, ja vanhojen sanakirjojen tiedot toimivat korkeintaan selitteen laatimisen tukena.
Esimerkkejä muokataan kevyesti
Esimerkit ovat muutoin alkuperäisessä asussaan, mutta fraktuura ja muut goottilaiset kirjaintyypit on muutettu verkkosanakirjassa groteskiksi (1980- ja 1990-luvuilla painetuissa osissa antiikvaksi) ja välimerkeistä vinoviivat pilkuiksi. Lisäksi on luovuttu vanhan kirjasuomen aikaisesta käytännöstä osoittaa korostusta ja kunnioitusta kirjoittamalla pätkä sanan alusta tai jopa kokonaisia sanoja suuraakkosin.
Lähdetekstien selvät kirjoitus- ja ladontavirheet merkitään sanakirjassa hakasulkeissa olevalla huutomerkillä [!]. Nurin päin ladotut u- ja n-kirjaimet käännetään oikein päin. Esimerkkien yksinkertaistamiseksi tekstikatkelmista voidaan poistaa yksittäisiä sanoja tai pidempiäkin jaksoja. Poistot merkitään kahdella ajatusviivalla – –. Lisäksi voidaan merkitä hakasulkeisiin selityksiä ja täydennyksiä nykysuomeksi.
Vanhan kirjasuomen tekstikorpus
Vanhan kirjasuomen korpuksessa on Ruotsin vallan aikana (1543–1809) ilmestyneitä eri alojen teoksia ja tuolta ajalta säilyneitä laajahkoja käsikirjoituksia, joista suurin osa on myöhemmin ilmestynyt painettuna. Korpuksen laajuus on 3 428 618 sanaa.
Korpuksessa on myös yksittäisiä almanakka- ja asetustekstejä, saarnoja sekä runotekstejä. Mukana on Mikael Agricolan koko tuotanto ja samanaikaiset muiden tekijöiden evankeliumi- ja käsikirjasuomennokset. Ensimmäinen raamatunsuomennos kuuluu niin ikään korpukseen, samoin Ruotsin vallan ajan tärkeimmät virsikirjat. Muuta hengellistä kirjallisuutta ovat esimerkiksi ruumissaarnat.
Mukana on myös tärkeimmät Ruotsin vallan aikana tehdyt lainsuomennokset ja satoja asetustekstejä tuolta ajalta. Muuta maallista kirjallisuutta edustavat muun muassa Gananderin sadut ja arvoitukset sekä lääkärikirjat. Varia-hakemistossa on kokoelma erilaisia tekstejä eri aloilta.
Korpus on tehty Vanhan kirjasuomen sanakirjan toimitustyön tarpeisiin ja sanakirjan tekemisen ohessa. Mukaan on pyritty saamaan mahdollisimman monipuolinen kokoelma kirjallisuutta, jotta korpus antaisi edustavan kuvan vanhan kirjasuomen sanastosta.
Korpus on jaettu hakemistoihin, toiset kirjoittajan mukaan, toiset tekstilajin mukaan. Ensimmäinen suomeksi painettu koko Raamattu on omassa hakemistossaan.
Osakorpukset
Agricola. Mikael Agricolan teokset. Aineistona on Agricolan teosten 1–3 uudistettu näköispainos vuodelta 1987 (WSOY, Porvoo). Aika: 1500-luku. Laajuus: 427 843 sanaa.
Almanakat. Almanakkatekstejä 1700- ja 1800-luvulta: 76 almanakkaa vuosilta 1705–06, 1708–10, 1713, 1726–27,1729–30, 1732, 1735–39, 1741–42, 1745–88, 1798, 1800, 1803–06 ja 1809. Neljä ensimmäistä almanakkaa sekä joitakin myöhempiä almanakkoja on kirjoitettu korpukseen kokonaan nimipäiviä ja Raamattuun viittaavia tekstejä lukuun ottamatta. Muista almanakoista on korpuksessa vain B-arkkina oleva laajempi yhtenäinen teksti. Vuosien 1726, 1729, 1738–39 ja 1751–1806 almanakkatekstit on saatu toimittaja Seppo Ojalta. Aika: 1705–1809. Laajuus: 118 498 sanaa.
Biblia. Ensimmäinen koko Raamatun suomennos. Aika: 1642. Laajuus: 905 874 sanaa.
Björkqvist. Anders Björkqvistin kaksiosainen teos Uskon harjoitus autuuteen. Aika: 1801. Laajuus: 191 066 sanaa.
Frosterus. J. A. Frosteruksen Hyödyllinen Huwitus Luomisen Töistä. Aika: 1791. Laajuus: 23 221 sanaa.
Ganander. Christfrid Gananderin teoksia. Aika: 1700-luku. Laajuus: 57 468 sanaa.
Laki- ja asetustekstejä. Sekä eripituisia asetustekstejä että lainsuomennoksia.
AHF-lyhenne tarkoittaa Kustavi Grotenfeltin 1912 julkaiseman Acta Historica Fennica -teoksen asiakirjoja. Korpukseen niistä sisältyvät ne, joita ei ole saatu Vanhan kirjasuomen sanakirjan lähteiksi alkuperäisinä asetus- tai muina teksteinä.
1500–1800-lukujen asetustekstejä on noin 600, ja suurimman osan tästä aineistosta on tallentanut ja luovuttanut vanhan kirjasuomen korpukseen toimittaja Seppo Oja.
Florinuksen kirkkolain suomennoksen (1688) korpustekstin lähteenä on käytetty vuonna 1986 ilmestynyttä näköispainosta. Painettuun kirkkolakiin sisältyvät kolme erillistä asetustekstiä (näköispainoksessa s. 144–172) ovat hakemiston 1600-luvun asetukset käsittävässä tiedostossa (korpustekstin lähdekoodit As1687c, As1687d ja As1687e).
Herra Martin maanlakisuomennos (1580-luvulta) sekä Ljungo Tuomaanpojan (1600-luvulta) ja Abraham Kollaniuksen (1640-luvulta) maan- ja kaupunginlakien suomennokset jäivät aikanaan käsikirjoituksiksi. Korpusteksteiksi ne on saatettu käsikirjoitusten pohjalta tehdyistä julkaisuista. Ensimmäinen painettu Ruotsin valtakunnan lain suomennos (1759) on saatu korpukseen vuonna 1984 ilmestyneen näköispainoksen tekemisen yhteydessä.
Aika: 1500–1800-luku. Laajuus: 1 103 798 sanaa.
Laurentius Petri. Kolme Laurentius Petri Aboicuksen tekstiä. Aika: 1644, 1658, 1670. Laajuus: 19 205 sanaa.
Lizelius. Anders Lizeliuksen tekstejä, muun muassa ensimmäinen suomenkielinen sanomalehti Suomalaiset Tieto-Sanomat. Aika: 1700-luku. Laajuus: 51 251 sanaa.
Ruumissaarnoja, puheita ja muistorunoja. Aika: 1600–1700-luku. Laajuus: 154 040 sanaa.
Varia – Tekstejä eri aloilta. Noin 70 (lyhyehköä) 1500–1800-lukujen tekstiä eri aloilta. Suuren osan teksteistä on kirjoittanut ja luovuttanut vanhan kirjasuomen korpukseen toimittaja Seppo Oja. Aika: 1500–1800-luku. Laajuus: 208 334 sanaa.
Virsikirjoja ja Piae Cantiones -suomennos. Kokoelma sisältää Finnon virsikirjan, Hemminki Maskulaisen virsikirjan ja Piae Cantiones -suomennoksen sekä vuoden 1701 virsikirjan. Finnon virsikirjan korpus pohjautuu vuonna 1988 ilmestyneeseen näköispainokseen (toim. Pentti Lempiäinen). Aika: n. 1583, 1605, 1616, 1701. Laajuus: 168 020 sanaa.
Esimerkkejä korpuksen lähdekoodeista
Vanhan kirjasuomen korpuksessa kukin virke tai virkkeen katkelma on merkitty lähdekoodilla. Lähdekoodi muodostuu tyypillisesti joko kirjoittajan tai suomentajan nimen taikka teoksen nimen lyhenteestä, julkaisuvuodesta ja sivu- tai arkkinumerosta. Tässä muutama esimerkki erirakenteisista lähdekoodeista:
Lähdekoodi korpuksessa | Lähdekoodi sanakirjassa | Selitys |
A-III-005 | A III 5 | Agricolan koottujen teosten näköispainoksen III osa, sivu 5 |
Alm1709-B1b | Alm 1709 B1b | Vuoden 1709 almanakan B-arkin lehti 1, b-puoli (aukeaman vasen sivu) |
As1771g-14 | As 1771g 14 | Cuningas Adolph Friedrikin – – Elämä-Kirja, sivu 14 (asetuskokoelmassa on julkaistu hyvin monentyyppisiä tekstejä) |
Vanhan kirjasuomen korpus tutkijoiden käytössä
Vanhan kirjasuomen korpus antaa monipuolisen kuvan suomen kirjakielestä Ruotsin vallan aikana. On kuitenkin hyvä muistaa, että korpuksesta puuttuu joitakin keskeisiä teoksia, kuten vuoden 1776 raamatunsuomennos, ja että korpusteksteihin on otettu lähdeteksteistä vain suomenkieliset osat. Esimerkiksi joidenkin tekstien yhteydessä olevia yhtä sanaa pidempiä latinankielisiä jaksoja korpuksessa ei siis ole mukana.
Vanhan kirjasuomen tekstikorpus on käytettävissä verkossa sekä Kotuksen aineistopalvelussa Kainossa että Kielipankin Korp-konkordanssihakupalvelussa. Kummassakin korpuksen käyttöön liittyy eräitä varauksia.
Korpus Kainossa
Kainossa tekstien kappalerakenne on purettu irrallisiksi virkkeiksi tai joskus lyhemmiksikin tekstijaksoiksi. Vaikka teksti on aseteltu irtovirkkeiksi, se on (suomenkielisiltä osiltaan) mukavasti luettavissa kokonaisuudessaan.
Kainoa ei kuitenkaan ole päivitetty enää useisiin vuosiin, joten sen aineistoihin ei myöskään ole enää viime vuosina korjattu sanakirjantoimittajien havaitsemia virheitä. Siksi esimerkkien kirjoitusasu on syytä aina tarkistaa Kielipankin aineistoista.
Korpus Kielipankissa, valtaosa myös kuvina Kansalliskirjaston digitoimassa Ruotsin ajan kokoelmassa
Kielipankissa puolestaan ei ainakaan toistaiseksi ole mahdollista lukea kokonaisia korpustekstejä, joten vähänkin laajempaa kontekstia kaipaavan on tutustuttava vanhan kirjasuomen tekstiaineistoihin joko Kainossa tai Kansalliskirjaston digitoimassa Ruotsin ajan kokoelmassa (Vanha Fennica). Kansalliskirjaston digitoima aineisto on verkossa kuvina, joten tekstit ovat luettavissa alkuperäisessä painoasussaan. Valtaosa vanhan kirjasuomen korpuksen teksteistä sisältyy Kansalliskirjaston digitointeihin.
Kielipankissa Vanhan kirjasuomen korpuksessa on ollut joitakin merkintäteknisiä ongelmia. Siksi aina, kun tutkijaa vähänkin epäilyttää, esimerkin kirjoitusasu kannattaa varmistaa joko näköispainoksesta – kun sellainen on käytettävissä – tai Kansalliskirjaston digitoinneista.