Vanhan kirjasuomen aikakauden teosten merkitystä vertaillessa on kärkipäässä vaikea sivuuttaa Sorolaisen Postillaa. Ericus Erici eli Eerik Sorolainen (n. 1546–1625) oli Turun piispa. Hänen uransa kenties keskeisimmäksi tehtäväksi nousi toimiminen Kaarle IX:n asettaman raamatunkäännöskomitean vetäjänä.

Komitean tehtävänä oli saattaa Mikael Agricolalta kesken jäänyt raamatunkäännöstyö loppuun. Vuonna 1602 perustettu komitea kuitenkin hajosi pian asettamisensa jälkeen, ja työ jäi yksin Sorolaisen harteille. Raamatunkäännös jäi todennäköisesti käsikirjoituksen tasolle, mutta Sorolainen kuitenkin sai julkaistuksi laajan Raamatun tekstejä selittävän saarnakokoelman, postillan, joka julkaistiin kahdessa osassa vuosina 1621 ja 1625.

Eerik Sorolaisen Postillan yhteissidos, yksityiskohta. Kuva: Sonja Holopainen, Kotus.
Eerik Sorolaisen Postillan yhteissidos. Kuva: Sonja Holopainen, Kotus.

Saiko Sorolaisen käännöskomitea suomennosta aikaiseksi? 

Suomenkielinen Raamattu, Biblia, painettiin lopulta vuonna 1642, kun Sorolaisen Postillan julkaisusta oli kulunut parisenkymmentä vuotta. Kielentutkijoita ja teologeja jäikin Sorolaisen ja käännöskomitean jäljiltä kutkuttamaan kysymys: valmistuiko raamatunkäännös jo Sorolaisen aikana?

Käännöksen valmistumisesta on kahtalaisia näkemyksiä. Valmistuneen raamatunkäännöksen puolesta puhuu muun muassa se, että vuonna 1617 Turun papisto anoi kuninkaalta lupaa kirjapainon perustamiseen Raamatun painamista varten. Jos Raamattu tosiaan saatiin valmiiksi ja painettiin, ei siitä säilynyt ainuttakaan kappaletta.

Sorolaisen Postilla sisältää tuhansia suoria ja epäsuoria lainauksia Raamatusta, ja voisi kuvitella, että Sorolainen itse olisi hyödyntänyt valmiin käännöksensä osia muissa teoksissaan. Postillan raamattusitaattien kieliasun vaihtelu kuitenkin viittaisi siihen, ettei yhtenäistä lähdeteosta ollut. Sen sijaan sitaatit vaikuttavat suoraan tekstiyhteyteen käännetyiltä suomennoksilta.

Näköispainokset ja digitaalinen Postilla

Postillan kielen tutkiminen oli erityisen työlästä, kunnes sen osat julkaistiin näköispainoksina vuosina 1988 ja 1990. Vaikka Martti Parvion toimittamien näköispainosten ohessa onkin hakemisto Postillasta löytyvistä Raamatun lainauksista, on niiden vertailu muihin käännöksiin edelleen hidasta. Parvio on todennut, että ”monet – – sitaatit, joissa viitataan samaan kohtaan, harvoin ovat tekstuaalisesti yhdenpitäviä”. Silva Kiuru puolestaan kirjoitti näköispainoksista Virittäjässä (1991) seuraavaa:

Postillapolun ja Sorolaisenkadun risteys Turun Räntämäessä. Kuva: Melina Vetikko.

"– – on myönnettävä, että näköispainoksen ilmestyminen ei sinänsä merkitse kielellisten vertailututkimusten kovin houkuttelevaa nopeutumista. Atk-pohjaista aineistoahan ei Sorolaisen kielestä edelleenkään ole olemassa."

Jo 25 vuotta sitten kielentutkijat siis ovat jo kieli pitkällä odotelleet korpusaineistoa Sorolaisen kielestä. Sähköisessä muodossa, skannattuna, Postilla julkaistiin vuonna 2017 Kansalliskirjaston Doria-aineistopalvelussa. Nykyiselläään Dorian aineistot on saatavilla Kansalliskirjaston Digitaaliset aineistot ‑palvelussa. Painotuotteen, näköispainosten ja sähköisten kopioiden kautta kielen tutkiminen on ollut kuitenkin varsin vaivalloista.

Nyt korpus on tekeillä ja toivon mukaan pian valmiskin. Korpusta laaditaan pääasiassa Vanhan kirjasuomen sanakirjan toimitustyön tueksi, mutta niin ikään se palvelee myös kielentutkijoita, teologeja, historioitsijoita ja miksei muidenkin alojen tutkijoita. Korpus mahdollistaa muun muassa suorien ja epäsuorien raamattusitaattien vertailun eri-ikäisten käännösten välillä. 

Korpustamistyötä ja automaattista transkribointia

Painettua teosta on saatettu tekstimuotoon pääasiassa opiskelijavoimin yhteistyössä Tampereen yliopiston vanhan suomen kurssin kanssa. Kotimaisten kielten keskuksessa transkribointityöhön ovat päässeet osallistumaan useat Vanhan kirjasuomen sanakirjassa työskennelleet korkeakouluharjoittelijat. 

Sorolaisen Postillan korpustamistyö alkoi vuonna 2014, kun Tampereen yliopiston opiskelijat transkriboivat teosta Kansalliskirjaston OCR-editorilla (OCR = optinen merkkientunnistus, optical character recognition). Opiskelijat jatkoivat Postillan ensimmäisen osan työstämistä samaa työkalua käyttäen vielä vuodet 2015 ja 2016.

Vuonna 2017 aineistoja alettiin transkriboida tekoälypohjaisella Transkribus-ohjelmalla. Tampereen yliopiston opiskelijat transkriboivat osia Thomas B. Rajaleniuksen (1654) saarnakokoelmasta sekä vuoden 1776 raamatunkäännöksestä. Transkriboiduista osista laadittiin tekstintunnistusmalli, jonka pohjalta Sorolaisen Postillaan tuotiin koneellinen transkriptio painosivujen sisällöstä. 

Fraktuuranluentaa koneen kanssa

Vaikka koneellinen transkriptio tuottaakin pääasiassa hyvin luettavaa tekstiä, työhön tarvitaan fraktuuran lukemiseen harjaantuneita silmiä tarkistamaan tuotosta. Opiskelijatyö jatkui Sorolaisen Postillan molempien osien parissa vuoden 2025 syksyyn saakka, kunnes molemmat osat tulivat valmiiksi. 

Painosivujen transkriptiot vietiin Transkribuksesta xml-muotoisina tekstitiedostoina, joiden pohjalta lopullinen korpusteksti muodostuu. Transkribuksessa painosivulle on koodattu tietoja muun muassa painosivun rakenteesta. Omina elementteinään painosivulla ovat esimerkiksi sivunumerot, marginaalit ja leipäteksti. Näiden pohjalta esimerkiksi lähdekoodien muodostaminen korpustekstiin onnistuu vaivatta. 

Kuten mainittu, Sorolaisen Postilla sisältää tuhansia suoria ja epäsuoria viittauksia raamatunkohtiin. Kun korpuksen merkintätavoista keskusteltiin vanhan kirjasuomen tutkijoiden kesken, oli viesti hyvin selvä: raamatunkohdat on saatava merkittyä korpustekstiin. Töitä siis vielä riittää ennen kuin korpus saadaan valmiiksi ja julki tutkijoiden iloksi. Työhön saamme kuitenkin avuksemme korkeakouluharjoittelijan kesäksi 2026. 

Koneellinen transkriptio tuottaa pääosin luettavaa tekstiä. Esimerkiksi kokonaan kapiteelein kirjoitetut osat (yllä) tuottavat kuitenkin Transkribukselle päänvaivaa, samoin nasaaliviivat (alla). 

Kohti vanhan kirjasuomen korpusta

Korpuksiksi kutsutaan valikoituja kokonaisuuksia kielenainesta, esimerkiksi tekstiä tai nauhoitettua puhetta, koneellisesti käsiteltävässä muodossa. Korpuksella on siis jonkinlaiset rajansa ja yleensä myös selkeä käyttötarkoitus. Korpusten käyttö erityyppisten tutkimusten työvälineenä, tai menetelmänä, on kuitenkin siitä syystä kiehtovaa, ettei avoimesti julkaistun aineiston käytön tarvitse rajautua siihen, mihin se on alun perin koottu. Esimerkiksi perinteen- ja historiantutkijat, tietojenkäsittelytieteilijät, teologit ja monet muut voi siis hyvin hyödyntää kielentutkimuksen tarkoituksiin koottuja sisältöjä niiltä osin kuin on hyödyllistä.

Sorolaisen Postillan korpusmuotoinen versio tullaan liittämään osaksi Vanhan kirjasuomen korpusta. Kyseinen korpus on nykymuodossaan toimivan Vanhan kirjasuomen sanakirjan toimituksen keskeisimpiä työkaluja ja se sisältää suuren osan vanhan kirjasuomen kaudella (n. 1540–1810) painetusta kirjallisuudesta.

Korpus on, kuten mainittua, laaja ja se sisältää raamatunkäännösten ja saarnakokoelmien lisäksi myös runsaan joukon virsiä, laki- ja asetustekstejä, tilapää- ja arkkirunoutta ja almanakkoja unohtamatta maallisempaa puolta, kuten sananlaskuja, satuja ja terveydenhuollon oppaita. Kirjoittajina teksteillä on sellaisia tuntemattomuuksia kuin Agricola, Lizelius, Ganander, Laurentius Petri, Florinus ja monet muut.

Kotuslaisia korpuksia

Kotuksen korpuksista Vanhan kirjasuomen korpus lienee laajimmin käytetty, mutta ei suinkaan ainoa. Korpuksia on koottu suomalaisen kirjallisuuden klassikoista, varhaisnykysuomesta ja murreaineistoista jopa kaksin kappalein (Suomen kielen näytteitä -korpus sekä Turun yliopiston kanssa yhteistyössä tuotettu Lauseopin arkiston murrekorpus).

Ja jos nyt ei aleta hiuksia halkomaan, voi korpuksiksi luokitella tarkemmin rajaamattomiakin kieliaineistoja, joita Kotus on digitaalisissa ympäristöissä julkaissut. Ja se mikä ei ole korpuksiksi luettavissa, kuten sanakirjat, on todennäköisesti jonkinlaista korpusta tai sellaiseksi vertautuvaa apuna käyttäen tuotettu. Digiaikana tekstejä tutkiessa ovat korpukset työkaluna lähestulkoon välttämättömiä. Kenties sanakirjojen datat yhdistämällä saataisiin aikaan jonkinlainen metakorpus, jonka avulla voidaan tarkastella sanakirjojen tapoja määritellä sanoja ja niiden taustalla piileviä asioita. Kiinnostavaa!

Jaa