Amerikkalaisen AT&T yhtymän Bellin laboratoriossa käytettiin pitkään hyvin yksinkertaista työntekijöiden tieteellisten ansioiden laskentakaavaa. Mukaan otettiin vain julkaisut Physical Review Letters -lehdessä sekä American Physical Societyn kokouksissa pidetyt yleis- ja kutsutut esitelmät. Kriteerit oli ilmeisesti hyvin valittu, sillä mainittu laboratorio on tuottanut viisi fysiikan nobelistia. Bellissä noudatettiin ns. kolmen F:n periaatetta: freedom eli tutkijan vapaus, focus eli tutkimuksen piti, edes löyhästi, liittyä yhtiön toimintaan, ja funding eli rahaa tuli olla käytettävissä riittävästi.
Opetuksen ja tutkimuksen arviointi. Mahdollisuus arvioida korkeakoulujen eri laitoksia ja muita yksikköjä luotettavasti ja puolueettomasti oli minulle tuiki tarpeellista selvitysmiehen tehtävän suorittamista varten. Työni tulokset eivät näin perustu pelkästään subjektiivisiin näkemyksiini, vaan suureksi osaksi tietyillä objektiivisilla periaatteilla laskettuun hyvyysluokitukseen. Tämä seikka on niiden hyvä muistaa, jotka työni tultua julkisuuteen ryhtyvät sitä kritisoimaan.
Opetuksen ja tutkimuksen arviointiin voidaan käyttää monia eri menetelmiä. Kaikilla niillä on hyvät ja huonot puolensa. Luotettavimpana keinona on yleisesti pidetty saman tieteenalan riippumattomien asiantuntijoiden tekemää arviointia, ns. peer review -systeemiä (vertaisarviointi). Menetelmä on kuitenkin kallis, joten se ei sovellu läheskään kaikkiin tapauksiin eikä sen käyttö ole mahdollista kuin melko harvoin. Koska arvioinnit ovat yleensä verbaalisia, niiden tulkitsemisesta saattaa tulla kiistaa.
Opetuksen ja varsinkin tutkimuksen evaluaatiossa käytettäviä kriteereitä on viime vuosina selvitetty runsaasti erityisesti ulkomailla, mutta myös Suomessa. Opetuksessa arvioinnin tulee perustua saavutettuihin tuloksiin, siis valmistuneiden FM- ja DI-tutkintojen sekä lisensiaattien ja tohtoreiden määrään ja heidän saamansa koulutuksen tasoon. Tutkimuksessa tärkein indikaattori on tieteellisten julkaisujen laatu ja tuotannon volyymi. Kvaliteettia voidaan mitata ns. impaktiluvulla (Impact Factor, kts. jakso 7.4.) tai julkaisujen saamien sitaattien (Science Citation Index) määrällä. Aikaa myöten todennäköisesti kehitetään menetelmiä, jotka saavuttavat kansainvälisen hyväksymisen. Lähitieteiden alueella voitaneen soveltaa samaa laskentakaavaa, jota ilmeisesti tullaan käyttämään paitsi määrärahojen jakoperusteena myös virkojen täytössä.
Opetusministeriö antoi vuonna 1993 korkeakouluneuvoston tehtäväksi yliopistolaitoksen arviointikriteerien kehittämistyön, jotta opetuksen ja tutkimuksen tuloksellisuutta voitaisiin vast'edes evaluoida entistä monipuolisemmin ja käyttää nykyistä laajemmin määrärahojen mitoituksessa. Neuvoston indikaattorijaoston raportti (Korkeakouluneuvoston julkaisuja 6/1995) ilmestyi joulukuussa 1995, joten se ei ehtinyt juurikaan vaikuttaa muistiooni. Jaoston tehtävänä oli kehittää korkeakoulutuksen tuloksellisuus- ja evaluointikriteerejä sekä tehdä ehdotuksia arviointiin perustuvista palkitsemistavoista.
Raporttiin sisältyy teoreettista tarkastelua tunnuslukujen käytöstä, selvitys ranking-listoista Englannissa, Saksassa ja USA:ssa sekä koulutusalakohtainen tuloksellisuustarkastelu Suomessa. Käytetyt indikaattoriluvut ovat kansainvälinen vaihto, suoritetut tutkinnot, ulkopuolinen rahoitus ja tieteelliset julkaisut. Luonnontieteiden kohdalla korkeakoulujen järjestys on ÅA, HY, TY, JY, KuY, JoY, OY ja TaY. Tekniikan alalla ranking-listaksi saatiin ÅA, TKK, TTKK, OY ja LTKK. Laitoskohtaista selvitystä raportissa ei tehdä. Tulokset poikkeavat osittain niistä, joihin omassa analyysissäni on päädytty (kts. luku 19). Lopputulemassaan korkeakouluneuvosto ehdottaa, että opetusministeriö käyttäisi tuloksellisuusmäärärahan jaon perusteina tutkimuksen huippuyksikköjä, koulutuksen huippuyksikköjä, laadulla kilpailtua rahaa, tehokkuutta ja vaikuttavuutta.
Impaktiluvun ja muiden bibliometristen indeksien hyvistä ja huonoista puolista käydään nykyisin vilkasta keskustelua (kts. esim. Signum 27, No. 5, 1994, s. 130 ja Nature, 31 August 1995, s. 720). Yleinen konsensus näyttää olevan, että vertaisarviointia lukuun ottamatta parempaakaan keinoa ei ole keksitty. Helsingin Sanomat esitteli 17.12.1995 ekonomi Arto Mäkilän laatimaa korkeakoulujen rankeerauslistaa.
Minulla ei ole ollut aikaa eikä tilaisuutta tarkemmin perehtyä eri arviointimenetelmiin eikä niiden hyviin ja huonoihin puoliin. Tarvitsin yksinkertaisen laskentakaavan, jota pystyin riittävässä laajuudessa käyttämään muutaman henkilön avustuksella. Evaluaationi koskee yleensä laitoksia, usein myös laboratorioita niiden osina. Jos yksikön korkea hyvyysluokitus perustuu paljolti jonkun tai joidenkin sen tutkijoiden panokseen, tuon nämä henkilöt nimeltä mainiten esiin. Yksityisten professorien arviointia en tätä perusteellisemmin suorita, mutta tämä käy helposti päinsä kehittämieni kaavojen avulla, jos korkeakoulun johto haluaa tällaiset 'hyvyysluokat' itse laskea.
Kolme indikaattoria. Käyttämäni hyvyysluokat ovat A (kiitettävä), B (hyvä), C (tyydyttävä), D (välttävä) ja E (heikko). Lasken hyvyysluokat erikseen perusopetukselle, jatkokoulutukselle ja tutkimukselle. Näin saadaan kolme indikaattoria, joista ensimmäinen mittaa perusopetusta, toinen jatkokoulutusta ja kolmas tutkimusta. Korkeakouluneuvoston luokituksessa indikaattoreita on neljä. Alunperin tarkoitukseni oli suorittaa tulosten yhdistäminen, mutta päädyin kuitenkin siihen, että indikaattorit on viisainta pitää erillään, jolloin informaation määrä on suurempi. Merkintä BDC esimerkiksi tarkoittaa, että perusopetuksen hyvyysluokka on B, jatkokoulutuksen D ja tutkimuksen C. Eräissä tapauksissa perusopetuksen hyvyysluokkaa ei 'yhteenkietoutumisien' takia ole voitu laskea johonkin laitokseen kuuluville laboratorioille erikseen, jolloin merkintä BA tarkoittaa, että alayksikön jatkokoulutuksen hyvyysluokka on B ja tutkimuksen A. Jos yksikkö ei anna perusopetusta kuten erilliset tutkimuslaitokset, sen hyvyysluokitus käsittää vain kaksi indikaattoria. Laitoksen menestys ilmenee luokituksen eri osatekijöiden yhdistelmästä, jolloin perusopetukselle, jatkokoulutukselle ja tutkimukselle voidaan antaa erilaisia painotuksia sen mukaan, mitä indikaattoria halutaan korostaa.
Opetuksen hyvyysluokat perustuvat pääasiassa laitoksessa suoritettuihin tutkintoihin, tutkimuksen hyvyysluokka taas tieteellisiin artikkeleihin, jotka on painotettu käyttämällä tutkimustyön julkaisseen tieteellisen lehden impaktiluvun neliöjuurta. Impaktiluku ilmoittaa, kuinka monta kertaa kyseisessä tieteellisessä aikakauslehdessä ilmestyneisiin artikkeleihin on keskimäärin viitattu kahden edellisen vuoden aikana. Kaikissa arvioinneissani on kuitenkin mukana myös 'inhimillinen tekijä', jota tuonnempana selostan tarkemmin. Dosentti Terttu Luukkonen on äskettäin selvittänyt bibliometrisiä indikaattoreita (Tilastokeskus: Tiede ja teknologia 1995:3, s. 57), joista impaktiluku on yksi esimerkki.
Tarkempi selitys käyttämistäni laskukaavoista perusteluineen on jaksoissa 7.3 ja 7.4. Kaavani eivät tietenkään kaikissa erikoistapauksissa anna oikeaa tulosta, varsinkaan jos laitoksen opetus- tai tutkimusprofiili suuresti poikkeaa tavanomaisesta. Yksityisen huippututkijan kohdalla viiteanalyysi voisi olla parempi mitta. Laboratorion koko vaikuttaa myös arviointituloksen jakaumaan. Suurten laitosten on erittäin vaikeaa päästä tutkimuksessa laskennalliseen A-kategoriaan, koska kaikki siellä työskentelevät eivät mitenkään voi edustaa kansainvälistä huippua. Vaikka laitos olisi maailman kärjessä, sen tieteellinen työ saattaa silti keskimäärin olla B- tai jopa vain C- tasoa. Näin käy erityisen helposti silloin, kun perusopetuksen volyymi on suuri; monet professorit ja nuoremmat tutkijat joutuvat keskittymään opetukseen. Kovin pieniä laitoksia en ole arvioinut, koska satunnaisvaihtelut olisivat liian suuria. Erinomaiseen arviointituloksen päässeet pienet laboratoriot ovat potentiaalisia huippuyksiköitä. Ne voivat joskus saada arvioinnissa selvästi liian hyvän tai liian huonon tuloksen. Tässä kappaleessa mainituista syistä eräitä laskennallisia hyvyysluokituksia on korjattu, mikä mainitaan asianomaisissa tekstikohdissa.
Pitkälle menevä yksimielisyys vallinnee siitä, että hyvyysluokan määräävän laitos- tai laboratoriokohtaisen vertailuluvun (P perusopetuksessa, J jatkokoulutuksessa, T tutkimuksessa) tulee olla tuotos jaettuna panostuksella eli output/input. Mitä otetaan huomioon tuotoksessa ja mitä panostuksessa on sitten paljon monimutkaisempi asia, josta voidaan perustellusti olla eri mieltä. Kaikissa maamme yliopistoissa on viime vuosina ruvettu laskemaan hyvyysluokituksia (kts. Korkeakouluneuvoston julkaisuja 6/1995), mutta useimmissa systeemeissä on mielestäni selviä puutteita eikä eri korkeakoulujen saman alan laitoksiakaan voida helposti verrata keskenään. Käytetyt menetelmät eivät kunnolla mittaa tieteellisten suoritteiden laatua vaan lähinnä niiden määrää.
Tämän vuoksi olen päättänyt käyttää omaa kaavaani. Sille asetettavista vaatimuksista tärkein on tietenkin tulosten käyttökelpoisuus opetuksen ja tutkimuksen tason kyllin luotettavaan arviointiin. Erityisesti parhaiten menestyneet ja huonoimmat laitokset on saatava esiin. Toinen tärkeä kriteeri on kaavan yksinkertaisuus. Maamme korkeakoulujen kaikkien eksaktien luonnontieteiden laitosten hyvyysluokkien laskeminen on iso työ, jos mukaan otetaan erilaisia suoritteita, kuten korkeakoulujen sisäisissä laskentakaavoissa on tehty. Omaa selvitystäni varten hyvyysluokat piti voida laskea kohtuullisella työmäärällä käytettävissä olevan aineiston perusteella kolmivuotiskaudelta 1992 -- 94. Tämä on käytännössä toteutunut, ja niinpä hyvyysluokat näyttelevät sangen keskeistä osaa mietinnössäni.
Tuleva kritiikki. Valittiinpa hyvyysluokan laskemisperusteet millaisiksi hyvänsä, niiden avulla saadut tulokset tulevat aiheuttamaan kritiikkiä. Viime talvena, kun korkeakouluneuvoston sisäiseen käyttöön tarkoitettu yliopistojen ranking-lista vuoti julkisuuteen, se synnytti paljon polemiikkia. Ne, jotka menestyivät arvioinnissa, olivat tietenkin yleensä tyytyväisiä, peränpitäjät taas yleensä tyytymättömiä. Laskentakaavan pitäisi oikeastaan olla ennakolta tiedossa, muuten sen voidaan väittää syntyneen räätälintyönä tiettyä tyyppiä olevien laitosten pönkittämiseksi. Nyt olen joutunut laatimaan kaavan jälkikäteen, jolloin manipulaatiosyytöksiltä tuskin vältytään. Hyvyyslukujen laskemiseen käytettävä lauseke vaikuttaa ajan mittaan oleellisesti opetuksen ja tutkimuksen suuntautumiseen. Jos kaava on hyvä, se edesauttaa voimakkaasti tieteellistä toimintaa, mutta jos se on huono, vinoutumista tapahtuu. Kehno kaava voi esimerkiksi johtaa helppojen suoritepisteiden keruuseen.
Helsingin yliopiston lääketieteellisessä tiedekunnassa on jo muutamia vuosia käytetty tieteellisen julkaisutuotannon määrää ja laatua resurssien jakoperusteena. HY:n suunnitteluosaston muistiossa maaliskuulta 1995 todetaan mm: "Tuloksellisuusrahan jakokaavat eivät ole työläitä käyttää, kun ne ensin on saatu valmisteltua ja hyväksytty käytettäviksi. Keskushallinnossa tarvitaan valmiin jakokaavan käyttöön vain muutamia työpäiviä vuodessa, koska tietosisältö on valmiiksi kerätty muita tarkoituksia varten. Mallien valmisteluun on sen sijaan käytetty yliopiston keskushallinnossa aikaisempina vuosina useita henkilötyökuukausia vuodessa."
Tuskin lienee mahdollista kehittää yhtä kaavaa, joka soveltuisi esimerkiksi luonnontieteisiin ja humanistisiin aineisiin. Mutta jo sen seikan hyväksyminen, että opetuksen ja tieteellisen työn laatua pystytään järkevästi mittaamaan yksinkertaisilla kriteereillä, on askel eteenpäin. Suhtautuminen arviointeihin, joka tällä hetkellä vielä vaihtelee, tullee ajan kuluessa muuttumaan myönteisemmäksi, kun huonommankin arvosanan saaneet havaitsevat, että he voivat ottaa kritiikistä oppia. Tietenkin on tärkeää, että arvioinnit johtavat konkreettisiin tuloksiin, muutoin ne koetaan täysin turhaksi byrokraattisen sorminäppäryyden harjoitteluksi.
Suomessa tuotetaan 0,82% koko maailman tieteellisistä artikkeleista. Määrä on pieni, joten maamme tieteen 'markkinoimiseksi' on erikoisen tärkeää käyttää mahdollisimman tehokkaita julkaisukanavia. Terttu Luukkosen bibliometrisen selvityksen perusteella (EU-raporttisarja,Tutkimus ja kehittäminen 1 : 5, 1995, s. 61 -- 64) asukaslukuun suhteutetussa pohjoismaisessa vertailussa Suomi häviää julkaisuaktiivisuudessa selvästi sekä Ruotsille että Tanskalle. Myös suomalaisiin tieteellisiin julkaisuihin viitataan harvemmin kuin ruotsalaisiin, tanskalaisiin tai norjalaisiin. Sitaattien lisäämiseksi tieteelliset tulokset on lähetettävä niin hyviin lehtiin kuin mahdollista. Valitsemani hyvyysluokitus pyrkii ohjaamaan kehitystä tähän suuntaan. Toivottavasti se myös tehokkaasti edesauttaa korkeatasoisten väitöskirjojen syntymistä, sillä opinnäytteisiin sisältyvät, tieteellisissä lehdissä ilmestyneet julkaisut tulevat laskelmiin mukaan.
Arvioinnin tulosta sovellettaessa pitää luonnollisesti ottaa huomioon laitoksessa äskettäin tapahtuneet henkilömuutokset. Uudelle professorille on annettava 3 -- 5 vuotta aikaa kykyjensä osoittamiseen erityisesti silloin, kun hänet on valittu virkaansa laitoksen ulkopuolelta. Satunnaisilla vaihteluilla on myös vaikutuksensa, joskin tuloksen heilahteluja vaimentaa käyttämäni kolmen vuoden laskenta-aika.
Pelkät matemaattiset hyvyysluokat eivät tietenkään riitä laitosten ja laboratorioiden rahoituksesta päätettäessä. Ne kuitenkin antavat täsmällisen mitan, jonka pohjalta tulosten arviointia pystytään helposti jatkamaan. Laskut voidaan tehdä kansliatyönä ja ne soveltuvat hyvin tilanteen jatkuvaan seurantaan rehtorin tai dekaanin apuna. En tietenkään väitä, että oma kaavani on paras tai edes hyvä, mutta ainakin minulle siitä on ollut hyötyä. Monissa tapauksissa virheelliset ennakkokäsitykseni muuttuivat olellisesti. Laskennalliset hyvyysluokat ovat olleet arviointini pohjana, mutta niitä on, kaiken käytettävissäni olleen informaation perusteella, joskus korjattu ylös- tai alaspäin. Samalla tavalla rehtorit ja dekaanit tulevat varmasti aikanaan tekemään voimavaroja jakaessaan. 'Inhimillinen tekijä' arvioinneissani näkyy verbaalisissa kommenteissa, joita eri korkeakouluja koskevissa teksteissä on runsaasti.