Pari sanaa ResearchIndex viittaustietokannan luotettavuudesta

ResearchIndex on tietokanta, josta voi hakea artikkeleita, etsiä omien artikkelien saamia viittauksia ja tutkia vaikka aineiston 10 000 eniten viitatun tietojenkäsittelijän luetteloa. Aineistonsa ResearchIndex kerää etsimällä Internetistä Postscript- ja PDF-muotoisia julkaisuja. Tämä aiheuttaa aineistoon vääristymää, sillä kaikki julkaisut eivät ole Internetistä vapaasti saatavissa. Pikemminkin päinvastoin: vakavat kustantajat pyrkivät varaamaan yksinoikeuden itselleen ainakin määräajaksi. Kaikki tutkijat eivät kuitenkaan piittaa tällaisista kielloista.

Viittaustiedot on kerätty automaattisesti, mistä aiheutuu lisää virheitä. Esimerkiksi syyskuun 2000 lista sisälsi sellaisia kuuluisuuksia kuin H. Fortran, A. Computer, C. Concurrency, C. Intractability, C. Principles, T. Clocks, I. Processing ja C. Science; C., A. ja H. Collaboration; sekä S. Verlag, A. Wesley ja P. Hall. Mukana on "On", "Inc", "Jr.", "Das" ja jopa "Log" -nimisiä henkilöitä. Systems:in laajasta suvusta listalle olivat päässeet "C.", "I.", "D.", "A.", "R.", "M.", "F", "S" ja "L". Tästä voi päätellä, että automaatti ei aina osaa erottaa nimeä muista sanoista. Kiitos Markku S:lle useiden lystikkäiden kuuluisuuksien bongaamisesta!

Saitin toimintaperiaatteita on selostettu artikkelissa Digital Libraries and Autonomous Citation Indexing, IEEE Computer, Volume 32, Number 6, pp. 67-71, 1999.

Uskon virheiden vääristävän tuloksia seuraavasti:

Suomalaiset nimet ovat aineistossa sen verran harvinaisia, että suomalaiset tuskin saavat ansiottomia lisäpisteitä. Ääkkösongelma saattaa vähentää pisteitä, mutta vaikea sanoa, kuinka paljon.

Joka tapauksessa listalle pääsy on vahva osoitus siitä, että tutkija tunnetaan maailmalla. Kuten Engelbartin tapaus havainnollistaa, listalta puuttuminen ei välttämättä osoita mitään.


Antti Valmari 6.10. -- 8.11.2000