MetaX-Blogi

Teemme ketterästi Suomen tutkimusaineistojen metatietovarantoa, joka tulee palvelemaan OKM:n tutkimusaineistopalveluita (esim. TPAS, IDA ja Etsin). Tässä blogissa käsitellään kehityksessä ajankohtaisia ja usein avoimia asioita, eikä mikään tässä esitetty edusta mitään virallisia linjauksia. Sen sijaan toivomme palautetta ja avointa keskustelua.

måndag 29 oktober 2018

Fairdata-koulutus ja Metax-työpaja

Viime perjantaina oli ensimmäinen Fairdata-koulutustilaisuus CSC:llä. Kävimme yhdessä läpi palveluita ja testailimme IDAa ja Etsintä.





Lounaan jälkeen meillä oli pieni mutta rautainen Metax-työpaja. jossa aluksi kävimme läpi Metaxin rakennetta ja mahdollisia tietovirtoja/rajapintojen käyttötapauksia. Keskustelu oli tosin hyvin yleisellä tasolla ja pääosin keskityimme sitten käytäntöön, eli Hannun johdolla REST API:n testaamiseen. Totesimme, että olisi hyvä pitää vielä uusi työpaja tietovirroista ja rajapinnan käytöstä, joka sinänsä on suhteellisen selkeää. Eniten vaatii pohdintaa ehkä referenssidatojen käyttö. Koska osa niistä on pakollisia, asia vaatii hieman opiskelua, vaikka metatietojen tuottamisen alkuun pääsee muuten aika helposti.

tisdag 23 oktober 2018

Referenssidatasta koodistoja

Metaxissa on ollut jonkin aikaa pieni radiohiljaisuus, koska olemme valmistautumassa Fairdata-palvelukokonaisuuden tuotantoonvientiin lähiaikoina. Perjantaina on koulutustilaisuus, jossa muun muassa tutustumme Metaxin uuteen rajapintaan.

Referenssidatat on nyt siirretty kansalliseen koodistopalveluun. Ajatuksena on, että organisaatioista tehtäisiin vuosittaiset uudet versiot.

Muuten pohdimme esimerkiksi pitkäaikaissäilytykseen viemiseen liittyvien prosessien yksityiskohtia.

Olettehan kaikki huomanneet IDA:n uudet hienot esittelyvideot?

fredag 31 augusti 2018

Pohdintaa metatietovirroista


Metax sisältää paljon tietoa suomalaisista tutkimusaineistoista. Varannon ytimen muodostavat Fairdata-palveluissa olevat tutkimusaineistojen metatiedot (IDA, pitkäaikaissaatavuuspalvelu) mutta Metax sisältää tulevaisuudessa myös muita järjestelmään manuaalisesti tai rajapinnan kautta luotuja metatietoja. Nämä metatiedot, joihin ei liity välttämättä suoraan datatiedostoja, viedään erilliseen ATT-katalogiin. Lisäksi Metaxiin luodaan jokaiselle haravointilähteelle oma katalogi. Eri katalogit mahdollistavat metatietojen hallinnan ja validoinnin erilaisten edellytysten ja tarpeiden pohjalta.

Metax tarjoaa aineistoille ja niiden kuvailuille URN-tunnisteita ja Etsin kuvailusivun. Pitkäaikaissäilytykseen menevät aineistot saavat DataCite-metatiedot. Fairdata-palveluilla on oma DOI-nimiavaruus, josta voidaan tulevaisuudessa tarjota DOI-tunnisteita myös IDA-säilytyspalvelussa oleville aineistoille. DOI-tunnisteita EI anneta Fairdata-palvelukokonaisuuden ulkopuolella säilytettäville aineistoille, koska niiden eheyttä emme voi mitenkään valvoa.

Metaxiin on tarkoitus kerätä mahdollisimman kattavasti tietoa suomalaisen tutkimuksen aineistoista. Siksi voimme kerätä myös aineistojen julkaisutietoja eri lähteistä, joiden laadun suhteen ei ole tarvitse olla niin tiukkoja vaatimuksia. Tästä Metaxiin mahdollisesti luotavasta Legacy-katalogista voidaan tutkia tunnisteita ja niiden avulla hakea alkuperäisiä metatietoja luotetuista tietoarkistoista. Niiden löytyessä, aineiston tiedot kopioitaisiin Metaxin ATT-katalogiin ja ne näkyisivät Etsimessä.


Tällä hetkellä haravoidaan jo uuteenkin järjestelmään metatietoja Kielipankista, Yhteiskuntatieteellisestä tietoarkistosta ja SYKE:n metatietokatalogista.  Yliopistojen kanssa on aiemmin käyty keskustelua tietojen siirtämisestä ja useat yliopistot ovat lähiaikoinakin olleet taas yhteydessä asian tiimoilta. Aihe on ollut välillä jäissä palvelu-uudistuksesta johtuen. Ammattikorkeakoulujen puolella järjestelmiä ei ole vielä yhtä paljon, mutta tutkimusaineistopalvelu on pystytetty ainakin SeAMKiin. Myös tutkimuslaitoksilla on hyvin paljon erilaisia tutkimusaineistoja, joiden metatietoja hallinnoidaan erilaisissa järjestelmissä. Tällä hetkellä ainoa käynnissä oleva haravointi on SYKE. Tälläkin puolella on kuitenkin hyviä mahdollisuuksia laajentaa tietojen siirtoa, joko haravoinnin tai kirjoitusrajapinnan kautta. Tärkeää on myös vielä miettiä miten saamme tiedot mahdollisimman tehokkaasti näkyviin kansainvälisissä palveluissa, sekä tietoja haettua hyvin maailmalta kotiin alkuperäislähteistä.

Prioisioinnin suhteen olemme miettineet seuraavanlaisia kriteereitä:
  • Metatiedot sisältävät URN- tai DOI-tunnisteen 
  • Kokonaisuus palvelee suurta määrää tutkijoita 
  • Tutkimusaineistoja ja metatietoja on paljon 
  • Tiedot ovat hyvälaatuisia ja sisältävät paljon pysyviä tunnisteita




Tutkimusaineistojen kopioituja metatietoja voidaan tarjota myös organisaatioille rajapinnan kautta "legacy"-katalogista käytettäväksi. Vaikka ne eivät ole välttämättä hyvälaatuisia, niiden avulla organisaatiot voisivat rikastaa omaa dataansa ja tutkia julkaisutietoja, eikä kaikkien organisaatioiden tarvitse itse tuoda dataa eri palveluista. 

torsdag 23 augusti 2018

Fairdata-kokonaisuuden tuotantoonmeno etenee

Fairdata-palvelukokonaisuuden tuotantoonmeno on edennyt. Kesän aikana on tapahtunut seuraavaa:
  • Kesäkuu 2018: uusi fairdata.fi -sivusto avatttiin ja palvelujen dokumentaatiota päivitettiin sivuille. Tuotantoon valmiille palvelukomponenteille tehtiin integraatiotestausta.
  • Heinäkuu 2018: uudistettu IDA avattiin uusille käyttäjille ja samalla MetaX siirtyi tiedostojen metatietojen osalta tuotantoon. Uusi Etsin avautui ja se näyttää harvestoitujen aineistojen metatietoja. Heinäkuussa valmistuivat myös ensimmäiset migraatiot vanhasta IDAsta uuteen IDAan.
  • Elokuu 2018: IDAn data- ja projektimigraatiot jatkuvat. MetaXin tietomalli lukitaan tuotantoonmenoa varten. Valmistaudutaan vanhan Etsimen metatietojen migroimiseen.
Syyskuulle on suunnitelmissa erityisesti Qvaimen testausta, komponenttien integraatiotestausta sekä testaamisessa havaittujen muutostarpeiden toteuttamista. Testausvaiheen jälkeen vanha Etsin suljetaan kuvailun osalta ja sen metatiedot migroidaan MetaXiin ja ne näytetään uudessa Etsimessä. Näillä näkymin IDAn projekti- ja datamigraatiot valmistuvat tai ovat ainakin lähes valmiit syyskuun loppuun mennessä.



tisdag 10 juli 2018

Referenssidata

Eilisessä sprinttipalaverissa oli Joonas mukana viimeistä kertaa. Tällaista se on tällä alalla, kun mielenkiintoista tekemistä riittää ja tekijöistä on huutava pula. Käytännössä tämä tarkoittaa, että tiimimme hieman kutistuu, mutta onneksi meillä on messissä edelleen Miika, joka on oikeastaan koko Metaxin loistavan mallin isä. Muullakin tiimillä on niin rautainen osaaminen ja, mikä ihaninta, kyky ymmärtää äärimmäisen kompleksista Fairdata-PAS-kokonaisuuta ja suhtautua luovasti ja rohkeasti alati muuttuvaan tilanteeseen. PO:na tässä on suhteellisen helppoa olla osana tällaisen tiimin touhua. Vaikka Joonasta jäämmekin kaipaamaan.

Olen aiemmin tässä blogissa maininnut referenssidatan tärkeänä osana Metaxin tarjontaa organisaatioille. Se on vielä kaikkea muuta kuin valmista, eikä se koskaan varmaan edes valmiiksi tule, kuten ei mikään tietomalli koskaan tässä muuttuvassa maailmassa. Tavoitteena on lisäksi yhdistää tutkimustietovarannon (TTV) referenssidatoja meidän datoihin, mutta miten työnjako tulevaisuudessa tulee tapahtumaan akselilla yhteentoimiva.suomi.fi, Finto, TTV ja Fairdata on vielä hämärän peitossa. Tavoitteena on tietenkin mahdollisimman yhtenäinen ja yksinkertainen referenssidatojen hallinta ja hyödyntäminen. Toistaiseksi olemme kuitenkin keränneet kaikkia mahdollisia relevantteja listoja ja tunnisteita. Haluamme, että Metaxin data on todella yhteentoimivaa, sillä on korkea prioriteetti.

Tällä hetkellä meillä on seuraavanlaisia settejä käytössä:


  • Asiasanat (Finto, KOKO)
  • Tieteenala (Finto, OKM-tieteenalat, nämä pitäisi vielä mapata re2orgin listaan kunhan ehdin)
  • Luonnollinen kieli (Finto, Lexvo)
  • Sijainti (Finto, YSO-paikat)
  • Tutkimusifrat (APIsta https://avointiede.fi/ri-rajapinta)
  • Organisaatio (Olemme koonneet oman json-tiedoston, jossa hyödynnetään samoja koodeja kuin tiedonkeruussa)
  • MIME type (IANA - tämä on mielestäni suhteellisen turha, mutta on uinut moniin metatietoformaatteihin)
  • Muiden resurssien luokitus (tämä on meidän oma listamme, osittain DC, halusimme mukaan esim APit)
  • Tiedostotyyppiluokitus (myötäilee myös DCtermsejä, ääni, teksti, binääri jne)
  • Resurssin kategorialuokitus, Use category. Tämä on mielestämme tärkeä innovaatio, jolla kerrotaan tiedoston funktio osana tiettyä datasettiä. Esimerkiksi onko kyseessä lisenssitiedosto, readme-tyyppinen dokumentaatio tai itse dataa. 
  • Tarkistussumman algoritmi
  • Lisenssit 
  • Tekijän rooli (CASRAI contributorRole; Credit Taxonomy)
  • Muun tekijän rooli (DataCite ContributorType)
  • Tunnistetyyppi
  • Saatavuusluokat (niitä on nyt 9, mutta toivomme, että käytössä olisi vain 7, linkittyy teknisesti myös käyttölupaprosessin ja pääsynhallintaan)
  • Rajoitusperusteluokka (uuden tyyppinen metatieto: Jos rajoittaa saatavuutta on tälle annettava yksi yhdeksästä perusteesta, esim sopimus, etiikka tai joku lainsäädäntö)
  • Rahoittajat (oma lista)
  • Relaatiotyypit (näitä on 14, kaikki linkitetty muihin esim dctermsiin tai owliin)
  • Aineiston elinkaaren tapahtumat. Näitä on kaksi eri settiä: "normaali" aineiston elinkaari sekä pitkäaikaissäilytykseen liittyvät (kuten migraatio tai PASsin tekemä validointi jne) Tähän liittyy myös tulossa oleva oma setti jossa on toimenpiteen tulos. Näissä on taustalla PREMIS-standardi. Kuten myös viimeisessä
  • Tiedostoformaatin versiotieto.

Use Category

Niille tiedoille joilla ei ole URI-tunnistetta luomme PURL-tunnisteen. Kaikkia näitä tulemme tarjoamaan sitten rajapinnan kautta avoimesti muillekin käyttöön, jotta on helppoa tuottaa yhteentoimivaa metatietoa tutkimusaineistoista. Tosin tässä on oltava tarkkana dokumentaation suhteen. Sitäkin pohdimme eilen, miten APIt parhaiten dokumentoitaisiin. Nyt ajateltiin jonkinlaista Swagger - Read the Docs - yhdistelmää. Kuulemmekin mielellämme mielipiteitä aiheesta, mikä mahtaisi olla hyvä ja selkeä tapa käyttäjiemme kannalta?



onsdag 20 juni 2018

Metax & OAI-PMH metadata harvesting

Soon to be launched Metax is the metadata repository at the heart of the Fairdata services. Since it does not have a graphical user interface, all of the interactions are handled through APIs. Metax REST API provide a set of restricted endpoints for integrated services to manipulate the state of the repository, as well as an openly available read-only data regarding datasets, data catalogs and schemas.

In order to match the capabilities of the current/old/to be deprecated Etsin service, Metax also acts as an OAI-PMH data provider. OAI-PMH specification defines a set of actions and an xml based container format for harvesting metadata according to different schemas. The API can be used for bulk harvesting, where the all the metadata is downloaded in its entirety, or for selective harvesting based on sets and/or modification date of the record.

Currently Metax exposes the following sets for harvesting:


  • att_dataset - datasets that consists of external/remote resources. 
  • ida_datasets - datasets whose content is stored and maintained by the IDA service.
  • datasets - records from both ATT and IDA catalogs
  • datacatalogs - List of available data catalogs. This includes also catalogs that are populated with externally harvested content.


Harvested records contain a header with an identifier, timestamp and possible set specification, and a metadata section that conforms to the requested metadata format. There has been a lot of internal discussion about versions and identifiers in Metax (see blog this blog post). The OAI-PMH interface uses the metadata identifier (i.e. metadata version identifier) as opposed to dataset's preferred identifier for its dataset records. Metadata identifiers are always UUIDs created internally by Metax. Some of the dataset identifiers are also URN's generated by Metax, but they can also be for example DOIs assigned and maintained outside Metax and Fairdata services. Data catalogs are purely internal concept so the same one identifier is used to refer to the metadata and the actual catalog.

Metax currently has support for simple oai_dc (link) and a more complex and usable Datacite 4.1 formats for metadata output. The OAI-PMH output is geared towards harvesting through "standard" formats, and the full data according to Metax's internal data model is available through the REST API. There are however couple of deviations from the Datacite specs. The specification only allows DOIs as the primary identifier for the dataset, but at least for now, the most prominent type of identifier is URN that has been minted by Metax itself. Also the content of the element is expressed using three letter code instead of two letters. These are hopefully small potatoes for the consumers of the data and something that can be fixed as the development of Metax moves along.

What is still missing from the implementation is the handling of deleted records. When a user removes a dataset records, Metax flags it as deleted and retains the actual record. This would allow us to implement persistent handling of deleted records in the OAI-PMH interface. The twist that complicates the implementation is that the URN resolver is going to be using the OAI-PMH interface as its source data. The resolver is responsible for providing redirection from urn.fi/[identifier] addresses to the Fairdata Etsin urls. Should the identifiers of deleted datasets still resolve to a page in Etsin that says that dataset was deleted? This would be beneficial for example, if the page contains contains links to newer/other versions of the deleted dataset.

fredag 25 maj 2018

API-pohdintaa

Olemme käyneet hieman läpi millaisia rajapintoja meillä Metaxissa on nyt ensimmäisessä vaiheessa. Kun vanha Etsin poistuu käytöstä kuvailun siirtyessä Qvain-palveluun, Etsimen nykyinen rajapintakin vanhenee. Tulevaisuudessahan ajantasaiset metatiedot löytyvät meiltä MetaXista. Tosin MetaXin APIssa ei ole mitään sen hienompia hakutoiminnallisuuksia (vielä ainakaan) vaan se lähinnä vastaille pid-kyselyihin. Varsinainen indeksinti tehdään Etsimen puolella, mutta siellä taas ei ole täydellisiä tietoja kaikista dataseteistä (esim. vanhat versiot).

Toinen kiinnostava fairdata-rajapinta tulee olemaan Metaxin kyljessä oleva ElasticSearch, joka tarjoaa referenssidatoja, eli relevantteja tunnisteita, joista voi olla hyötyä myös tutkimusorganisaatioille.

Tässä alustava lista varsinaisen Metaxin rajapinnoista (huom: voi vielä muuttua!) Nykyisen Etsimen rajapintojen hyödyntäjien on siis syytä varautua muutoksiin ja olla yhteydessä meihin, jotta voimme auttaa ylimenokauden aikana.

API
URL
Fairdata users
World Access
Comment
OAI-PMH
URN resolving
Read only
Format: DataCite
Dataset/rest/datasets
Writes: Qvain, Etsin, PAS
Reads: Qvain, Etsin, PAS, OD
Read only
For non-service users, the following fields are removed:
  • phone
  • email
Data Catalog/rest/datacatalogs
Writes: Metax, Etsin
Reads: Qvain
Read only
Schemas/rest/schemasReads: Qvain(?)Read onlyServes the schemas used by datacatalogs
File
Writes: IDA
Reads: IDA,OD, PAS
Closed
Contract
Writes: PAS
Reads: PAS
Closed
File Storage
Writes: MetaxClosed
Directories
Writes: Non-writable
Reads: Etsin, Qvain, OD
Closed
Api for browsing files:
  • Frozen files
  • Files associated with a dataset
Api Errors
Writes: Metax
Reads: Metax
ClosedServes details about errors occurred during requests

onsdag 16 maj 2018

Toimijat ja tutkimusaineistot


 Oscar Wilde by Napoleon Sarony - http://hdl.loc.gov/loc.pnp/ppmsca.07756, Public Domain.

Tutkimusaineistoihin ja niiden metatietoihin liittyy monenlaista toimijaa, niin henkilöä kuin organisaatiota. Aineiston kuvailuun liittyvät metatiedot palvelevat erilaisia tarkoituksia. Tiedot tukevat niin oikeuksien hallintaa, viittaamista ja meritoitumista kuin löydettävyyttä ja tiedon linkittymistä.

Eri metatietoformaateissa on kuitenkin erilaisia toimijoita ja rooleja ja ne on määritelty joskus hyvin löyhästi. On curatoria, data stewardia, custoidiania ja kaiken maailman contributortypeä. Asiaa ei helpota sekään, että viittausohjeita halutaan yleensä generoida automaagisesti, jotta niitäkin voi tehdä eri ohjeiden mukaan. Miten voisimme määritellä eri roolit, jotta niitä voisi ohjeistaa selkeästi ja käyttää yhdenmukaisesti!?

Kävimme läpi tavallisimpia metatietomalleja ja päädyimme seuraavanlaiseen hahmotelmaan:

Tekijä

Tämä on se perinteinen aineiston luoja, eli joskus creator, author tai originator. Suhteellisen selkä (vaikka tässäkin kohtaa jotkut tutkijat ilmoittavat organisaationsa ...)

Muu tekijä

Contributor. DataCitessä tähän liittyy iso kasa rooleja, joista vain osa (mutta suuri osa) menee tähän kategoriaan. Eri formaateista löytyy m.m. editor, processor, validator, producer, ...

Omistaja

Omistaminen on ehkä sähköisten aineistojen kohdalla vähän hassu konsepti. Puhummekin mieluummin RightsHolderista.  "Person or institution owning or managing property rights, including intellectual property rights over the resource", sanoo DataCite, jossa ei ole owneria lainkaan. Eli kyseessä on taho, jolla on päätösvaltaa aineistoon ja sen käyttöön liittyvissä kysymyksissä. Ja samalla myös vastuu siitä. Oikeuksien omistajia voi olla useita.

Kuraattori

Tähän haluaisimme henkilön ja hänen yhteystietonsa. Keneltä kysyä, kuka on hoitanut ja huoltanut aineistoa ja osaa kertoa siitä lisää? Käytettyjä termejä ovat curator, custodian, point of contact, data manager ja data steward.

Jakelija

Tämä taho on se perinteinen julkaisija, joka saattaa aineiston käytettäväksi. Metatiedossa kulkee nimellä distributor, publisher tai hosting institution. Tähän kohtaan sopii mieluiten organisaation tieto ja se ilmoitetaan viittauksessa, mikä on järkevää löydettävyyden tukemisen kannalta.


Tällaisella karkealla ryhmittelyllä toivomme sekä auttavamme ohjeistamista että helpottavamme mäppäyksiä. Kuulemme mielellämme millaisia ajatuksia ehdotuksemme herättää!


P.S. Testietsin on muuten avoinna maailmalle. Se on tosiaan tosi testiversio, eli se välillä toimii ja välillä ei. Eikä ole muutenkaan valmis. Mutta ainahan voi vähän kokeilla. Ja kommentoida.





onsdag 4 april 2018

Metaxporukka taas vauhdissa

Edellinen sprinttimme oli eräänlainen välisprintti, kun kehittäjämme pääosin tekivät muita Fairdata-palveluita, mm IDAa ja Etsintä. Tämän sprintin aikana selvittelemme tutkimuksen pitkäaikaissäilytyksen vaatimien metatietojen luonti- ja kirjoitusprosessia sekä mietimme tietojen luovuttamista ulos. Näyttäisi siltä, että ensi askel avaamiseen on OAI-PMH, joka tarjoaa DataCite -formaattia. Valmistaudumme näin myös mahdollisuuteen tulevaisuudessa tarjota DOI-tunnisteita Fairdata.fi-kokonaisuuden palveluille.

Toinen kokonaisuus, joka voisi olla mielenkiintoinen datasetti myös tutkimusorganisaatioille, on ElasticSearchissa olevat referenssidatamme, jossa on tarjolla tunnisteita esimerkiksi tutkimusinfrastruktuureille, tieteenaloille, käyttöoikeusluokille, lisensseille ja sen sellaisille asioille. Joskus nämä ovat primääridataa, joskus muualta kopioitua (esim. Finto).

Eräs asia, jota myös tulemme pohtimaan on Metaxin sisäisten aineistokatalogien kuvauksia ja määritelmiä. Ensinnäkin, jokainen haravointilähde on saa oman kataloginsa. Lisäksi pidämme erillämme IDA:ssa (ida-katalogi) olevat aineistot sekä muut palvelukokonaisuuden "omat" metatiedot (att-katalogi). Näille katalogeille pitää luoda kuvaukset. Ajatukseni on myös tällä hetkellä, että PAS-aineistot olisivat omassa katalogissaan, sillä tällä tavoin näitä aineistoja ja niiden kuvailutietomallia ja metatietoja olisi todennäköisemmin helpompi hallinnoida joustavasti, jos uusia tarpeita ilmenee. Haasteena tässä on ehkä määritellä suhde aineistoversioiden välille, jos tietueet ovat eri katalogeissa.



Katalogien tietomalli löytyy Yhteentoimiva Suomi -palvelusta.





måndag 26 mars 2018

Älykkäästi tietoa Suomessa tehtävästä tutkimuksesta

MetaX on tietenkin osa ympäröivää maailmaa, isompaa kokonaisuutta ja sen arvokkaat tiedot voivat tukea tutkimusorganisaatioitamme monella tavalla. Siksi vieraileva  naapuritiimimme CSC:stä kertoo tässä kirjoituksessa kansallisesta Tutkimustietovarannosta, jota ovat tekemässä. Metatiedoilla on nimittäin monenlaista käyttöä.

Tutkimuksessa, kuten kaikessa, on tavallista, että vuorollaan jotkut asiat ovat toisia trendikkäämpiä ja paremmin esillä. Puhutaan jopa hypestä. Tällä hetkellä keskustelu niin tutkimuksessa kuin muillakin kentillä käy kiivaana tekoälystä. Mitä tekoälyllä tarkoitetaan? Tiedätkö, keneen otat yhteyttä, jos haluat tietää lisää tekoälystä? Kuinka paljon Suomessa todellisuudessa tutkitaan tekoälyä? Ja miten tekoälyä voi edes tutkia, mitä aineistoja tutkijat voivat siihen käyttää? Kuka tekoälyn tutkimusta rahoittaa? Onko suomalainen tekoälytutkimus kiinnostavaa myös muualla maailmassa? Mikä muu tutkijoita tällä hetkellä kiinnostaa?


Tutkimustietovaranto vastaa älykkäästi esimerkiksi näihin kysymyksiin. Se kokoaa metatiedot Suomesta tehtävästä tutkimuksesta ja liittää yhteen muun muassa tiedot tutkijoista, tutkimuksen tuotoksista, organisaatioista, aineistoista ja rahoittajista. Voit tulevaisuudessa tarkistaa yhdestä paikasta, mitä tutkimusta tekoälystä on tehty, kuka on tehnyt ja kuka rahoittanut. Pysyvien tunnisteiden ansioista näet, mitä muuta alaan perehtynyt tutkija on urallaan tutkinut ja kuka muu on tutkinut samaa. Trendien ohella tutkimustietovaranto mahdollistaa myös uusien asiantuntijoiden ja tutkimusalojen esiintuomisen.


Kaikkein älykkäintä tutkimustietovarannossa on, ettei se vaadi ylimääräistä työtä vaan vähentää hallinnollisen työn taakkaa. Kaikki tietojensyöttö automatisoidaan useista eri lähdejärjestelmistä – kuten MetaXista – jonka jälkeen tieto on vapaasti käyttävissä erilaisissa sähköisissä järjestelmissä. Esimerkiksi tutkijan ei tarvitse joka kerta syöttää julkaisuluetteloaan eri hakemuksiin, vaan tiedot saa kätevästi poimittua tutkimustietovarannosta. Tutkimustietovarannon avoin rajapinta mahdollistaa myös lukuisten uusien tutkimustietoa hyödyntävien palveluiden ja sovellusten kehittämisen.


Kansallinen tutkimustietovaranto on kansainvälisesti uraauurtava palvelu. Tutkimustietovarannon suunnittelu on aloitettu vuonna 2017 ja valmistuminen on arvioitu vuodelle 2020. CSC – Tieteen tietotekniikan keskus kehittää valtakunnallista tutkimustietovarantoa opetus-ja kulttuuriministeriön toimeksiannosta. Lisää tutkimustietovarannosta voit lukea tutkimustietovarannon blogista research.fi.

fredag 2 mars 2018

A Fair(y)data service user Tale

My wonderful colleagues suddenly felt an urge to tell a nice story in English about how they envision their mission providing a convenient research data service. It presents a user perspective and we hope it can help us spot issues in the integration processes. Please, feel free to comment, honoured colleagues from near and far! 

So, buckle up: Once upon a time ...


1. There are three wise researchers from University of Turku, Tampere and from the Jyväskylä University of applied sciences. They have gathered amazing data about one special flea species that lives in house sparrows. They (the researchers, not the sparrows) are now finalizing an article and they want to include a data citation to their data, to give it the visibility it deserves. Therefore, they need a persistent identifier for their dataset. The researchers have a common storage space in the far-famed IDA service. To gather the data they use their IDA project’s staging area, which is a folder with full editing rights for all project members. Each researcher, of course, uses sensible file names and well-organised folder structures to make it easy to keep track of data files. 

However, when they’re ready to publish their final results they feel that they could reorganize their data once more. No worries: all project members are free to rename and rearrange data in the staging area. 

After deciding to publish the sparrow-flea-data the project members carefully arrange the data under one root folder in the staging area. After they’re happy with the new folder structure and file names one of the researchers chooses the root folder of the ready data and clicks on the button "Freeze".



2. The freezing feature moves all data under the chosen root folder to the projects frozen area and makes it read-only. The file metadata is stored in MetaX in a background operation, which makes the file metadata available for other services in the ecosystem.

The other two researchers go to check the files in the project’s freezing area and download it on their own computers. They both see that it’s the final version of the data and everything’s good to go. The researchers are now ready to publish the data. Hooray!








3. One of the researchers clicks “create a new dataset” button in IDA and is taken to Qvain. She’s presented with a metadata editor where she can fill out metadata about the dataset she’s about to publish. She clicks the Get persistent identifier button and the UI now shows a PID she can send over to her colleague for the article. She then fills the required fields and even adds geospatial data about the locations where the data was gathered “Pretty neat”, she thinks and hits a button in Qvain called “IDA file picker”.





4. The researcher is now presented with a file system view similar that she has in IDA. One big difference is that she only sees the data that is in the project’s frozen area. The other older versions and raw data that the researchers had stored in the staging area are not visible. The file picker is actually not showing IDA, but the file metadata (file path, name, size, checksum etc..) that was stored in MetaX when the file was frozen in IDA.

The user selects the root folder of the frozen data, which automatically selects all files and subfolders that are under it. She sets the data as freely accessible. This means that once the dataset metadata is published, anyone browsing the dataset can download the files linked to it on their own computer.





5. The researcher is a bit unsure about what licence they should use for the dataset. She hits “Save as Draft” (and not “Save and Publish”) which saves a local copy of the dataset description in Qvain. She goes talk to her colleague in the next room. The colleague tells her that the default in Qvain called CC-BY-4.0 is a good and recommended option for research data.







6. The researcher is happy with the way the dataset description looks and clicks the “Save and publish” button. She’s presented with a link to Etsin research data finder to view the published data. What she doesn’t see, is that the dataset metadata and links to IDA file metadata have now been stored to MetaX. 

All the dataset metadata, including links to file metadata that MetaX knows, are shown by Etsin. However, the metadata about files in IDA’s frozen area that are not linked to any dataset metadata are not shown nor searchable in Etsin.







7. The researcher clicks the link that takes her to Etsin and sees a page that is called a dataset landing page. The page shows the metadata and the file links that she created using Qvain. Next to the information about the data files there’s a button that says “Download all”. The researcher clicks the button and her browser starts to download the files. When she clicks the button the information about the dataset identifier and about the internal identifiers of the files is taken to the Fairdata data access service, which then queries MetaX. The Fairdata data access service needs to know that the dataset identifier and the file identifiers exist, and that the dataset truly is downloadable by all users. They are, so MetaX answers tells the Fairdata access service where the files are located in IDA. The Fairdata data access service then uses a special API in IDA to fetch the files.


8. The researcher now sees that anyone can download their data on their own computer and knows how to use and cite it! 


-- Updated 7.3. step 7, details about downloading files

tisdag 20 februari 2018

Voihan versio!

By The Conmunity - Pop Culture Geek from Los Angeles, CA, USA (WonderCon 2011 - Clone Troopers) [CC BY 2.0 (http://creativecommons.org/licenses/by/2.0)], via Wikimedia Commons

Versioinnin toteutus liittyen eri tyyppisiin tutkimusaineistoihin on ollut muutaman viimeisen sprintin vakiopuheenaihe. Monet keskustelun avaukset ovat päätyneet nopeasti umpikujaan yhteisesti sovittujen käsitteiden puuttumisen takia. Pelkästä versioinnista puhuminen, ilman tarkentavaa määrettä, on hankaloittanut keskustelua, koska Metax käsittelee tutkimusaineistoihin liittyviä versioita sekä metatieto- että datatasolla. Metaxin tavoitteena on ylläpitää molempiin liittyviä versiohistorioita datan ja datan kuvauksen provenienssin säilyttämiseksi. Toisaalta, koska varsinainen aineisto sijaitsee aina Metaxin ulkopuolisessa järjestelmässä kuten esimerkiksi IDAssa, kyse on pikemminkin datalinkityksistä. Aineistoon liittyvät tiedostot voivat myös sisältää metatietoa aineistosta, joten osa metatiedostakin on Metaxin ulottumattomissa.

Staattisen aineiston versioinnin lähtökohtana on, että jos tutkimusaineistoon liittyvät tiedostot muuttuvat millään tavalla, aineistosta on tehtävä uusi versio, joka saa uuden URN-muotoisen tunnisteen. Kumulatiivisiin aineistoihin voidaan sen sijaan lisätä uusia tiedostoja ilman, että tutkimusaineiston tunniste muuttuu. Kumulaativisten tutkimusaineistojen luominen on aluksi mahdollista ainoastaan sellaisille aineistoille, joiden tiedostot on tallennettu IDAan. IDA tarjoaa Metaxille luotettavan tiedon yksittäisten tiedostojen identiteetistä, minkä avulla Metax voi päätellä ovatko tutkimusaineistoon liittyvät tiedostot muuttuneet. Muissa järjestelmissä olevien tiedostojen kohdalla vastaavanlainen toiminnallisuus voisi liittyä esimerkiksi aineistoon liittyvien tiedostojen checksum-tietojen vertailuun, mutta tätä ei ole vielä toteutettu.

Tiedoston lisääminen tarkoittaa tässä yhteydessä linkin luomista tutkimusaineiston ja tiedoston välillä tietokantatasolla, mikä mahdollistaa lisättyjen tiedostojen selailun Etsimessä, mutta kyseiset tiedostot eivät kuitenkaan näy osana tutkimusaineiston metatietoja. Toteutuksen ansiosta paljon tiedostoja sisältävät aineistot eivät kasvata metatietodokumenttia, jos tiedostoja ei ole erikseen kuvailtu. Tiedoston kuvailu tarkoittaa metadatan lisäämistä lisättyyn tiedoston tai hakemiston metatietoihin Metaxin Research dataset -katalogiin. Metatieto voi olla esimerkiksi tiedoston tyyppi (dokumentaatio, konfiguraatio jne.) tai tarkempi nimike. Tiedostojen kuvailut tallennetaan osaksi tutkimusaineiston metadataa, mikä puolestaan tuottaa uuden metadataversion.

Tutkimisaineistojen versioiden väliset linkityksen tulisi olla myös osa metatietoja. Esimerkiksi DataCite sisältää relaatiot “isNewVersionOf” ja “isPreviousVersionOf”, joita voidaan käyttää tutkimusaineistojen linkittämiseen toisiinsa. Kun käyttäjä luo uuden version olemassa olevasta aineistosta, Metax lisää uuden tutkimusaineiston metatietoihin automaattisesti linkin aikaisempaan versioon. Koska versiolinkki on osa Qvaimessa vapaasti muokattavissa olevia relaatiotietoja, on mahdollista, että käyttäjä syystä tai toisesta poistaa linkin tai muokkaa sen sisältämään virheellisiä tietoja. Tästä syystä Metax ylläpitää tietokantatasolla tietoja myös tutkimusaineistojen versioiden välisistä linkeistä samaan tapaan kuin metatietoversioista, joita käyttäjä ei pysty muokkaamaan. Etsin käyttää tätä muuttumatonta versiota versiotiedostosta(!) hakuindeksin ylläpitoon ja versioiden näyttämiseen käyttöliittymässä.

Fairdata-kokonaisuuteen liittyvät komponentit aineistojen tallentamiseen (IDA), kuvailuun (Qvain) ja hakuun (Etsin) liittyvät toisiinsa Metaxin kautta, jonka tavoitteena on tarjota palveluille skaalautuva, varmatoiminen ja turvallinen ratkaisu datan integroimiseen. Versioilla ja versioilla on vaikutuksia sekä aineiston kuvailuun Qvaimen päässä että niiden näyttämiseen osana Etsimen käyttöliittymää. Qvaimen käyttäjä saattaa esimerkiksi haluta vertailla saman tutkimusaineiston metadatan versioita selvittääkseen kuvaukseen liittyviä ongelmia. Etsimen käyttäjä on puolestaan todennäköisesti kiinnostunut enemmän tutkimusaineistojen eri versioista.

tisdag 13 februari 2018

IDAn migraatiot käynnistyvät

IDA:n uudistumiseen liittyvät datamigraatiot ovat nyt alkaneet. Datamigraatioiden aikana käyttäjien palveluun lataamat tiedostot kopioidaan vanhasta IDAsta uuteen ympäristöön. Nyt meneillään olevan datasiirtovaiheen jälkeen alkavat varsinaiset projektikohtaiset migraatiot, joiden aikana tehdään datasiirtojen tarkistus ja mm. tiedostojen järjestelmätietojen siirto, niin että kaikki tarvittava tieto tuodaan vanhasta ympäristöstä uuteen. MetaX astuu kuvaan vasta kun tiedostoja migraation jälkeen jäädytetään uudessa ympäristössä, jolloin niistä siirtyy tietoja metatietovarantoon file API:n kautta.

Uudessa IDA:ssa on nimittäin kaksi eri säilytysaluetta: valmistelualue (staging) ja jäädytetty alue (frozen). Valmistelualueella projektin jäsenet voivat lisätä, uudelleennimetä, ylikirjoittaa ja poistaa dataa sekä muokata hakemistorakenteita. Valmistelualueella hakemistojen ja tiedostojen metatietoja ei tallenneta metatietovarantoon eli ne eivät myöskään näy tutkimusaineistojen kuvailutyökalussa. Uudistuneessa IDAssa ei itsessään tulla enää liittämään tiedostoihin käyttäjän luomaa metadataa, vaan IDA-tiedostoja tullaan kuvailemaan aineistoiksi tulossa olevalla kuvailutyökalulla, jolla tehty aineistometadata tallentuu Metaxiin. Valmistelualueen tiedostoista ei tehdä replikaa, joten datan tallennus valmistelualueelle ei suojaa dataa häviämiseltä mikäli palveluun tulee vakava vikatilanne. RAIDin ansiosta kuitenkaan yksittäinen levyrikko palvelussa ei aiheuta datan häviämistä.

Uudistunut IDA tulee loppukäyttäjien saataville kevään kuluessa. Kuva Pekka Tolvanen CC BY-NC-SA 2.0

Kun käyttäjä jäädyttää uudessa IDAssa dataa, data siirtyy IDAn valmistelualueelta jäädytetylle alueelle. Jäädytetyllä alueella tiedostoilla on UUID:t, tarkistussummat ja niiden metatiedot tallennetaan metatietovarantoon. Jäädytetyn alueen tiedostoista tehdään myös replika toiselle medialle jäädytyksen yhteydessä.

Uudistuneen IDAn käyttöönotto on tarkoitus tehdä niin, että ensimmäiset vanhasta IDAsta migroidut projektit ottavat palvelun käyttöön suunnilleen samoihin aikoihin kun palvelu tulee myös uusien IDA-käyttäjien saataville. Projektit migroidaan uuteen palveluun osissa, eli kaikille vanhoille käyttäjille uusi IDA ei tule samana ajanhetkenä käyttöön. IDA:n verkkosivuille tullaan lisäämään tarkennusta aikatauluun migraation edetessä. Ajankohta-arvio uudistuneen IDA-palvelun käyttöönotolle on maalis-huhtikuu 2018.

Uuden ympäristön loppukäyttäjille tarjolla oleva verkkotallennustila on rakennettu NextCloud-ohjelmiston päälle. On tärkeä kuitenkin huomioida, että IDA:ssa on poistettu käytöstä monia NextCloudin toiminnallisuuksia ja rakennettu uusia. Siksi on hyvä tutustua tarkasti uuden IDA:n käyttöoppaaseen, joka tullaan pian lisäämään IDAn verkkosivuille. Myöskään loppukäyttäjille ei ole järkevää mainostaa IDA NextCloudina, sillä tiedostojen säilytykseen liittyvien toiminnallisuuksien vuoksi esim. NextCloudin native/mobiili clientia ei tueta, eikä myöskään monia muita rajapintaan liittyviä asioita.

Palvelun käyttö vaatii jatkossakin CSC-tunnuksen ja kuulumisen CSC-projektiin. Erillistä IDA-salasanaa ei jatkossa enää ole, vaan autentikaatio tehdään joko Hakalla tai suoraan CSC-tunnuksella.

fredag 26 januari 2018

Tutkimuksen aineistot ja niiden pysyvät tunnisteet



Tutkimusdataa on monenlaista ja sitä voi luokitella ja jaotella monella eri tavalla. Yksi tapa, joka on erityisen keskeinen kun puhutaan aineistojen elinkaaren hallinnasta ja tutkimuksen toistettavuuden tarpeista, on jakaa aineistot dynaamisiin, karttuviin ja staattisiin aineistoihin. Olemme Metaxin tiimissä työstäneet seuraavanlaista ratkaisua.

Dynaamiset aineistot ovat tietokantatyyppisiä ja niissä tehdään versionhallintaa. Niissä viittaukset (ja niissä käytettävät pysyvät tunnisteet) voivat vaikka olla tietokantakyselyitä. Näille aineistoille on tehty Research Data Alliance-työryhmässä omat viittausohjeet. Tällä hetkellä palvelukokonaisuutemme ei ainakaan vielä suoraan kata tämän tyyppisten aineistojen pitkäaikaista aineistonhallintaa tai pysyviä tunnisteita. Dynaamisia aineistoja ylläpidetäänkin pääosin tutkimusalakohtaissa asiantuntijaorganisaatioissa, sillä niiden ylläpitäminen ja hallinnointi vaatii erityisosaamista. Ne voivat myös olla riippuvaisia eri alojen erilaisista tarpeista ja käytännöistä. Mutta jos haluaa, metatietovarantoon voi tallentaa tällaisen luotettavan lähteen uri-tunnisteen remote resource-kohtaan ja kuvailla sen.


Staattinen aineisto on “perinteinen” tutkimusjulkaisu, jonka tunniste on ehdoton tae aineiston ainutkertaisuudesta ja siitä, että se on aina identtinen milloin ja mistä vaan siihen löytää tiensä. Kunnes se ehkä poistetaan tarpeettomana tai virheellisenä. Silloinkin sen tunniste resolvoituu edelleen kuvailusivulle. Jos staattinen aineisto muuttuu, siitä syntyy uusi versio, joka saa uuden oman pysyvän tunnisteen, joka linkittyy edellisiin versioihin. Tulemme hakupalvelussamme indeksoimaan vain uusimman version metatiedot, mutta niistä pääsee aina myös edellisiin versioihin. Vanhan version tunniste johtaa aina oikealle sivulle, mutta siitä näkee, että uudempiakin versioita on. Tällä tavoin viittaaminen on tutkijoille turvallista ja selkeää.


Karttuvat aineistot ovat hieman uudenlainen aineistotyyppi, vaikka sitä on jo suositeltu aiemmin.  Se sopii erityisesti erilaiselle mittausdatalle tai muille kasvaville aineistoille, joita kertyy aikasarjoina ja formaatiltaan täysin yhtenäisenä. Tällaista tarvetta varten ei ole tarpeen luoda uusia tunnisteita (metatietosettejä) joka kerta kun uutta dataa lisätään uudessa tiedostossa. Sen sijaan tällaisen avoimen datasetin kohdalla sallitaan vain yhdenlainen muutos: tiedoston lisääminen, mikä tallennetaan tapahtumana. Mikäli parametrit tai laatu jotenkin muuttuu, aineisto on suljettava. Siitä voi tehdä uuden version tai aloittaa uuden aineiston keräämisen uusilla metatiedoilla. Tällainen aineisto, joka on avoimessa tilassa, ei siis ole kokonaisuutena välttämättä täysin identtinen joka kerta kun tunnisteen kautta sinne päätyy. Silti viittaaminen on turvallista, koska olemassa oleviin tiedostoihin ei voi kajota. Mikäli tekijä poistaa tiedostoja, aineisto rikkoontuu ja poistuu, mutta muistosivu jää. Aineistosta voi tehdä uuden version, johon voi sitten viitata. Koska viittaamisohje on osa hakupalveluiden tehtävää, voidaan viittausohje laatia tälle aineistotyypille sopivalla tavalla, siten että viittamisen yhteydessä on syytä tarkentaa mitä osaa ainestossa on käytetty esim. päivämäärien avulla.

måndag 8 januari 2018

Lomiltapaluu isojen kysymysten äärelle


Ensimmäinen hahmotelma MetaXin softa-arkkitehtuurista


Tänään alkoi joululomien jälkeen uusi sprintti ja palattiin taas hieman paremmin organisoituun toimintamalliin. Lomien jälkeiset keskustelut koskivat muun muassa dokumentaation ja arkkitehtuurikuvien tuottamista. Sovimme myös pysyvien tunnisteiden käytöstä taas vähän lisää ja keskustelimme karttuvien aineistojen asettamista vaatimuksista. Ennen joulua tutkimusaineisto (Dataset) tietomalliin ilmestyi myös Restriction grounds eli assosiaatio, jonka avulla kerrotaan käyttörajoitusten peruste. Muuten käyttöoikeuksien metatiedoista voi lukea lisää viime vuonna julkaistusta selvityksestä,  jonka liitteistä löytää paljon relevanttia tietoa.

Pysyvien tunnisteiden osalta tärkeimpiä ovat tutkimusaineistojen ja aineistokatalogien tunnisteet. Ne tulevat näillä näkymin saamaan urn-muotoiset resolvoituvat tunnisteet. MetaX antaa näitä tunnisteita ja huolehtii siitä, että Kansalliskirjaston resolverilla on oikea tieto kuvailusivujen verkko-osoitteista. Tässä vaiheessa vältämme resolvoituvien tunnisteiden jakamista millekään muulle, ja palvelukokonaisuudessa tullaan operoimaan UUID:n varassa. Pyrimme välttämään semantiikkaa mahdollisimman tarkkaan, jotta tunnisteet olisivat tyhmiä, kuten sekä EU:n että kypsissä tutkimusaineistoyhteyksissä suositellaan.