MetaX-Blogi

Teemme ketterästi Suomen tutkimusaineistojen metatietovarantoa, joka tulee palvelemaan OKM:n tutkimusaineistopalveluita (esim. TPAS, IDA ja Etsin). Tässä blogissa käsitellään kehityksessä ajankohtaisia ja usein avoimia asioita, eikä mikään tässä esitetty edusta mitään virallisia linjauksia. Sen sijaan toivomme palautetta ja avointa keskustelua.

fredag 25 maj 2018

API-pohdintaa

Olemme käyneet hieman läpi millaisia rajapintoja meillä Metaxissa on nyt ensimmäisessä vaiheessa. Kun vanha Etsin poistuu käytöstä kuvailun siirtyessä Qvain-palveluun, Etsimen nykyinen rajapintakin vanhenee. Tulevaisuudessahan ajantasaiset metatiedot löytyvät meiltä MetaXista. Tosin MetaXin APIssa ei ole mitään sen hienompia hakutoiminnallisuuksia (vielä ainakaan) vaan se lähinnä vastaille pid-kyselyihin. Varsinainen indeksinti tehdään Etsimen puolella, mutta siellä taas ei ole täydellisiä tietoja kaikista dataseteistä (esim. vanhat versiot).

Toinen kiinnostava fairdata-rajapinta tulee olemaan Metaxin kyljessä oleva ElasticSearch, joka tarjoaa referenssidatoja, eli relevantteja tunnisteita, joista voi olla hyötyä myös tutkimusorganisaatioille.

Tässä alustava lista varsinaisen Metaxin rajapinnoista (huom: voi vielä muuttua!) Nykyisen Etsimen rajapintojen hyödyntäjien on siis syytä varautua muutoksiin ja olla yhteydessä meihin, jotta voimme auttaa ylimenokauden aikana.

API
URL
Fairdata users
World Access
Comment
OAI-PMH
URN resolving
Read only
Format: DataCite
Dataset/rest/datasets
Writes: Qvain, Etsin, PAS
Reads: Qvain, Etsin, PAS, OD
Read only
For non-service users, the following fields are removed:
  • phone
  • email
Data Catalog/rest/datacatalogs
Writes: Metax, Etsin
Reads: Qvain
Read only
Schemas/rest/schemasReads: Qvain(?)Read onlyServes the schemas used by datacatalogs
File
Writes: IDA
Reads: IDA,OD, PAS
Closed
Contract
Writes: PAS
Reads: PAS
Closed
File Storage
Writes: MetaxClosed
Directories
Writes: Non-writable
Reads: Etsin, Qvain, OD
Closed
Api for browsing files:
  • Frozen files
  • Files associated with a dataset
Api Errors
Writes: Metax
Reads: Metax
ClosedServes details about errors occurred during requests

onsdag 16 maj 2018

Toimijat ja tutkimusaineistot


 Oscar Wilde by Napoleon Sarony - http://hdl.loc.gov/loc.pnp/ppmsca.07756, Public Domain.

Tutkimusaineistoihin ja niiden metatietoihin liittyy monenlaista toimijaa, niin henkilöä kuin organisaatiota. Aineiston kuvailuun liittyvät metatiedot palvelevat erilaisia tarkoituksia. Tiedot tukevat niin oikeuksien hallintaa, viittaamista ja meritoitumista kuin löydettävyyttä ja tiedon linkittymistä.

Eri metatietoformaateissa on kuitenkin erilaisia toimijoita ja rooleja ja ne on määritelty joskus hyvin löyhästi. On curatoria, data stewardia, custoidiania ja kaiken maailman contributortypeä. Asiaa ei helpota sekään, että viittausohjeita halutaan yleensä generoida automaagisesti, jotta niitäkin voi tehdä eri ohjeiden mukaan. Miten voisimme määritellä eri roolit, jotta niitä voisi ohjeistaa selkeästi ja käyttää yhdenmukaisesti!?

Kävimme läpi tavallisimpia metatietomalleja ja päädyimme seuraavanlaiseen hahmotelmaan:

Tekijä

Tämä on se perinteinen aineiston luoja, eli joskus creator, author tai originator. Suhteellisen selkä (vaikka tässäkin kohtaa jotkut tutkijat ilmoittavat organisaationsa ...)

Muu tekijä

Contributor. DataCitessä tähän liittyy iso kasa rooleja, joista vain osa (mutta suuri osa) menee tähän kategoriaan. Eri formaateista löytyy m.m. editor, processor, validator, producer, ...

Omistaja

Omistaminen on ehkä sähköisten aineistojen kohdalla vähän hassu konsepti. Puhummekin mieluummin RightsHolderista.  "Person or institution owning or managing property rights, including intellectual property rights over the resource", sanoo DataCite, jossa ei ole owneria lainkaan. Eli kyseessä on taho, jolla on päätösvaltaa aineistoon ja sen käyttöön liittyvissä kysymyksissä. Ja samalla myös vastuu siitä. Oikeuksien omistajia voi olla useita.

Kuraattori

Tähän haluaisimme henkilön ja hänen yhteystietonsa. Keneltä kysyä, kuka on hoitanut ja huoltanut aineistoa ja osaa kertoa siitä lisää? Käytettyjä termejä ovat curator, custodian, point of contact, data manager ja data steward.

Jakelija

Tämä taho on se perinteinen julkaisija, joka saattaa aineiston käytettäväksi. Metatiedossa kulkee nimellä distributor, publisher tai hosting institution. Tähän kohtaan sopii mieluiten organisaation tieto ja se ilmoitetaan viittauksessa, mikä on järkevää löydettävyyden tukemisen kannalta.


Tällaisella karkealla ryhmittelyllä toivomme sekä auttavamme ohjeistamista että helpottavamme mäppäyksiä. Kuulemme mielellämme millaisia ajatuksia ehdotuksemme herättää!


P.S. Testietsin on muuten avoinna maailmalle. Se on tosiaan tosi testiversio, eli se välillä toimii ja välillä ei. Eikä ole muutenkaan valmis. Mutta ainahan voi vähän kokeilla. Ja kommentoida.

onsdag 4 april 2018

Metaxporukka taas vauhdissa

Edellinen sprinttimme oli eräänlainen välisprintti, kun kehittäjämme pääosin tekivät muita Fairdata-palveluita, mm IDAa ja Etsintä. Tämän sprintin aikana selvittelemme tutkimuksen pitkäaikaissäilytyksen vaatimien metatietojen luonti- ja kirjoitusprosessia sekä mietimme tietojen luovuttamista ulos. Näyttäisi siltä, että ensi askel avaamiseen on OAI-PMH, joka tarjoaa DataCite -formaattia. Valmistaudumme näin myös mahdollisuuteen tulevaisuudessa tarjota DOI-tunnisteita Fairdata.fi-kokonaisuuden palveluille.

Toinen kokonaisuus, joka voisi olla mielenkiintoinen datasetti myös tutkimusorganisaatioille, on ElasticSearchissa olevat referenssidatamme, jossa on tarjolla tunnisteita esimerkiksi tutkimusinfrastruktuureille, tieteenaloille, käyttöoikeusluokille, lisensseille ja sen sellaisille asioille. Joskus nämä ovat primääridataa, joskus muualta kopioitua (esim. Finto).

Eräs asia, jota myös tulemme pohtimaan on Metaxin sisäisten aineistokatalogien kuvauksia ja määritelmiä. Ensinnäkin, jokainen haravointilähde on saa oman kataloginsa. Lisäksi pidämme erillämme IDA:ssa (ida-katalogi) olevat aineistot sekä muut palvelukokonaisuuden "omat" metatiedot (att-katalogi). Näille katalogeille pitää luoda kuvaukset. Ajatukseni on myös tällä hetkellä, että PAS-aineistot olisivat omassa katalogissaan, sillä tällä tavoin näitä aineistoja ja niiden kuvailutietomallia ja metatietoja olisi todennäköisemmin helpompi hallinnoida joustavasti, jos uusia tarpeita ilmenee. Haasteena tässä on ehkä määritellä suhde aineistoversioiden välille, jos tietueet ovat eri katalogeissa.Katalogien tietomalli löytyy Yhteentoimiva Suomi -palvelusta.

måndag 26 mars 2018

Älykkäästi tietoa Suomessa tehtävästä tutkimuksesta

MetaX on tietenkin osa ympäröivää maailmaa, isompaa kokonaisuutta ja sen arvokkaat tiedot voivat tukea tutkimusorganisaatioitamme monella tavalla. Siksi vieraileva  naapuritiimimme CSC:stä kertoo tässä kirjoituksessa kansallisesta Tutkimustietovarannosta, jota ovat tekemässä. Metatiedoilla on nimittäin monenlaista käyttöä.

Tutkimuksessa, kuten kaikessa, on tavallista, että vuorollaan jotkut asiat ovat toisia trendikkäämpiä ja paremmin esillä. Puhutaan jopa hypestä. Tällä hetkellä keskustelu niin tutkimuksessa kuin muillakin kentillä käy kiivaana tekoälystä. Mitä tekoälyllä tarkoitetaan? Tiedätkö, keneen otat yhteyttä, jos haluat tietää lisää tekoälystä? Kuinka paljon Suomessa todellisuudessa tutkitaan tekoälyä? Ja miten tekoälyä voi edes tutkia, mitä aineistoja tutkijat voivat siihen käyttää? Kuka tekoälyn tutkimusta rahoittaa? Onko suomalainen tekoälytutkimus kiinnostavaa myös muualla maailmassa? Mikä muu tutkijoita tällä hetkellä kiinnostaa?


Tutkimustietovaranto vastaa älykkäästi esimerkiksi näihin kysymyksiin. Se kokoaa metatiedot Suomesta tehtävästä tutkimuksesta ja liittää yhteen muun muassa tiedot tutkijoista, tutkimuksen tuotoksista, organisaatioista, aineistoista ja rahoittajista. Voit tulevaisuudessa tarkistaa yhdestä paikasta, mitä tutkimusta tekoälystä on tehty, kuka on tehnyt ja kuka rahoittanut. Pysyvien tunnisteiden ansioista näet, mitä muuta alaan perehtynyt tutkija on urallaan tutkinut ja kuka muu on tutkinut samaa. Trendien ohella tutkimustietovaranto mahdollistaa myös uusien asiantuntijoiden ja tutkimusalojen esiintuomisen.


Kaikkein älykkäintä tutkimustietovarannossa on, ettei se vaadi ylimääräistä työtä vaan vähentää hallinnollisen työn taakkaa. Kaikki tietojensyöttö automatisoidaan useista eri lähdejärjestelmistä – kuten MetaXista – jonka jälkeen tieto on vapaasti käyttävissä erilaisissa sähköisissä järjestelmissä. Esimerkiksi tutkijan ei tarvitse joka kerta syöttää julkaisuluetteloaan eri hakemuksiin, vaan tiedot saa kätevästi poimittua tutkimustietovarannosta. Tutkimustietovarannon avoin rajapinta mahdollistaa myös lukuisten uusien tutkimustietoa hyödyntävien palveluiden ja sovellusten kehittämisen.


Kansallinen tutkimustietovaranto on kansainvälisesti uraauurtava palvelu. Tutkimustietovarannon suunnittelu on aloitettu vuonna 2017 ja valmistuminen on arvioitu vuodelle 2020. CSC – Tieteen tietotekniikan keskus kehittää valtakunnallista tutkimustietovarantoa opetus-ja kulttuuriministeriön toimeksiannosta. Lisää tutkimustietovarannosta voit lukea tutkimustietovarannon blogista research.fi.

fredag 2 mars 2018

A Fair(y)data service user Tale

My wonderful colleagues suddenly felt an urge to tell a nice story in English about how they envision their mission providing a convenient research data service. It presents a user perspective and we hope it can help us spot issues in the integration processes. Please, feel free to comment, honoured colleagues from near and far! 

So, buckle up: Once upon a time ...


1. There are three wise researchers from University of Turku, Tampere and from the Jyväskylä University of applied sciences. They have gathered amazing data about one special flea species that lives in house sparrows. They (the researchers, not the sparrows) are now finalizing an article and they want to include a data citation to their data, to give it the visibility it deserves. Therefore, they need a persistent identifier for their dataset. The researchers have a common storage space in the far-famed IDA service. To gather the data they use their IDA project’s staging area, which is a folder with full editing rights for all project members. Each researcher, of course, uses sensible file names and well-organised folder structures to make it easy to keep track of data files. 

However, when they’re ready to publish their final results they feel that they could reorganize their data once more. No worries: all project members are free to rename and rearrange data in the staging area. 

After deciding to publish the sparrow-flea-data the project members carefully arrange the data under one root folder in the staging area. After they’re happy with the new folder structure and file names one of the researchers chooses the root folder of the ready data and clicks on the button "Freeze".2. The freezing feature moves all data under the chosen root folder to the projects frozen area and makes it read-only. The file metadata is stored in MetaX in a background operation, which makes the file metadata available for other services in the ecosystem.

The other two researchers go to check the files in the project’s freezing area and download it on their own computers. They both see that it’s the final version of the data and everything’s good to go. The researchers are now ready to publish the data. Hooray!
3. One of the researchers clicks “create a new dataset” button in IDA and is taken to Qvain. She’s presented with a metadata editor where she can fill out metadata about the dataset she’s about to publish. She clicks the Get persistent identifier button and the UI now shows a PID she can send over to her colleague for the article. She then fills the required fields and even adds geospatial data about the locations where the data was gathered “Pretty neat”, she thinks and hits a button in Qvain called “IDA file picker”.

4. The researcher is now presented with a file system view similar that she has in IDA. One big difference is that she only sees the data that is in the project’s frozen area. The other older versions and raw data that the researchers had stored in the staging area are not visible. The file picker is actually not showing IDA, but the file metadata (file path, name, size, checksum etc..) that was stored in MetaX when the file was frozen in IDA.

The user selects the root folder of the frozen data, which automatically selects all files and subfolders that are under it. She sets the data as freely accessible. This means that once the dataset metadata is published, anyone browsing the dataset can download the files linked to it on their own computer.

5. The researcher is a bit unsure about what licence they should use for the dataset. She hits “Save as Draft” (and not “Save and Publish”) which saves a local copy of the dataset description in Qvain. She goes talk to her colleague in the next room. The colleague tells her that the default in Qvain called CC-BY-4.0 is a good and recommended option for research data.6. The researcher is happy with the way the dataset description looks and clicks the “Save and publish” button. She’s presented with a link to Etsin research data finder to view the published data. What she doesn’t see, is that the dataset metadata and links to IDA file metadata have now been stored to MetaX. 

All the dataset metadata, including links to file metadata that MetaX knows, are shown by Etsin. However, the metadata about files in IDA’s frozen area that are not linked to any dataset metadata are not shown nor searchable in Etsin.7. The researcher clicks the link that takes her to Etsin and sees a page that is called a dataset landing page. The page shows the metadata and the file links that she created using Qvain. Next to the information about the data files there’s a button that says “Download all”. The researcher clicks the button and her browser starts to download the files. When she clicks the button the information about the dataset identifier and about the internal identifiers of the files is taken to the Fairdata data access service, which then queries MetaX. The Fairdata data access service needs to know that the dataset identifier and the file identifiers exist, and that the dataset truly is downloadable by all users. They are, so MetaX answers tells the Fairdata access service where the files are located in IDA. The Fairdata data access service then uses a special API in IDA to fetch the files.


8. The researcher now sees that anyone can download their data on their own computer and knows how to use and cite it! 


-- Updated 7.3. step 7, details about downloading files

tisdag 20 februari 2018

Voihan versio!

By The Conmunity - Pop Culture Geek from Los Angeles, CA, USA (WonderCon 2011 - Clone Troopers) [CC BY 2.0 (http://creativecommons.org/licenses/by/2.0)], via Wikimedia Commons

Versioinnin toteutus liittyen eri tyyppisiin tutkimusaineistoihin on ollut muutaman viimeisen sprintin vakiopuheenaihe. Monet keskustelun avaukset ovat päätyneet nopeasti umpikujaan yhteisesti sovittujen käsitteiden puuttumisen takia. Pelkästä versioinnista puhuminen, ilman tarkentavaa määrettä, on hankaloittanut keskustelua, koska Metax käsittelee tutkimusaineistoihin liittyviä versioita sekä metatieto- että datatasolla. Metaxin tavoitteena on ylläpitää molempiin liittyviä versiohistorioita datan ja datan kuvauksen provenienssin säilyttämiseksi. Toisaalta, koska varsinainen aineisto sijaitsee aina Metaxin ulkopuolisessa järjestelmässä kuten esimerkiksi IDAssa, kyse on pikemminkin datalinkityksistä. Aineistoon liittyvät tiedostot voivat myös sisältää metatietoa aineistosta, joten osa metatiedostakin on Metaxin ulottumattomissa.

Staattisen aineiston versioinnin lähtökohtana on, että jos tutkimusaineistoon liittyvät tiedostot muuttuvat millään tavalla, aineistosta on tehtävä uusi versio, joka saa uuden URN-muotoisen tunnisteen. Kumulatiivisiin aineistoihin voidaan sen sijaan lisätä uusia tiedostoja ilman, että tutkimusaineiston tunniste muuttuu. Kumulaativisten tutkimusaineistojen luominen on aluksi mahdollista ainoastaan sellaisille aineistoille, joiden tiedostot on tallennettu IDAan. IDA tarjoaa Metaxille luotettavan tiedon yksittäisten tiedostojen identiteetistä, minkä avulla Metax voi päätellä ovatko tutkimusaineistoon liittyvät tiedostot muuttuneet. Muissa järjestelmissä olevien tiedostojen kohdalla vastaavanlainen toiminnallisuus voisi liittyä esimerkiksi aineistoon liittyvien tiedostojen checksum-tietojen vertailuun, mutta tätä ei ole vielä toteutettu.

Tiedoston lisääminen tarkoittaa tässä yhteydessä linkin luomista tutkimusaineiston ja tiedoston välillä tietokantatasolla, mikä mahdollistaa lisättyjen tiedostojen selailun Etsimessä, mutta kyseiset tiedostot eivät kuitenkaan näy osana tutkimusaineiston metatietoja. Toteutuksen ansiosta paljon tiedostoja sisältävät aineistot eivät kasvata metatietodokumenttia, jos tiedostoja ei ole erikseen kuvailtu. Tiedoston kuvailu tarkoittaa metadatan lisäämistä lisättyyn tiedoston tai hakemiston metatietoihin Metaxin Research dataset -katalogiin. Metatieto voi olla esimerkiksi tiedoston tyyppi (dokumentaatio, konfiguraatio jne.) tai tarkempi nimike. Tiedostojen kuvailut tallennetaan osaksi tutkimusaineiston metadataa, mikä puolestaan tuottaa uuden metadataversion.

Tutkimisaineistojen versioiden väliset linkityksen tulisi olla myös osa metatietoja. Esimerkiksi DataCite sisältää relaatiot “isNewVersionOf” ja “isPreviousVersionOf”, joita voidaan käyttää tutkimusaineistojen linkittämiseen toisiinsa. Kun käyttäjä luo uuden version olemassa olevasta aineistosta, Metax lisää uuden tutkimusaineiston metatietoihin automaattisesti linkin aikaisempaan versioon. Koska versiolinkki on osa Qvaimessa vapaasti muokattavissa olevia relaatiotietoja, on mahdollista, että käyttäjä syystä tai toisesta poistaa linkin tai muokkaa sen sisältämään virheellisiä tietoja. Tästä syystä Metax ylläpitää tietokantatasolla tietoja myös tutkimusaineistojen versioiden välisistä linkeistä samaan tapaan kuin metatietoversioista, joita käyttäjä ei pysty muokkaamaan. Etsin käyttää tätä muuttumatonta versiota versiotiedostosta(!) hakuindeksin ylläpitoon ja versioiden näyttämiseen käyttöliittymässä.

Fairdata-kokonaisuuteen liittyvät komponentit aineistojen tallentamiseen (IDA), kuvailuun (Qvain) ja hakuun (Etsin) liittyvät toisiinsa Metaxin kautta, jonka tavoitteena on tarjota palveluille skaalautuva, varmatoiminen ja turvallinen ratkaisu datan integroimiseen. Versioilla ja versioilla on vaikutuksia sekä aineiston kuvailuun Qvaimen päässä että niiden näyttämiseen osana Etsimen käyttöliittymää. Qvaimen käyttäjä saattaa esimerkiksi haluta vertailla saman tutkimusaineiston metadatan versioita selvittääkseen kuvaukseen liittyviä ongelmia. Etsimen käyttäjä on puolestaan todennäköisesti kiinnostunut enemmän tutkimusaineistojen eri versioista.

tisdag 13 februari 2018

IDAn migraatiot käynnistyvät

IDA:n uudistumiseen liittyvät datamigraatiot ovat nyt alkaneet. Datamigraatioiden aikana käyttäjien palveluun lataamat tiedostot kopioidaan vanhasta IDAsta uuteen ympäristöön. Nyt meneillään olevan datasiirtovaiheen jälkeen alkavat varsinaiset projektikohtaiset migraatiot, joiden aikana tehdään datasiirtojen tarkistus ja mm. tiedostojen järjestelmätietojen siirto, niin että kaikki tarvittava tieto tuodaan vanhasta ympäristöstä uuteen. MetaX astuu kuvaan vasta kun tiedostoja migraation jälkeen jäädytetään uudessa ympäristössä, jolloin niistä siirtyy tietoja metatietovarantoon file API:n kautta.

Uudessa IDA:ssa on nimittäin kaksi eri säilytysaluetta: valmistelualue (staging) ja jäädytetty alue (frozen). Valmistelualueella projektin jäsenet voivat lisätä, uudelleennimetä, ylikirjoittaa ja poistaa dataa sekä muokata hakemistorakenteita. Valmistelualueella hakemistojen ja tiedostojen metatietoja ei tallenneta metatietovarantoon eli ne eivät myöskään näy tutkimusaineistojen kuvailutyökalussa. Uudistuneessa IDAssa ei itsessään tulla enää liittämään tiedostoihin käyttäjän luomaa metadataa, vaan IDA-tiedostoja tullaan kuvailemaan aineistoiksi tulossa olevalla kuvailutyökalulla, jolla tehty aineistometadata tallentuu Metaxiin. Valmistelualueen tiedostoista ei tehdä replikaa, joten datan tallennus valmistelualueelle ei suojaa dataa häviämiseltä mikäli palveluun tulee vakava vikatilanne. RAIDin ansiosta kuitenkaan yksittäinen levyrikko palvelussa ei aiheuta datan häviämistä.

Uudistunut IDA tulee loppukäyttäjien saataville kevään kuluessa. Kuva Pekka Tolvanen CC BY-NC-SA 2.0

Kun käyttäjä jäädyttää uudessa IDAssa dataa, data siirtyy IDAn valmistelualueelta jäädytetylle alueelle. Jäädytetyllä alueella tiedostoilla on UUID:t, tarkistussummat ja niiden metatiedot tallennetaan metatietovarantoon. Jäädytetyn alueen tiedostoista tehdään myös replika toiselle medialle jäädytyksen yhteydessä.

Uudistuneen IDAn käyttöönotto on tarkoitus tehdä niin, että ensimmäiset vanhasta IDAsta migroidut projektit ottavat palvelun käyttöön suunnilleen samoihin aikoihin kun palvelu tulee myös uusien IDA-käyttäjien saataville. Projektit migroidaan uuteen palveluun osissa, eli kaikille vanhoille käyttäjille uusi IDA ei tule samana ajanhetkenä käyttöön. IDA:n verkkosivuille tullaan lisäämään tarkennusta aikatauluun migraation edetessä. Ajankohta-arvio uudistuneen IDA-palvelun käyttöönotolle on maalis-huhtikuu 2018.

Uuden ympäristön loppukäyttäjille tarjolla oleva verkkotallennustila on rakennettu NextCloud-ohjelmiston päälle. On tärkeä kuitenkin huomioida, että IDA:ssa on poistettu käytöstä monia NextCloudin toiminnallisuuksia ja rakennettu uusia. Siksi on hyvä tutustua tarkasti uuden IDA:n käyttöoppaaseen, joka tullaan pian lisäämään IDAn verkkosivuille. Myöskään loppukäyttäjille ei ole järkevää mainostaa IDA NextCloudina, sillä tiedostojen säilytykseen liittyvien toiminnallisuuksien vuoksi esim. NextCloudin native/mobiili clientia ei tueta, eikä myöskään monia muita rajapintaan liittyviä asioita.

Palvelun käyttö vaatii jatkossakin CSC-tunnuksen ja kuulumisen CSC-projektiin. Erillistä IDA-salasanaa ei jatkossa enää ole, vaan autentikaatio tehdään joko Hakalla tai suoraan CSC-tunnuksella.