Quant a
Què són les dades obertes?
L'Open Data Institute defineix les dades obertes de la següent manera:
Les dades obertes són dades a les quals qualsevol pot accedir, usar i compartir. Governs, empreses i particulars poden usar les dades obertes per obtenir beneficis socials, econòmics o mediambientals.
Per tal que les dades obertes esdevinguin útils s’han de posar a disposició del públic en un format no restringit i compatible per a la seva computació, i això és el que preten aquest Portal.
Com s'estructura el Portal de Dades Obertes de l'Ajuntament de Valls?
Les dades es presenten en recursos: taules, fitxers o mapes en formats estructurats i oberts, com CSV
o JSON
, per exemple. Aquests recursos s'agrupen en conjunts de dades segons la seva naturalesa. A la vegada, els conjunts de dades es classifiquen en categories, segons l'àmbit, o àmbits, dels que provenen o a què fan referència. Un recurs només pot pertanyer a un conjunt de dades, però un conjunt de dades pot pertanyer a més d'una categoria, si escau.
Així, per exemple, el conjunt de dades Població conté diferents recursos amb dades demogràfiques de la ciutat, i pertany a la categoria (o grup) Demografia, mentre que el conjunt de dades Pressupostos pertany a les categories Economia i Sector Públic i conté recursos amb dades relatives als pressupostos de l'Ajuntament.
Implementació
Per la implementació del Portal de Dades Obertes hem utilitzat eines de codi obert instal·lades en contenidors, dockeritzades, per tal de facilitar la seva instal·lació i possibles posteriors trasllats i escalats.
S'ha muntat una infraestructura de contenidors interconnectats que permet la ingestió i transformació automàtiques de les dades, així com la seva inserció al Portal de manera totalment desatesa i segons una planificació establerta.
Finalment, s'ha creat l'aplicació OpenDChain, desenvolupada a l'Ajuntament, que replica les dades del Portal a la xarxa de fitxers distribuïts IPFS, per garantir-ne la disponibilitat, i en guarda el hash a una blockchain, per tal d'assegurar-ne la traçabilitat.
El Portal
El motor del Portal és l'eina de codi obert CKAN, instal·lada en un contenidor docker i a la que s'han afegit alguns plugins de visualització de dades geogràfiques.
L'eina disposa d'una interfície API que ens permet pujar-hi i modificar dades, i les seves metadades, de manera desatesa i remota.
Com s'alimenta?
Les dades a publicar s'extreuen de les bases de dades internes de l'Ajuntament, i de webs externes, com el Portal de Transparència de l'AOC o el servei de meteorologia.
L'eina triada ha estat el logstash, també de codi obert. Aquesta eina permet configurar un circuit de processat ETL (pipeline) amb plugins especialitzats per cadascuna de les tres fases: input, filter i output.
Els plugins d'ingestió (input) recullen les dades a intervals establerts des de les diferents fonts. En aquest projecte, hem utilitzat plugins per a fonts SQL i http.
Els diversos plugins de filtrat (filter) adapten les dades, si cal, a les necessitats del CKAN. Aquí es transformen, per exemple, les dades de data i hora al format adequat, s'afegeixen camps, o se substitueixen comes per punts, segons calgui en cada cas.
Finalment, els plugins de sortida (output) pujen les dades al CKAN a través de la seva API, generen un .CSV
i criden l'API de l'OpenDChain indicant que hi ha noves dades.
Permanència de les dades
L'OpenDChain, en rebre la crida des del logstash, replica el .CSV
a la xarxa de fitxers distribuïts IPFS.
Traçabilitat de les dades
Un cop guardat el .CSV
, l'OpenDChain recupera el hash del fitxer, i el guarda en una transacció a la blockchain ropsten, que és una de les xarxes de test del projecte Ethereum.
Posteriorment, utilitzant l'API del CKAN, modifica les metadades del dataset amb l'enllaç al fitxer a l'IPFS i el de la transacció a la blockchain, de manera que aquesta informació és accessible directament des del Portal de Dades Obertes.