Datos abertos (open data)

Open Data

"Unha obra ou contido son abertos se calquera é libre de utilizalos, reutilizalos e redistribuílos, coa única obriga, como máximo, de recoñecemento e/ou compartir-igual."

Definición

Máis información

Open Data: unlocking innovation and performance with liquid information. Informe do Mckinsey Global Institute sobre o desbloqueo da innovación e rendemento con información líquida.

Principios de Panton: conxunto de principios escritos 2009 no Panton Arms en Cambridge, máis tarde perfeccionados coa axuda de membros do Open Knowledge Foundation Working Group on Open Data in Science e oficialmente publicados en febreiro de 2010. Teñen como obxectivo dar recomendacións sobre o uso e difundir a importancia dos Open Data para o desenvolvemento eficaz da ciencia e da sociedade.

Declaración de A Haia sobre descubrimento de coñecemento na era dixital, elaborada por LIBER para promover a remoción dos obstaculos na lexislación de copyright e doutras barreras que impiden un acceso más amplo e equitativo aos datos; busca o establecemento dunha excepción de copyright en favor da minería de datos (text and data mining).

The Right to Read is the Right to Mine (LERU, 2015) reclama que a reforma do copyright na UE contemple duas excepcións obligatorias: unha para fins de investigación e educación, e outra que permita aos usuarios a minería do texto e dos datos de todo o contido ao que teñan acceso legal; é dicir, o dereito a ler e o dereito a minar.

Políticas de datos abertos

Common European Research Information Format (CERIF): modelo de datos de investigación desenvolvido co apoio de Comisión Europea en dúas fases: de 1987 a 1990, e de 1997 a 1999. É unha norma; técnicamente, una recomendación da Unión Europea aos estados membros. Dende 2002, o mantemento de CERIF correspéndelle por encargo da Comisión a euroCRIS, organización sen ánimo de lucro dedicada á promoción dos CRIS (Current Research Information Systems).

MareData (Red Española sobre Datos de Investigación en Abierto): rede de investigación composta por grupos de investigación de sete institucións (CSIC-IATA, CSIC-EINGENIO-UV, UA, UB, UC3M, UOC, UPV), con liñas de investigación relacionadas coa xestión dos datos científicos: interoperabilidade, publicación, acceso, localización, preservación e métricas de impacto. O obxectivo da rede é coordinar a actuación dos grupos de investigación e contribuír a estruturar un marco de ciencia aberta en España.

OpenAIREplus: proxecto continuación de OpenAIRE dirixido a publicación e incorporación dos conxuntos de datos (datasets) de investigación aos artigos científicos financiados polo programa Horizon 2020.

Open Research Data Pilot: novidade do programa Horizon2020, que ten como obxectivo mellorar e maximizar o acceso e a reutilización dos datos de investigación xerados por proxectos.

SIM4RDM Project: Support Infrastructure Models for Research Data Management. Mellores políticas para xestionar datos de investigación.

Repositorios de datos abertos

Abert@s: portal de datos abertos (open data) da Xunta de Galicia para impulsar a apertura de datos en todos os organismos do sector público rexional e promover a súa reutilización.

Australian National Data Service (ANDS): creado en 2008 para afrontar os retos de almacenar e xestionar os datos de investigación de Australia, e facelos accesíbeis para a súa análise e reutilización. Servizo liderado pola Monash University, en colaboración coa Australian National University e CSIRO.

Catálogos de datasets do European Union Open Data Portal (Portal de datos abertos da UE): pódense buscar conxuntos de datos por palabra clave, materia, por editores destacados, os máis vistos, os máis novos, etc.

CERN Open Data portal: punto de acceso aos datos da investigación realizada no CERN. Divulga os resultados preservados de diversas actividades de investigación, incluíndo software e documentación necesarios para comprender e analizar os datos que están sendo compartidos.

Coruña Smart City Open Data: Portal de Datos Abertos da Coruña, iniciativa do Concello no marco do proxecto Coruña Smart City, para impulsar a apertura de datos en tódolos ámbitos locais e comarcais e promover a súa reutilización.

Databib Research Data  Repositories: absorbido en 2015 por re3data, é un catalógo, rexistro, directorio e repositorio. Encontra un lugar apropiado para depositar os teus datos e descubrir outros para o teu uso.

DataCite: organización internacional dedicada a mellora da identificación, referencia e métricas dos datos de investigación. Presenta diferentes recursos para axudar a que os investigadores fagan seus datos citables.

DataDryad.org: é un repositorio que permite que os datos subxacentes das publicacións científicas se usen libremente e se citen.

Data.gov: conxunto de datos abertos  e dispoñibles gratuítamente para a súa descarga e uso. Moitos dos conxuntos de datos son visibles a través de mapas interactivos

Datahub: plataforma de xestión de datos da Open Knowledge Foundation.

Data Level Metrics Project: o grupo UC3 da California Digital Library, PLOS e NCEAS da federación DataONE están a deseñar e desenvolver métricas para o seguimento e medida do uso dos datos, “data-level metrics” (DLM).

DataNet Federation Consortium: proxecto financiado pola National Science Foundation que ten os seguintes obxectivos: implementar unha rede nacional de datos, posibilitar a investigación colaborativa en coleccións de datos compartidos, permitir a reproducibilidade das investigacións; e encapsular o coñecemento necesario para levar a cabo análises de datos como workflows, e rexistrar e compartir workflows.

Data Portals: listaxe de máis de 400 portais Open Data de todo o mundo.

DataSearch: metabuscador de datos de investigación de Elsevier. Permite buscar conxuntos de datos de investigación a través de numerosos dominios e tipos (imaxes, documentos, datos brutos.. etc.) a partir dun conxunto de repositorios de datos.

The Dataverse Network: repositorio para datos de investigación que coida a preservación a longo prazo e as boas prácticas no seu arquivo, mentres que os investigadores poden compartir, controlar e obter recoñecemento dos seus datos.

Datos.bne.es: portal de datos bibliográficos da Biblioteca Nacional de España, publicados como Linked Open Data segundo as tecnoloxías da Web Semántica; ofrece ao usuario un novo modo de achegarse ás coleccións da BNE.

Datos.gob.es: portal de carácter nacional que organiza e xestiona o catálogo de información pública do sector público.

Datos Públicos: wiki que recompila datos públicos de fontes dispoñibles en España

DOAB: directory of open access books.

EPSIplatform, (sitio web eliminado, pero o seu contido manténse no European Data Portal) Europe One-Stop shop on Public Sector Informatión (PSI) Re-use: iniciativa da Comisión Europea co obxectivo de fomentar o mercado da reutilización de Información do Sector Publico (PSI) e dos Open Data na Unión Europea. O portal contén novas dos desenvolvementos da PSI e os Open Data europeos, casuística legal sobre a reulitización da PSI, boas prácticas e exemplos de novos produtos e servizos creados mediante a reutilización dos Open Data; e webinars e eventos en Europa. ePSIplatform abrangue moi diferentes campos, como ciencia e tecnoloxía, saúde, transporte e medio, entre outros.

European Data Portal: portal europeo que colleita metadatos dos portais do sector público de toda Europa. Consta de 70 catálogos, portais web que provén datos ao European Data Portal. Adicionalmente, recolle metadatos do European Union Open Data Portal.

European Union Open Data Portal (Portal de datos abertos da UE): punto de acceso único a gran variedade de datos elaborados polas institucións e outros organismos da Unión Europea. Os datos pódense utilizar, reutilizar, enlazar e redistribuír gratuítamente con fins comerciais ou non comerciais.

Figshare: é un repositorio onde os usuarios poden facer que todos os seus produtos de investigación estean a disposición para citalos, compartirlos e recoñocelos

Ideals illinois Digital: reúne, divulga e suministra o acceso á investigación da University of Illinoisat Urbana-Champaing, dun xeito fiable e continuo. Todas as teses  e conferencias depositadas desde o 2010 en adiante están disponibles.

Infraestructura de Datos Espaciales de España (Consejo Superior Geográfico): o portal de acceso á información xeográfica de España

Odisea: é un inventario dos depósitos que admiten conxuntos de datos de investigacion a escala mundial.  Permite buscar e suxerir novos bancos de datos

OpenAddresses: portal web open source para a xestión de enderezos postais xeoreferenciados.

OpenDataSoft: Listaxe de máis de 1600 portais de Open Data de todo o mundo

OpenGeoCode Catalog of Open Data Portals: listaxe elaborado mediante crowdsourcing de máis de 1400 portais de datos abertos.

Open Government Data, Catalogues: información da Open Knowledge Foundation sobre catálogos de open government data de todo o mundo.

Open Syllabus Explorer: base de datos elaborada polo Open Syllabus Project que recolle os libros citados en máis de un millón de programas de asignaturas. Inclúe o indicador de monografías Teaching Score (TS) que cuantifica nunha escala de 1 a 100 a presencia dunha obra nas guías docentes dunha disciplina concreta.

PANGAEA (Data Publisher for Earth & Environmental Science): biblioteca e editora de datos dixitais para a ciencia do sistema Terra. Os datos poder ser xeorreferenciados temporal (data/tempo ou períodos geocronolóxicos -eóns, eras, etc.-) ou espacialmente (latitude, lonxitude, altura/profundidade).

PKP: Public Knowledge Project :é unha iniciativa de varias universidades para o desenvolvemento de sofware de código aberto ea investigación para mellorar a calidade e o alcance das publicacións académicas

Purdue University Research Repository (PURR): sumistra online un espazo de traballo e unha plataforma de soporte para os datos que necesitan os investigadores da Purdue University e os seus colaboradores.

Research Data Australia: axuda a atopar, acceder e reutilizar datos para a investigación de máis de cen organizacións australianas de investigación, axencias gobernamentais e institucións culturais.

Re3data.org: registre of research data repositories: rexistro mundial de repositorios de datos de investigación de diferentes disciplinas académicas, co obxectivo de promover unha cultura de intercambio, un maior acceso e unha millor visibilidadedos datos de investigación. Xestionado e mantido por DataCite.

Scientific Data: revista en acceso aberto e con revisión por pares do Nature Publishing Group para as descripcións de conxuntos de datos (datasets) científicamente relevantes.

3TU.Datacentrum: ofrece o coñecemento, a experiencia e as ferramentas para arquivar os datos de investigación dun modo estandarizado e seguro.

UK Data Archive: a colección máis grande de datos dixitais de investigación de ciencias sociais e humanidades, do Reino Unido.

UNdata: a División de Estatística das Nacións Unidas (UNDS) do Departamento de Asuntos Económicos e Sociais (DAES) puxo en marcha este servizo de datos para proporcionar libre acceso ás estatísticas mundiais.

USPTO Open Data Portal: portal de datos abertos da United States Patent and Trademark Office, creado en resposta a popularidade da súa app PatentsView. Consta de catro seccións: conxuntos de datos de patentes e marcas, visualizacións mediante o emprego deses datasets, unha comunidade of desenvolvedores e unha libraría de APIs

World Bank Open Data: acceso aberto e gratuíto a datos sobre o desenvolvemento no mundo na páxina do Banco Mundial.

Zenodo: repositorio que ofrece unha ventá unica para os resultados da investigación europea. Creado por OpenAire e CERN, co apoio da Comisión Europea, este repositorio de nova xeración ofrece o seu servicio a partir da iniciativa europea OpenAire.

Ferramentas de datos abertos

BibExcel permite realizar análises bibliográficos (de coautorías, de colaboración) ou de calquera tipo de dato co mesmo formato, xerando ficheros de datos exportables a Excel ou outro programa del estilo, para su posterior elaboración.

CartoDB permite facer mapas para a Web; dispón de filtros dinámicos e facetas para realizar procuras visuais nunha interfaz de usuario intuitiva, e para explorar, refinar e publicar grandes cantidades de datos.

CKAN (Comprehensive Knowledge Archive Network) é o principal sistema de código aberto (mantido pola Open Knowledge Foundation) para a xestión e accesibilidade de datos.

Digital Curation Center, Data Management Plans: recursos e ferramentas creadas polo DCC (organismo británico líder en materia de preservación dixital) en relación cos Plans de Xestión de Datos; como DMPonline, ferramenta online para axudar na creación de plans personalizados segundo o contexto ou o financiador, traducida ao español e adaptada no marco do portal PAGODA; múltiples guías, checklists e exemplos para aconsellar no desenvolvemento dos plans.

Datahub: plataforma libre de xestión de datos da Open Knowledge Foundation, baseada no sistema de xestión de datos CKAN.

Data Wrangler: servizo online para o reformateo, limpeza e organización de datasets.

GitHub é un servizo de aloxamento de repositorios baseado en Git, o software de control de versións deseñado por Linus Torvalds. GitHub dispón ademais de interfaz gráfica para web e móbil, e ofrece control de acceso, wikis, xestión de tarefas e sistema de seguimento de erros para cada proxecto. Centos de institucións gubernamentais empregan GitHub para almacenar e difundir os seus datos abertos.

Google Fusion Tables: servizo web de Google para a xestión de datos; permite ordenalos en táboas accesibles en internet e obter visualizacións.

OpenRefine (antes Google Refine): ferramenta para os que queiran reutilizar datos abertos (investigadores, bibliotecarios) que permite limpar, reparar, cambiar o formato e reordenar os datos dos ficheiros contidos en repositorios de open data (de investigación ou de Administracións Públicas).

PAGODA. PlAn de GestiÓn de DAtos das bibliotecas do Consorcio Madroño: portal das bibliotecas das universidades madrileñas que ofrece asesoramento e a ferramenta PGDonline para axudar no proceso de creación dos Plans de Xestión de Datos exixidos polo programa Horizonte2020 para os proxectos que formen parte do Piloto de Datos de Investigación en Aberto.

Pajek: programa freeware para a análise e visualización de grandes redes; permite xerar redes de coautorías.

QGIS: aplicación open source para crear, editar, visualizar, analizar e publicar información geoespacial.

Tableau Public: software gratuíto que permite crear visualizacións interactivas de datos a partir dunha folla de cálculo ou dun ficheiro.

Teaching with data: sección do UK Data Service dedicada ao uso na ensinanza dos conxuntos de datos, como aprendizaxe para investigar.

 Enlaces de datos abertos

Data Literature Interlinking Service(DLI): servizo que permite compartir vínculos entre a literatura publicada e os seus conxuntos de datos, sendo así fundamental para alcanzar o pleno potencial da publicación de datos de investigación. As ligazóns son recopiladas a partir dunha variedade de grandes centros de datos, editores e organizacións de investigación.

Scholix: iniciativa que constrúe un marco de interoperabilidade que fai máis fácil compartir, intercambiar e agregar datos, buscando mellores formas para conectar os datos de investigación coa literatura científica.