Releasing the People’s Data

a journey to the centre of the government

cross-posted from Open Data @ CTIC blog, also available in Spanish there
Note: this is the story that goes along the presentation (slides, video) gave at Personal Democracy Forum Europe, Barcelona, 21 Nov 2009.


The Earth, our mother planet, a fascinating piece of the universe for us all, including Professor Otto Lindenbrock. Journey to the Center of the Earth (by Jules Verne, 1864), follows a plot on which Professor Lindenbrock is fascinated and increasingly excited by the messages hidden in cryptograms written in a strange language (runic script) and the treasures hidden behind them. Cracking every message takes him (his nephew Alex, and his maid Martha) one step closer to center of our planet where those treasures supposedly are; but how to get there?

In order to get to the center of the Earth (the core), one has to go through several
layers
, namely the crust and the mantle. Those are very difficult (almost impossible for them) to get through, but their interest in acquiring more knowledge and the fascinating things they could find in the center encourage them all enough to find a way to overcome every difficult
situation.

The starting point of the journey is hidden in the first message: Snæfellsjökull, a volcano in Iceland. In fact, promising points might be those such as volcanos and craters, where one can enter a few miles “withouth much of a problem”. The group has to solve several enigmas along the way in order to find the right path. Remember, they were not sure at all of what they were going to find in there. After all, they couldn’t see it from the outside. From the crust, it’s more than 6,000Km to get to the core.

Let’s go back to the “real world” for a second (after all, the book is science fiction, isn’t it?). Let’s say that the core is the data and that all the layers are the government structures that envolve the data to preserve, protect, manage and (too often) obscure it. Think of IT departments, security departments and every single organizational artifact that has anything to do with the data.

Now that we are here, what about going up a few layers? Planet Earth is just one in a galaxy and is not the only one with this structure. If one takes a look at others such as Mars, the structure is nearly the same, a core and several layers surrounding it. The same goes for Mercury, and for many others, even moons and satellites of planets seem to have a similar structure. Some have a bigger core than others, some have more layers between crust and core but, in general, the phenomenon is repeated.

Back to our government and public information context, we recognize the pattern. Some governments produce more data than others. Some structures are heavier than others depending on the government. Some governments have more departments, agencies (you name it) between the data and the crust or, more specifically, between the data and the people. Yes, the people, out there on the crust, most of them (us) not even imagining what underlays there in the core.

There have been moments in time on which the Earth and other planets have experienced important happenings, some of them quite traumatic, such as collisions of meteors. This has led to changes to their structure and also to evolution.

Fortunately, some of we, the people, are strongly encouraging governments to do the right thing: to release the people’s data. I’m not talking here about the usual opaque suspects (national security related, privacy related, and the like) but about all those other data that are hidden between too many layers for no apparent reason other than not releasing it “just in case”, what I’ve called many times “obscurity by default“. Things are interestingly changing all over the world over the last year or two, the government is starting to open its doors. The various layers are becoming more transparent, and the difficulty to “find a volcano” where to start or decipher an enigma is becoming less necessary. Volcanos and craters are all over the place, even a few paved ways to the core are appearing.

There’s still much to be done in the sense of how to improve the procedures, how to ease access to data, how to make it all linkable so people can mash it up and mix it in any way they like. Planet Earth is one among many in a galaxy, in the universe, but, as Charles Eames said: “eventually, everything connects.”

Think big and remember, releasing the people’s data means to give it back to their real owners. Isn’t it a wonderful thing to do?

Anuncios

¿Cómo deberían utilizar la Web las Administraciones en Europa para mejorar los servicios públicos?

Cada dos años, los ministros europeos encargados del eGovernment se reúnen para debatir sobre las grandes áreas de actuación en la materia para los años venideros y éstas quedan reflejadas en la publicación de una Declaración Ministerial consensuada. Conjuntamente, se organiza un congreso sobre la materia. Este año el evento se celebrará en Noviembre de 2009 en Malmö (Suecia).

En los últimos tiempos, el uso de la Web por parte de administraciones, ciudadanos, empresas y demás actores ha cambiado radicalmente. La llegada de la Web 2.0 ha hecho que se permita avanzar aún más en la consecución de una administración realmente centrada en el ciudadano, pero ¿se está utilizando estás herrmientas de forma adecuada? ¿realmente están utilizando las administraciones el máximo potencial de la Web?

En el mes de Marzo de 2009 se organizó un taller en Bruselas sobre Servicios Públicos 2.0, para debatir sobre este tema, revisar aplicaciones y servicios ya existentes y debatir sobre las mejoras. En mi caso personal, por desgracia, sólo pude asistir parcialmente (tuve la mala suerte de romperme un brazo cuando iba hacia allí), pero los debates que pude tener con los principales organizadores, algunos de los asistentes, y posteriores reuniones me dejaron claro que teníamos que seguir e ir un paso más alllá.

Si bien declaraciones como la Ministerial son importantes, algunos de los allí presentes creemos que se puede ir más allá de las intenciones y poner las bases de iniciativas específicas sobre cómo utilizar la Web para transformar los servicios púbicos. Para ofrecer sugerencias en este aspecto hemos decidido lanzar una una iniciativa para recopilar ideas y crear de forma colaborativa una declaración sobre servicios públicos 2.0 que esperamos pueda ser presentada oficialmente en la reunión ministerial.

Empezamos con una tormenta de ideas en la cual tú también puedes añadir tus sugerencias hasta mediados de Julio. Posteriormente iremos agregando las más intersantes y esperamos poder producir un primer borrador a lo largo del mes de Agosto, para luego irlo depurando y conseguir los avales necesarios a lo largo de Septiembre y Octubre para poder presentarla oficialmente en la Ministerial en Noviembre.

Hay disponible más información sobre esta iniciativa.

Data.gov, ¿un nuevo estándar en gobierno abierto?

Un poco de historia

Para los que todavía no hayan oído hablar de Data.gov, un poco de historia. El 21 de Enero de 2009, en su primer día en el despacho oval, el presidente de los EE.UU. Barack Obama envió un comunicado a los directores de las agencias y departamentos federales sobre Transparencia y Gobierno Abierto.

Desde entonces, una serie de cambios han ido aconteciendo en la Casa Blanca. Vivek Kundra, CTO en Washington, DC, y miembro del equipo de transición se unió a la Office of Management and Budget (OMB), uno de los núcleos del desarrollo eGov federal, como CIO Federal y más recientemente Aneesh Chopra, hasta entonces Secretario de Tecnología del Estado de Virginia, ha pasado a ocupar el puesto de CTO Federal, puesto al que en el comunicado se refiere como estratégico para el desarrollo e implementación de los objetivos expuestos en el comunicado. En el momento de escribir este post, la Casa Blanca ha abierto un diálogo online para debatir y recoger información sobre la implementación del comunicado. La otra parte encargada de la implementación desde la Casa Blanca, es la Office of Science and Technology Policy (OSTP), en la que Beth Noveck, a quien tuvimos el placer de tener como keynote hace un par de meses, está a las riendas del proyecto y ha sido recientemente nombrada CTO Adjunta para el Gobierno Abierto.

Kundra impulsó la idea de un Recovery.gov mientras estaba en el equipo de transición (sitio que también tuvo su diálogo abierto) y es bien conocido en el mundo del Open Government Data (OGD) por el catálogo de datos de Washington DC y su posterior concurso de aplicaciones e ideas sobre su reutilización. Cuando se anunció que habría un Data.gov, la comunidad ya sabía (aproximadamente) qué esperar. Data.gov fue lanzado públicamente el 21 de Mayo 2009.

Expectativas, utilidad, OGD, ¿realmente un nuevo estándar en gobierno abierto?

No hay duda de que gracias a estas iniciativas, el OGD está explotando. En el momento del lanzamiento de Data.gov se exponían 50 datasets, conjuntos de datos de los que ya disponían las agencias federales y que de esta forma encontraban una one-stop shop para ser mostrados y encontrados más fácilmente. Se acaba de anunciar que en un otra semana se llegará a los 100.000 datasets disponibles (sí, no es una errata) y que en menos de un mes se alcanzarán los 240.000 (tampoco es una errata).

En general de trata de ficheros que se pueden descargar, en la mayoría de los casos, de decenas de Megabytes y en formato CSV. ¿Es esto útil? Hay que ponerse en el lugar del potencial consumidor, en este caso los interesados en reutilizar la información para proporcionar productos y servicios de valor añadido. Para ellos, el acceso a estos datos de forma masiva debería ser un gran aliciente. El concurso Apps for America 2 lanzado por Sunlight Foundation debería ofrecernos algunos ejemplos interesantes.

Algunas agencias federales ya ofrecían acceso a datos incluso de forma más sofisticada, a través de un API, como en el caso de USASpending con todo el gasto federal. Facilitar el acceso a esa información y multiplicar exponencialmente el número de conjuntos de datos expuestos es una idea excelente. Recordemos que no ha pasado ni un mes y hay que darle un poco de tiempo al tiempo. El potencial de esta iniciativa es enorme y si se aplican algunas de las mejoras propuestas aquí debajo se podría llegar a establecer un estándar de excelencia en OGD.

¿Qué nos puede traer el futuro?

Data.gov necesita encontrar su propia identidad. Aflorar los activos de las agencias federales y conjuntarlos de forma adecuada en el sitio no es una tarea fácil y además habrá que acomodar las peticiones externas. Gran parte de este tipo de proyectos sigue teniendo aún un alto componente “artístico”, la creación de técnicas que faciliten la identificación, extracción y exposición de esos activos es parte de mi trabajo actual y futuro. El objetivo último sería la consecución de un Linked Data para la Administración en lo que algunos han dado en llamar el Linked Open Government. Para quienes no hayan oído aún estos términos, es altamente recomendable la ponencia de Tim Berners-Lee en TED al efecto (diapos).

Por otra parte, en el lado de los consumidores de la información, habrá que estar atento a los usos que las empresas harán de los datos y ver donde queda el ciudadano en la actual administración centrada en el ciudadano, cómo consumirá esos datos.

Nuestro granito de arena

Algunos de los integrantes del Grupo de eGovernment en W3C que dirijo (es uno de mis trabajos), ya han empezado a “jugar” con los datos. Joe Carmel ha tomado el índice del catálogo de todos los datasets y lo ha puesto a disposición de la comunidad en XML. Por otra parte, también estamos participando activamente en reuniones de seguimiento con la Casa Blanca, así como en el diálogo abierto online proponiendo ideas. Esto sólo es el principio. Por ejemplo, en CTIC (el otro trabajo) ya hemos formado una unidad de OGD. No podía ser de otra manera.

Colofón

He dicho en varias ocasiones que el uso sin precedentes de medios sociales y Web 2.0 en la campaña de Obama hizo que mucha gente se diera cuenta de su valor y “quisiera ser como Obama” en aplicar sus estrategias a su caso particular. Mi impresión es que Data.gov dará lugar a una corriente similar; ya se están dando los primeros pasos de Data.gov.uk.

El como montar adecuadamente los data.gov.* está lleno de interesantes retos y oportunidades, es parte de mi trabajo actual y futuro y podría dar lugar a una gran serie de posts… ¿veremos un datos.gob.es?… eso ya será otra historia…

Mientras tanto, ya se empieza a hablar de Data.gov 2.0

Comentarios al Borrador del Manual Práctico de Reutilización de Información

Intro

Gracias al equipo del Proyecto Aporta por darnos la oportunidad de comentar y al trabajo realizado. Intentaré no extenderme demasiado ya que he visto muchas cosas publicadas y no merece la pena repetirse.

De todo lo que he visto hasta el momento quiero destacar los comentarios de Álberto Ortiz de Zárate III en los que hace una importante distinción entre documento y dato, los de Ángel Maldonado y su resumen del twitter-debate y finalmente los de Carlos Guadián sobre Open Government Data (OGD) en los que referencia varias iniciativas, más prominentemente en la que estoy más involucrado, la de eGovernment en W3C, y donde prácticamente me ha quitado la palabra de la boca, aunque recomiendo la lectura del borrador que W3C está desarrollando al respecto en el que se recopilan los problemas más habituales y se dan ejemplos y razones por las que fomentar el máximo y más sencillo uso de la información pública sin restricciones es beneficioso.

Sobre la transformación de información

Creo que ya se ha hablado suficientemente sobre la extensión y orientación del manual en el sentido de que cubre mucho más que la propia reutilización de la información y entra a un nivel de detalle propio de la gestión de los contenidos y sobre la necesidad de simplificar mucho algunas de las partes y los procesos para que los interesados puedan acceder a la información. En esta línea apoyo la idea de disociar las recomendaciones relacionadas con generar valor añadido sobre los documentos públicos de las recomendaciones para con la 37/2007.

Sobre el desarrollo del esquema de metadatos y la interoperabilidad

En la sección 3.3.2 sobre metadatos veo que se reutilizan algunos elementos de Inspire y Dublin Core, pero que se renombran. Creo que no es una buena idea por razones de interoperabilidad ya que constituye una bifurcación del estándar. Si no es evitable se debería estudiar, si no se ha hecho ya, otros esquemas para la reutilización de metadatos públicos que pudieran existir y contengan a éstos o en un último caso proporcionar mecanismos de mapeo y conversión bidireccionales entre el esquema Aporta y los esquemas estándar.

Un dato más sobre interoperabilidad, no encuentro referencias al Esquema Nacional de Interoperabilidad, mencionado en la 11/2007 y actualmente en desarrollo y con cuyas especificaciones el esquema Aporta y la información a reutilizar deberán concurrir. En todo caso se debería tener siempre en mente la publicación de datos puros y reutilizables automáticamente, en formatos libres y abiertos.

Sobre la distinción de documento y dato que mencioné al principio, una observación: en las ocasiones en que sea absolutamente imposible disponer del dato por separado (por ejemplo, un antiguo documento histórico) o en aquellas en las que se encuentre en un formato propietario, esto no debe ser excusa para la publicación de la información; es decir, idealmente datos pero si no es posible, lo que haya disponible.

Sobre la explotación del modelo de metadatos

Si bien me alegra que en la sección 3.3.3 sobre la explotación del modelo de metadatos referencie varios estándares abiertos de W3C, está desactualizada, contiene errores graves y necesita una importante revisión.

La manera de codificar datos en HTML expuesta está superada por los microformatos y sobre todo por RDFa. Recomiendo la consideración de SKOS como inminente estándar que podría facilitar la codificación del esquema Aporta. También hay claros errores de concepto como en p.138: “XML es mucho más flexible como forma de codificación que RDF/XML”. RDF/XML es una expresión de RDF en XML, es decir, es XML, por lo que no es ni más ni menos flexible, es igual. En todo caso, si fuera errata, sería al revés. RDF es más flexible que XML en el sentido que XML modela árboles de información, mientras que RDF modela grafos. En todo caso GRDDL permite la transformación de otros formatos, como microformatos o XML, en RDF.

También me preocupa la falta de mención de SPARQL, si se quiere, el SQL para el RDF. Si RDF va a ser el principal modo de codificar los metadatos Aporta, no puede faltar mención de su utilidad para la recuperación de datos y su integración en la Linked Data, así como recomendaciones a las administraciones para hacer disponibles esos metadatos mediante un SPARQL endpoint, definido formalmente como un HTTP Binding en SPARQL Protocol.

Finalmente se hecha en falta la promoción del desarrollo de un esquema de URI/URLs amigables que funcionen como un primer paso hacia el descubrimiento y consulta de la información a reutilizar (ejemplo simple sobre esquema legislativo en UK).

Colofón

La reutilización de la información del sector público puede ofrecer muchos beneficios y promover la innovación, como muchos otros ya han escrito. Para ello hay que minimizar las barreras de entrada. Como ejemplo, se estima que el retorno de la inversión del conocido concurso Apps for Democracy del Ayuntamiento del Distrito de Columbia (EE.UU.) en el que se promovía la idea de reutilización gratuita de datos públicos ofrecidos en formatos abiertos, pudo llegar a tener un retorno de 40 a 50 veces superior a la inversión realizada.

En mi opinión la receta tecnológica pasa por:

  1. esquema de URI/URLs amigables y fácilmente deducibles
  2. publicación del esquema de metadatos Aporta en RDF (SKOS)
  3. publicación de datos utilizando RDFa
  4. facilitación de SPARQL endpoints para el crawling de los datos

Quizás no se pueda llegar hasta el punto 4 de mano, pero se pueden ir sentando las bases. Los tres primeros puntos no son especialmente complicados aunque existe la necesidad de considerar los escenarios de aplicación, generar una metodología y buenas prácticas y seguirlas, ademá de la necesidad de capacitar al personal que tendrá que ponerlas en práctica. En este sentido muchas de las recomendaciones del reciente informe de la Power of Information Task Force (UK) no son específicas a su contexto, son de aplicación en otros países y deberían ser consideradas ya que ofrecen información muy valiosa.

Para acabar con algo menos técnológico quisiera decir que, aunque en España aún no existe una ley específica de acceso a la información (al estilo de la FOIA en el ámbito anglosajón), espero que la promesa del Presidente Zapatero se lleve pronto a cabo y que la Coalición Pro Acceso pueda conseguir su objetivo en lo que creo que es una pieza del puzzle que aún falta en este país.