Counting Datasets Is Bad

I’ve just learned about next.data.gov, and at first glance it looks much more usable than the well known data.gov version. This CKAN-based deployment made me wonder about the future of the OGPL, but I digress…

When getting to the data catalog, I was greeted with this message at the top of the page:

where I found out that data.gov is now hosting 75,712 datasets. I followed the link to the site’s homepage and found this:

So apparently, the figure was not the right one as the number of datasets seems to be 152,977. So I followed the link to the catalog and got this:

Hmmm… I’m confused.

Since the new webiste announcement was part of the fourth aninversary announcements, I reminded other announcements in previous anniversaries. So, for example, as part of the third anniversary announcement, we could read: “Growing from 47 datasets in 2009 to nearly 450,000 datasets today…”

I’m even more confused. The progress and growth of data.gov has been significant. The number of agencies publishing datasets (174 at the time of writing) has grown over the last four years and in the best case scenario what I’m seeing is roughly about one third of datasets on the catalog compared to one year ago? I haven’t found the time to look in depth just yet but I’m pretty sure that’s not the case but more a matter of a usability issue on one hand and different ways of counting datasets over time on the other.

This shows something I mentioned quite a few times before and that gives title to this blog post: counting datasets is bad. And, in fact, is quite meaningless.

I understand that data catalogs need to show a total number somewhere but the issue here is the interpretations that might be derived from it. I heard people claiming that catalog X is better than catalog Y because they are publishing so many more datasets and, frankly, this is a totally questionable claim. In fact, we’re yet to determine what makes an open data catalog good and why catalog X can be considered better than catalog Y.

The bottom line to me is: the number of datasets is just a simple metric that tells very little about the usefulness of an open data catalog.

We need more research to understand these issues and the impact of open data in general, even to understand whether or not an open data central point of access (a data.gov.* website) is the best way to achieve the promised benefits of open data.


Struggling with Open? Data

A colleague of mine pointed me today at an interest resource for mobile-related statistics. The Mobile and Development Intelligence website hosts several datasets on the developing world mobile industry and beyond. Ken Bank’s blog mentions this has been done by the GSMA team, in partnership with ThoughtWorks and PwC, and investor the Omidyar Network.
The about page states that “MDI is an Open Data portal for the developing world mobile industry. We believe that open access to high quality data…”

So far, so good.

I then tried a sneak peek at the data and this is what I found, a sign in/register page:

MDI login page

No, I’m sorry, but whatever you have behind this it’s not open data.

The terms and conditions are not much open either. The licence section states that “GSMA grants You a non-exclusive, non-transferable, non-assignable licence to use and/or to access the Web Site and Data therein.” So what if I want to re-publish the data, e.g. I use some of that data with data from other sources, mash it up, and want to re-publish as open data the end result? Houston, I’ve a problem!
The section on “restrictions and permissions” also worths a read.

Honestly, it’s disappointing we are still seeing this things in 2012, especially coming from such a smart set of partners. I hope this will fixed rather sooner than later.

Note: I then decided to register and also to investigate further, register and, yes, I could doownload the data in CSV format.

A more generalized issue

One I got to the data, I realized that some of it was not from MDI itself but coming from well known sources wuch as the World Bank, IMF and others, according to the sources listed there. In fact, some of the datasets looked familiar, so I decided to compare the data shown at the MDI with (supposedly) the same data as offered by some of those sources (where I can really get it as open data).

Let’s take as an example the rural population dataset, people living in rural areas as defined by national statistical offices:

MDI Rural Population

MDI Rural Population

WB Rural Population

WB Rural Population

The first screenshot above shows the MDI data while the second shows the WB data. Can you spot discrepancies? It’s quite easy to do so. Not big differences but they are there.

MDI list as data sources: World Bank World Developmen Indicators & GDF, while WB lists the World Development Indicators. If I track back these I start to find more sources from UN, etc.

What’s the issue here? On one hand, there’s no direct reference to the data source (ideally a URI) where I can check whether the data presented to me is accurate or not according to the source. On the other, it doesn’t look like raw data to me, more like a combination of sources in a way I cannot really know about. As another example, the Bank’s total population dataset lists the following data sources: (1) United Nations Population Division. World Population Prospects, (2) United Nations Statistical Division. Population and Vital Statistics Reprot (various years), (3) Census reports and other statistical publications from national statistical offices, (4) Eurostat: Demographic Statistics, (5) Secretariat of the Pacific Community: Statistics and Demography Programme, and (6) U.S. Census Bureau: International Database.
Again, no direct links to sources but general pointers at organizations and no mention on how the data has been mixed.

I don’t want to go into much detail in this post about these issues but I wanted to note that in these days where transparency and accountability discussions are all over the place, when I’m hearing concerns about data manipulation every other day, it wouldn’t hurt to seriously think about these and sort them out the soonest.

Fin de mi etapa en CTIC: completado el siguiente paso de la transición a Web Foundation / Leaving CTIC: next step in transitioning to Web Foundation done

[English version is below]

No me voy a extender. Ya había explicado en un post anterior mis planes para realizar la transición de CTIC a Web Foundation. Por desgracia, en esta vida las cosas no salen siempre como uno pretende e (inesperadamente) mi etapa en CTIC acaba de forma efectiva a fin de mes. A partir de entonces me voy a centrar en el trabajo global Open Data en la Web Foundation de forma más intensiva. Mis datos de contacto ya están actualizados.

I’m keeping this very brief. I already explained my plans for moving from CTIC to the Web Foundation in the previous post. Plan was to stay 50% at each until the end of the year. As you all know, not everything in life goes as planned. Unexpectedly, I’m leaving CTIC effectively as of end of this month to focus on Web Foundation global Open Data work. My contact data is updated already.

Sí, me he unido a la Web Foundation / Yes, I’ve joined the Web Foundation

Fue en Octubre de 2003 cuando me enteré de que el W3C venía a establecerse en España, más concretamente, en Asturias. Pensé que sería una gran oportunidad para mí y tuve la ocasión de unirme a lo que luego se convirtió en CTIC empezando como Responsable Técnico (en su fundación) y, muy poco después, Responsable de W3C en España durante varios años. Desde entonces, he podido estar más de siete años en una organización fantástica, en la que he tenido la oportunidad de crecer profesionalmente, la oportunidad de trabajar con gente excelente y en temas en la punta de la innovación de las tecnologías Web, de gran interés para mi.

Posiblemente me recordéis también de mi etapa como W3C eGovernment Lead, puesto en el que estuve trabajando durante un par de años gracias al apoyo de mi Fellowship por parte CTIC. Más recientemente, he tenido la oportunidad de llevar las riendas de una Unidad de Open Data en CTIC, el tema que más me interesa desde hace algunos años y que incluso se ha convertido en una pasión personal.

Como persona que aboga por el Open Data y que ha tenido la oportunidad de liderar algunas iniciativas pioneras aquí y allá, realmente creo en su potencial (aún) por descubrir, y algunos sucesos recientes me han hecho ver que es hora de que alguien como yo se movilice aún más. Vienen a la cabeza las amenazas de recortes presupuestarios a data.gov y otros sitios relacionados con la transparencia en EE.UU., la manera en que varias iniciativas Open Data están empezando, buscando un éxito inmediato y sin un plan claro y sostenible a medio y largo plazo, o las muy pocas (casi inexistentes) iniciativas que se han comenzado en el Sur (ver mapa). Una iniciativa Open Data no es un portal; es algo muy diferente, algo que puede ayudar a mejorar las vidas de las personas, aumentar la riqueza del territorio y, en definitiva, ayudar a desarrollar una mejor sociedad. Aquellos que se embarcan en iniciativas Open Data deberían tomar buena nota y pensar seriamente acerca de esto.

Había que tomar una decisión. Alguien debía llevar esto a una escala global, y ese alguien debería hacerlo cuanto antes. Decidí que ese alguien debería ser yo y que el lugar en el que esto debería suceder era la World Wide Web Foundation, así que hablamos sobre la posibilidad de que yo me uniera al staff de la Fundación para conseguir materializar una visión de Open Data a escala global. La Web Foundation estaba considerando hacer lo mismo, así que había suficientes cosas en común como para alcanzar un acuerdo. Desde el 1 de Mayo de 2011 (sólo hace unos días) soy oficialmente parte del equipo de la Web Foundation, como Program Manager, Open Data. Soy parte de otro gran grupo de personas entre los que se encuentran varios ex-compañeros en W3C con los que ya tuve el placer de trabajar en su día y con los que ahora tendré la suerte de coincidir de nuevo. La Web Foundation fue fundada por Tim Berners-Lee sobre la idea de que “La Web no es ‘tecnología’ si no ‘la humanidad conectada por la tecnología'” y cuenta actualmente entre sus Directores, además del propio Tim, con reconocidos personajes como Gordon Brown, Nigel Shadbolt o Alberto Ibargüen. Para aquellos que no conozcáis la Web Foundation, os recomiendo encarecidamente ver su maravilloso vídeo introductorio y conocer un poco más en su sitio Web.

Pero esto no quiere decir que deje CTIC. Hay varios proyectos e iniciativas que requieren de mi atención en CTIC y, para hacer una buena transición y en beneficio de todos, trabajaré hasta final de año la mitad de mi tiempo para CTIC y la otra mitad para la Web Foundation. En general, me veréis en papeles más internacionales cuando me ponga mi gorra de CTIC, pero también seguiré coordinando lo que será la nueva encarnación del catálogo nacional (España) de información del sector público. Espero dedicar todo mi tiempo a la Web Foundation desde el inicio de 2012 y también espero que CTIC y la Web Foundation sigan haciendo proyectos juntos en el futuro, como ya hicieron en los estudios de viabilidad Open Data en Chile y Ghana.

Veo el futuro con mucho optimismo. Este es un reto que tengo muchas ganas de afrontar y, como es habitual, daré lo mejor de mi para hacerlo con éxito.

— Josema

It was in October 2003 when I heard about W3C coming to Spain, more precisely, to Asturias. I thought it would be a great opportunity for me and had the chance of joining what today is CTIC to become Technical Manager (at its establishment) and, soon after, Manager of W3C in Spain for a few years. Since then, I had the chance to spend more than seven years at a fantastic organization where I had the chance to grow professionally, the opportunity to work with very smart people and also the chance of working on leading edge Web-related topics of great interest to me.

You may also remember me as W3C eGovernment Lead for a couple years thanks to the support of my Fellowship by CTIC. More recently, I had the chance to establish and lead an Open Data Unit at CTIC, the topic that interests me the most over the last couple years and that has become a passion of mine also personally.

As an Open Data advocate who has pioneered some initiatives here and there, I truly believe in its (yet) untapped potential, and some of the most recent happenings are calling someone like me for action. The budgetary threat to data.gov and other transparency-related sites in the USA, the way several are starting Open Data initiatives looking for an immediate win and without a clear mid and long term sustainable vision, or the very few (almost inexistent) number of initiatives being started in the South (see map) come to mind. An Open Data initiative is not a portal, it’s something much more different, something that could help improve people’s lives, bring more richness to the territory and, in the end, help to develop a better society. Those embarking on Open Data initiatives should take good note and think seriously about this.

It was about time to take a decision. Someone would need to take this to a global scale, and that someone should do it asap. I decided that someone should be me and that the place where this should happen would be the World Wide Web Foundation, hence I discussed with the Web Foundation me joining to work on materializing an Open Data vision at a global scale from there. The Web Foundation was considering doing essentially the same, so there was enough common ground for me to join the Web Foundation. I officially joined as of May, 1st, 2011 (only a few days ago) and are now part of another great group of people among whose there are several former colleagues at W3C I enjoyed working with already, and are looking forward to do so again. The Web Foundation was founded by Tim Berners-Lee with the idea that “the Web is not ‘technology’ but ‘humanity connected by technology'” and among its Directors, besides Tim himself, there are prominent people such as Gordon Brown, Nigel Shadbolt or Alberto Ibargüen. For those of you not familiar with the Web Foundation, I strongly encourage you to watch its wonderful introductory video and learn more at its website.

But this doesn’t mean I’m leaving CTIC just yet. Several projects and initiatives still require my attention at CTIC, so in order to make a proper transition, I’ll be spending half of my time at CTIC and the other half at the Web Foundation until the end of the year. You’ll see me in a more international role while wearing my CTIC hat from now on, but also still coordinating what it will be the new incarnation of the national (Spain) PSI catalogue. I expect to join the Web Foundation full time at the very beginning of 2012 and also expect the Web Foundation and CTIC to partner again in the future as they already did for the OGD feasibility studies in Chile and Ghana.

Future looks bright and exciting to me. This is a challenge I’m ready and eager to take on and, as usual, will try do my best to address.

— Josema

Releasing the People’s Data

a journey to the centre of the government

cross-posted from Open Data @ CTIC blog, also available in Spanish there
Note: this is the story that goes along the presentation (slides, video) gave at Personal Democracy Forum Europe, Barcelona, 21 Nov 2009.

The Earth, our mother planet, a fascinating piece of the universe for us all, including Professor Otto Lindenbrock. Journey to the Center of the Earth (by Jules Verne, 1864), follows a plot on which Professor Lindenbrock is fascinated and increasingly excited by the messages hidden in cryptograms written in a strange language (runic script) and the treasures hidden behind them. Cracking every message takes him (his nephew Alex, and his maid Martha) one step closer to center of our planet where those treasures supposedly are; but how to get there?

In order to get to the center of the Earth (the core), one has to go through several
, namely the crust and the mantle. Those are very difficult (almost impossible for them) to get through, but their interest in acquiring more knowledge and the fascinating things they could find in the center encourage them all enough to find a way to overcome every difficult

The starting point of the journey is hidden in the first message: Snæfellsjökull, a volcano in Iceland. In fact, promising points might be those such as volcanos and craters, where one can enter a few miles “withouth much of a problem”. The group has to solve several enigmas along the way in order to find the right path. Remember, they were not sure at all of what they were going to find in there. After all, they couldn’t see it from the outside. From the crust, it’s more than 6,000Km to get to the core.

Let’s go back to the “real world” for a second (after all, the book is science fiction, isn’t it?). Let’s say that the core is the data and that all the layers are the government structures that envolve the data to preserve, protect, manage and (too often) obscure it. Think of IT departments, security departments and every single organizational artifact that has anything to do with the data.

Now that we are here, what about going up a few layers? Planet Earth is just one in a galaxy and is not the only one with this structure. If one takes a look at others such as Mars, the structure is nearly the same, a core and several layers surrounding it. The same goes for Mercury, and for many others, even moons and satellites of planets seem to have a similar structure. Some have a bigger core than others, some have more layers between crust and core but, in general, the phenomenon is repeated.

Back to our government and public information context, we recognize the pattern. Some governments produce more data than others. Some structures are heavier than others depending on the government. Some governments have more departments, agencies (you name it) between the data and the crust or, more specifically, between the data and the people. Yes, the people, out there on the crust, most of them (us) not even imagining what underlays there in the core.

There have been moments in time on which the Earth and other planets have experienced important happenings, some of them quite traumatic, such as collisions of meteors. This has led to changes to their structure and also to evolution.

Fortunately, some of we, the people, are strongly encouraging governments to do the right thing: to release the people’s data. I’m not talking here about the usual opaque suspects (national security related, privacy related, and the like) but about all those other data that are hidden between too many layers for no apparent reason other than not releasing it “just in case”, what I’ve called many times “obscurity by default“. Things are interestingly changing all over the world over the last year or two, the government is starting to open its doors. The various layers are becoming more transparent, and the difficulty to “find a volcano” where to start or decipher an enigma is becoming less necessary. Volcanos and craters are all over the place, even a few paved ways to the core are appearing.

There’s still much to be done in the sense of how to improve the procedures, how to ease access to data, how to make it all linkable so people can mash it up and mix it in any way they like. Planet Earth is one among many in a galaxy, in the universe, but, as Charles Eames said: “eventually, everything connects.”

Think big and remember, releasing the people’s data means to give it back to their real owners. Isn’t it a wonderful thing to do?

¿Cómo deberían utilizar la Web las Administraciones en Europa para mejorar los servicios públicos?

Cada dos años, los ministros europeos encargados del eGovernment se reúnen para debatir sobre las grandes áreas de actuación en la materia para los años venideros y éstas quedan reflejadas en la publicación de una Declaración Ministerial consensuada. Conjuntamente, se organiza un congreso sobre la materia. Este año el evento se celebrará en Noviembre de 2009 en Malmö (Suecia).

En los últimos tiempos, el uso de la Web por parte de administraciones, ciudadanos, empresas y demás actores ha cambiado radicalmente. La llegada de la Web 2.0 ha hecho que se permita avanzar aún más en la consecución de una administración realmente centrada en el ciudadano, pero ¿se está utilizando estás herrmientas de forma adecuada? ¿realmente están utilizando las administraciones el máximo potencial de la Web?

En el mes de Marzo de 2009 se organizó un taller en Bruselas sobre Servicios Públicos 2.0, para debatir sobre este tema, revisar aplicaciones y servicios ya existentes y debatir sobre las mejoras. En mi caso personal, por desgracia, sólo pude asistir parcialmente (tuve la mala suerte de romperme un brazo cuando iba hacia allí), pero los debates que pude tener con los principales organizadores, algunos de los asistentes, y posteriores reuniones me dejaron claro que teníamos que seguir e ir un paso más alllá.

Si bien declaraciones como la Ministerial son importantes, algunos de los allí presentes creemos que se puede ir más allá de las intenciones y poner las bases de iniciativas específicas sobre cómo utilizar la Web para transformar los servicios púbicos. Para ofrecer sugerencias en este aspecto hemos decidido lanzar una una iniciativa para recopilar ideas y crear de forma colaborativa una declaración sobre servicios públicos 2.0 que esperamos pueda ser presentada oficialmente en la reunión ministerial.

Empezamos con una tormenta de ideas en la cual tú también puedes añadir tus sugerencias hasta mediados de Julio. Posteriormente iremos agregando las más intersantes y esperamos poder producir un primer borrador a lo largo del mes de Agosto, para luego irlo depurando y conseguir los avales necesarios a lo largo de Septiembre y Octubre para poder presentarla oficialmente en la Ministerial en Noviembre.

Hay disponible más información sobre esta iniciativa.

Data.gov, ¿un nuevo estándar en gobierno abierto?

Un poco de historia

Para los que todavía no hayan oído hablar de Data.gov, un poco de historia. El 21 de Enero de 2009, en su primer día en el despacho oval, el presidente de los EE.UU. Barack Obama envió un comunicado a los directores de las agencias y departamentos federales sobre Transparencia y Gobierno Abierto.

Desde entonces, una serie de cambios han ido aconteciendo en la Casa Blanca. Vivek Kundra, CTO en Washington, DC, y miembro del equipo de transición se unió a la Office of Management and Budget (OMB), uno de los núcleos del desarrollo eGov federal, como CIO Federal y más recientemente Aneesh Chopra, hasta entonces Secretario de Tecnología del Estado de Virginia, ha pasado a ocupar el puesto de CTO Federal, puesto al que en el comunicado se refiere como estratégico para el desarrollo e implementación de los objetivos expuestos en el comunicado. En el momento de escribir este post, la Casa Blanca ha abierto un diálogo online para debatir y recoger información sobre la implementación del comunicado. La otra parte encargada de la implementación desde la Casa Blanca, es la Office of Science and Technology Policy (OSTP), en la que Beth Noveck, a quien tuvimos el placer de tener como keynote hace un par de meses, está a las riendas del proyecto y ha sido recientemente nombrada CTO Adjunta para el Gobierno Abierto.

Kundra impulsó la idea de un Recovery.gov mientras estaba en el equipo de transición (sitio que también tuvo su diálogo abierto) y es bien conocido en el mundo del Open Government Data (OGD) por el catálogo de datos de Washington DC y su posterior concurso de aplicaciones e ideas sobre su reutilización. Cuando se anunció que habría un Data.gov, la comunidad ya sabía (aproximadamente) qué esperar. Data.gov fue lanzado públicamente el 21 de Mayo 2009.

Expectativas, utilidad, OGD, ¿realmente un nuevo estándar en gobierno abierto?

No hay duda de que gracias a estas iniciativas, el OGD está explotando. En el momento del lanzamiento de Data.gov se exponían 50 datasets, conjuntos de datos de los que ya disponían las agencias federales y que de esta forma encontraban una one-stop shop para ser mostrados y encontrados más fácilmente. Se acaba de anunciar que en un otra semana se llegará a los 100.000 datasets disponibles (sí, no es una errata) y que en menos de un mes se alcanzarán los 240.000 (tampoco es una errata).

En general de trata de ficheros que se pueden descargar, en la mayoría de los casos, de decenas de Megabytes y en formato CSV. ¿Es esto útil? Hay que ponerse en el lugar del potencial consumidor, en este caso los interesados en reutilizar la información para proporcionar productos y servicios de valor añadido. Para ellos, el acceso a estos datos de forma masiva debería ser un gran aliciente. El concurso Apps for America 2 lanzado por Sunlight Foundation debería ofrecernos algunos ejemplos interesantes.

Algunas agencias federales ya ofrecían acceso a datos incluso de forma más sofisticada, a través de un API, como en el caso de USASpending con todo el gasto federal. Facilitar el acceso a esa información y multiplicar exponencialmente el número de conjuntos de datos expuestos es una idea excelente. Recordemos que no ha pasado ni un mes y hay que darle un poco de tiempo al tiempo. El potencial de esta iniciativa es enorme y si se aplican algunas de las mejoras propuestas aquí debajo se podría llegar a establecer un estándar de excelencia en OGD.

¿Qué nos puede traer el futuro?

Data.gov necesita encontrar su propia identidad. Aflorar los activos de las agencias federales y conjuntarlos de forma adecuada en el sitio no es una tarea fácil y además habrá que acomodar las peticiones externas. Gran parte de este tipo de proyectos sigue teniendo aún un alto componente “artístico”, la creación de técnicas que faciliten la identificación, extracción y exposición de esos activos es parte de mi trabajo actual y futuro. El objetivo último sería la consecución de un Linked Data para la Administración en lo que algunos han dado en llamar el Linked Open Government. Para quienes no hayan oído aún estos términos, es altamente recomendable la ponencia de Tim Berners-Lee en TED al efecto (diapos).

Por otra parte, en el lado de los consumidores de la información, habrá que estar atento a los usos que las empresas harán de los datos y ver donde queda el ciudadano en la actual administración centrada en el ciudadano, cómo consumirá esos datos.

Nuestro granito de arena

Algunos de los integrantes del Grupo de eGovernment en W3C que dirijo (es uno de mis trabajos), ya han empezado a “jugar” con los datos. Joe Carmel ha tomado el índice del catálogo de todos los datasets y lo ha puesto a disposición de la comunidad en XML. Por otra parte, también estamos participando activamente en reuniones de seguimiento con la Casa Blanca, así como en el diálogo abierto online proponiendo ideas. Esto sólo es el principio. Por ejemplo, en CTIC (el otro trabajo) ya hemos formado una unidad de OGD. No podía ser de otra manera.


He dicho en varias ocasiones que el uso sin precedentes de medios sociales y Web 2.0 en la campaña de Obama hizo que mucha gente se diera cuenta de su valor y “quisiera ser como Obama” en aplicar sus estrategias a su caso particular. Mi impresión es que Data.gov dará lugar a una corriente similar; ya se están dando los primeros pasos de Data.gov.uk.

El como montar adecuadamente los data.gov.* está lleno de interesantes retos y oportunidades, es parte de mi trabajo actual y futuro y podría dar lugar a una gran serie de posts… ¿veremos un datos.gob.es?… eso ya será otra historia…

Mientras tanto, ya se empieza a hablar de Data.gov 2.0