La nova pedra de Rosetta

Amb més de 15 milions d’elements compilats en tan sols tres anys, Wikidata està cridada a convertir-se en el repositori central de dades obertes a escala mundial. L’esperada promesa del linked open data sembla ser que per fi ha arribat: una base de dades multilingüe, completament oberta, de domini públic, que pot ser llegida i actualitzada tant per humans com per màquines. Molta més informació gratuïta i a l’abast de molta més gent, en el seu idioma. Gràcies al seu sistema d’informació estructurada i en format obert, ens permet fer-li preguntes dinàmiques, com, per exemple, quines són les ciutats més grans del món amb una alcaldessa o quants ministres són al seu torn fills de ministres, entre moltes altres. Amb Wikidata estem davant d’un nou pas endavant en la democratització de l’accés a la informació. És per això que el més important ara són les preguntes que ens fem. Quina informació volem documentar? Com la podem arribar a contextualitzar? Com afecta aquesta nova eina la gestió del coneixement?

Continua llegint «La nova pedra de Rosetta»

Wikidata: la nueva piedra de Rosetta

Archive of marine geological samples of the Alfred Wegener Institute for Polar and Marine Research (AWI), Germany, 2007

Con más de 15 millones de elementos compilados en tan solo tres años, Wikidata está llamada a convertirse en el repositorio central de datos abiertos a nivel mundial. La esperada promesa del linked open data parece ser que por fin ha llegado: una base de datos multilingüe, completamente abierta, de dominio público, que puede ser leída y actualizada tanto por humanos como por máquinas. Mucha más información gratuita y al alcance de mucha más gente, en su idioma. Gracias a su sistema de información estructurada y en formato abierto, nos permite hacerle preguntas dinámicas, como, por ejemplo, cuáles son las ciudades más grandes del mundo con una alcaldesa o cuántos ministros son a su vez hijos de ministros, entre otras muchas. Con Wikidata estamos ante un nuevo paso adelante en la democratización del acceso a la información. Es por ello que lo más importante ahora son las preguntas que nos hacemos. ¿Qué información queremos documentar? ¿Cómo podemos llegar a contextualizarla? ¿Cómo afecta esta nueva herramienta a la gestión del conocimiento?

Con la llegada de Internet, hemos asumido que toda la información está a un clic de distancia. Miles de personas de todo el mundo cuelgan sus creaciones de forma desinteresada. Guías, manuales, fotos, vídeos, tutoriales, enciclopedias y bases de datos. Toda la información al alcance. La Fundación Wikimedia promueve varios proyectos con el objetivo de que la suma de todo el conocimiento llegue a toda la humanidad de forma gratuita en su lengua, y la Wikipedia es uno de los proyectos más exitosos. Su versión en inglés alcanzó los cinco millones de entradas en octubre de 2015. Pero esta versión está culturalmente sesgada, con una sobrerrepresentación de la cultura occidental. De hecho, solo considera un 30 por ciento de los epígrafes existentes en el resto de los 287 idiomas que forman el proyecto Wikipedia, con más de 34 millones de artículos en total. Muchos de los artículos sobre una cultura determinada solo existen en su lengua. Solo hay que mirar los mapas de elementos geoposicionados. Hay mucho que hacer: se ha llegado a estimar que una enciclopedia completa hoy en día debería tener unos cien millones de artículos. Ahora que sabemos que se puede hacer y que todo está a un simple clic, queremos tener la biografía de todos los escritores húngaros disponible en una lengua que entendamos, y lo queremos ahora. Las diferentes comunidades wiki locales en todo el mundo intentan compilar de la mejor forma posible su cultura en su lengua, pero a menudo tienen poca capacidad de incidencia en el corpus global del proyecto. Hay miles de artículos sobre catalanes en catalán en Wikipedia, pero no tantos sobre cultura catalana en castellano, menos en francés y muchos menos en inglés. ¿Cómo podemos difundir nuestra cultura a nivel internacional si todavía estamos intentando compilarla en nuestra propia lengua? ¿Cómo podemos acceder a información que no está escrita en ninguna de las lenguas que dominamos? La defensa del multilingüismo en línea abre tantas oportunidades como retos.

Los datos son bonitos. Los datos son información

Por esta y muchas otras razones, en 2012 se creó Wikidata, una base de datos colaborativa y multilingüe cuyo objetivo es proporcionar una fuente común para ciertos tipos de datos, como fechas de nacimiento, coordenadas, nombres, registros de autoridades, gestionada de forma colaborativa por voluntarios de todo el mundo. Así, cuando se da un cambio de gobierno, solo hay que actualizar el elemento correspondiente de Wikidata y automáticamente se actualizará en todas aquellas aplicaciones que estén vinculadas, sea Wikipedia o cualquier aplicación de terceros. No hay que inventar la rueda cada vez. Este modelo de colaboración ayuda a reducir la diglosia cultural existente, ya que comunidades pequeñas pueden tener un impacto global mayor de un modo mucho más eficiente. A medio plazo, toda consulta a Wikidata incluye los datos de todas partes, no solo de aquellas culturas o comunidades históricas con capacidad de influencia. Si, por ejemplo, realizamos una consulta sobre «doctores licenciados antes de los 20 años», no solo nos mostrará a los doctores franceses o ingleses, sino que también nos podrá mostrar a taiwaneses o andorranos.

Este proyecto abre todo un nuevo mundo de posibilidades tanto para colaborar como para hacer uso de sus datos: Wikidata game nos permite realizar miles de pequeñas contribuciones jugando, incluso desde el móvil, mientras esperamos el autobús. Inventaire permite a la gente compartir sus libros favoritos, histropedia nos muestra una representación gráfica de la historia. Científicos de todo el mundo cargan sus bases de datos de búsqueda y el sector cultural está construyendo una base de datos con todas las pinturas del mundo. Todos estos proyectos funcionan con el motor de Wikidata, que se está convirtiendo en un nuevo estándar a nivel mundial.

¿Y por qué Wikidata y no otro? A menudo en Internet los estándares no se dan por su capacidad de generar autoridad, sino por su capacidad de generar tráfico y por su capacidad de actualización. No gana el mejor, sino el que concentra a más gente y se actualiza más rápido, y este es uno de los puntos fuertes del proyecto, que hay miles de voluntarios actualizando constantemente la información. El resultado es que cualquier aplicación o proyecto relacionado con los grandes datos o big data ya puede aprovechar todo ese conocimiento estructurado, y de forma gratuita. Asumiendo eso, hay que replantearnos qué papel quieren desempeñar los agentes de conocimiento clásicos (universidades, centros de investigación, instituciones culturales) y cuál es o será el rol de los repositorios de autoridades a nivel mundial, cuando las nuevas herramientas los están mapeando e interconectando, creando una nueva centralidad. Uno de los retos con los que se encuentran las instituciones culturales es la falta de coincidencia de criterios estandarizados a la hora de documentar una obra de arte dentro de su catálogo, por ejemplo: medidas con marco, sin marco, con passepartout o sin él, descripciones en formato texto en campos número… Hay que ordenar los propios datos antes de abrirse al mundo: ser abierto significa ser interoperable. Muchas instituciones ya se están adaptando: gestoras de autoridades como VIAF ya colaboran abiertamente con Wikidata. El MoMA también lo incorpora en su catálogo. En Cataluña, la Universidad de Barcelona, en colaboración con Amical Wikimedia, lidera uno de los proyectos pioneros en este campo, con el objetivo de crear una base de datos en abierto de todo el modernismo catalán.

Los datos no son conocimiento. Los datos no son objetivos

Los datos por sí solos no son conocimiento. Son información. Con la aparición de una nueva ecología muy densa de datos al alcance de todos corremos el riesgo de intentar simplificar excesivamente el mundo: simplemente describiéndolo, aunque sea de forma muy detallada, no tenemos por qué entenderlo. Sabiendo que Dostoyevski nació en 1821, murió en 1881 y que era existencialista no entendemos ni a Dostoyevski ni el existencialismo. Ahora más que nunca necesitamos herramientas que nos ayuden a contextualizar la información, a tener un criterio propio, a generar conocimiento basándonos en esta información, y que fomenten una sociedad con un fuerte espíritu crítico. Tampoco hay que olvidar que ‒por sí mismos‒ los datos no son objetivos, aunque aparenten una supuesta neutralidad. La selección de datos a documentar es un sesgo en sí mismo. Analizar o no el sexo, origen, religión, altura, color de ojos, posicionamiento político, nacionalidad de un grupo humano puede condicionar el análisis posterior. La codificación o no de un dato en particular dentro de un conjunto puede informar y camuflar una realidad a la vez. Sin interpretación los datos no sirven de nada.

Todo el mundo conoce el efecto que tuvo la aparición de Wikipedia sobre las enciclopedias clásicas en papel. ¿Qué efectos va a tener Wikidata? Siguiendo la filosofía wiki, el trabajo se va haciendo de forma colaborativa, asimétrica, pero de modo continuado. Cualquiera puede colaborar en la creación y el mantenimiento de los contenidos, pero también de los vocabularios, de las propiedades de los elementos y de las taxonomías con que se clasifica la información. Estamos decidiendo cómo organizamos la información del mundo y lo estamos haciendo de una forma abierta y participativa, como un ejemplo de lo que se puede llegar a hacer con la tecnología. Sabemos que el conocimiento humano evoluciona por acumulación, que la cultura occidental es esencialmente heredada. Nuestra realidad es de una manera determinada gracias a los avances tecnológicos, sociales, políticos y filosóficos de quienes nos precedieron. Es por ello que las generaciones de hoy no tenemos que descubrir la electricidad, aprovechamos los esfuerzos de nuestros antepasados. En cambio, con Internet por primera vez podemos ser partícipes de uno de los fenómenos que marcará la historia de la humanidad: estamos definiendo y generando un nuevo ecosistema informativo sobre el que se basará una posible nueva revolución cognitiva, con la suerte de que podemos participar en él, cuestionarlo y mejorarlo mientras se genera. Entre todos podemos participar en un proyecto histórico a la altura de los grandes avances de la humanidad. Podemos crear una nueva piedra de Rosetta que sirva de llave abierta y transparente para descifrar el mundo de hoy en día y quién sabe si como fuente documental para generaciones o civilizaciones futuras. Vamos a hacernos responsables de ello.

Texto publicado originalmente en el CCCB aquí

Wikidata: The New Rosetta Stone

Archive of marine geological samples of the Alfred Wegener Institute for Polar and Marine Research (AWI), Germany, 2007

With more than fifteen million items compiled in the space of just three years, Wikidata is set to become the main open data repository worldwide. The eagerly awaited promise of linked open data seems to have finally arrived: a multilingual, totally open database in the public domain, which can be read and edited by both humans and machines. A lot more free information, accessible to many more people, in their own language. The structure of the Wikidata information system and the open format allows us to make complex, dynamic queries, such as: what are largest cities in the world with a female lord mayor or the number of ministers who are themselves the children of ministers, to name just two of innumerable examples. Wikidata is a new step forward in the democratisation of access to information, which is why the most important thing right now is the questions we ask ourselves: what information do we want to compile? How can we contextualise it? How does this new tool affect knowledge management?

With the introduction of the Internet, we now assume that information is just a click away. Thousands of people around the world post their creations online without expecting anything in return: guide books, manuals, photos, videos, tutorials, encyclopaedias and databases. All of it information at our fingertips. To ensure that the sum of all this knowledge reaches all human beings in their own language, free of charge, the Wikimedia Foundation runs many projects, free of charge, with one of the most successful being Wikipedia. The English version of Wikipedia reached five million entries in October 2015. But this version is culturally biased, with an over-representation of Western culture. In fact, it only includes 30% of the items entered in the other 287 languages that form part of the Wikipedia project, which now has a total of more than 34 million articles. Many of the articles that refer to a particular culture only exist in the language of that culture, as can be seen just by looking at the maps of geolocated items. There is a lot of work to be done: it is estimated that in order to cover all human knowledge, an encyclopaedia today should have over 100 million articles. Now that we know that it is possible and that everything is just a click away, we want to have the biographies of all the Hungarian writers available in a language that we understand, and we want it now. Local wiki communities around the world try to compile their own culture in their own language as best they can, but they often have limited capacity to influence the main body of the overall project. There are thousands of articles about Catalans in the Catalan version of Wikipedia, but there are not so many in the Spanish version, much less the French, and much, much less the English version. How can we disseminate our culture internationally if we’re still trying to compile it in our own language? How can we access information that is not written in any of the languages that we are fluent in? The defense of online multilinguism entails as many challenges as opportunities.

Data is beautiful. Data is information.

For this reason among many others, in 2012 the Wikimedia foundation created Wikidata: a collaborative, multilingual database that aims to provide a common source for certain types of data such as dates of birth, coordinates, names, and authority records, managed collaboratively by volunteers around the world. This means that when a change of government occurs, for example, simply updating the corresponding element on Wikidata will automatically update all the applications that are linked to it, be it Wikipedia or any other third-party application. It means that we do not have to constantly reinvent the wheel. This collaborative model helps to reduce the effects of the existing cultural diglossia, given that small communities can have a greater global impact in a more efficient manner. In the medium term, all Wikidata queries will include data from all over the world, not just from the cultures or historical communities with greater power to influence. A search for “doctors who graduated before they turned 20”, for example, will not only display French and English doctors, but also doctors from Taiwan and Andorra.

This project opens up a whole new world of possibilities, for collaboration and for using the data: Wikidata game allows users to make thousands of small contributions while playing, even from a mobile phone while waiting for a bus. Inventaire allows people to share their favourite books, and Histropedia offers a new way of visualising history through timelines. Meanwhile, scientists from around their world are uploading their research databases, and the cultural sector is building a database of paintings from all over the world . All of these projects run on the Wikidata engine, which is becoming a new international standard.

And why Wikidata and not some other project? Internet standards do not necessarily become accepted because of their ability to generate authority, but because of their capacity to generate traffic, or their capacity to be updated. The winner is not the best, but the one that can assemble the greatest number of users and be updated more quickly. This is one of the strengths of the Wikidata project, given that thousands of volunteers are constantly updating the information. As a result, any application or project based on big data can take advantage of all of this structured knowledge, and do so free of charge. All of this means that we have to reconsider the role that traditional agents of knowledge (universities, research centres, cultural institutions) want to play, and the role or the possible role of the repositories of authorities around the world, now that new tools are mixing and matching and creating a new centrality.

Cultural institutions, for example, have to deal with the challenge of the lack of standard matching criteria used to document artworks in their catalogues, such as for example: dimensions with frame, without frame, with or without passe-partout, descriptions in text format, number fields… institutions have to bring order to their own data at home before opening up to the world. Being open means interoperability. Many institutions are already adapting: authority file managers such as VIAF are openly collaborating with Wikidata, and MoMA has also started using it in its catalogue. In Catalonia, Barcelona University, in collaboration with Amical Wikimedia, is behind one of groundbreaking projects in this field, which aims to create an open database of all works of Catalan Modernism.

Data is not knowledge. Data is not objective.

Data in itself is not knowledge. It is information. With the emergence of a new, very dense ecology of data that is accessible to everybody, we run the risk of trying to over-simplify the world: a description, no matter how detailed, will not necessarily make us understand something. Knowing that Dostoyevsky was born in 1821 and died in 1881 and that he was an existentialist is not the same as understanding Dostoyevsky or existentialism. Now more than ever, we need tools that will help us to contextualise information, to develop our own point of view, and to generate knowledge based on this information, in order to promote a society with a strong critical spirit. And we shouldn’t forget that data in itself is not objective either, even though it supposedly purports to be neutral. Data selection is a bias in itself. The decision of whether or not to analyse the gender, origin, religion, height, eye colour, political position, or nationality of a human group can condition the subsequent analysis. Codifying or failing to codify a particular item of information within a data set can both inform and disguise a particular reality. Data is useless without interpretation.

The impact of the emergence of Wikipedia on traditional print encyclopaedias is common knowledge. What will be the impact of Wikidata? In line with the wiki philosophy, the work is done collaboratively in an asymmetric but ongoing process. We can all collaborate in the creation and maintenance of the content, but also of the vocabulary, of the properties of different items, and of the taxonomies used to classify the information. We are deciding how to organise existing information about the world, and we are doing it in an open, participatory manner, as an example of the potential of technology. We know that human knowledge evolves cumulatively, and that Western culture is essentially inherited. Our reality is determined, in a sense, through the technological, social, political, and philosophical advances of those who came before us. This means that today’s generations don’t have to discover electricity all over again, for example. We enjoy the fruits of the efforts of our ancestors. But the Internet, for the first time, allows us to be involved in a phenomenon that will mark human history: we are defining and generating a new information ecosystem that will become the foundation for a possible cognitive revolution. And we are lucky to be able to participate, question, and improve it as it evolves. Together, we can participate in a historic project on a par with humanity’s greatest advances. We can create a new Rosetta Stone that can serve as an open, transparent key to unlock the secrets of today’s world, and perhaps as a documentary source for future generations or civilisations. Let us take responsibility for it

GLAMwiki Ambassador

El 2011 vaig ser nomenat ambaixador GLAM de la Viquipèdia. GLAM és un acrònim en anglès per a Galleries, libraries, archives and museums que s’ha fet servir molt en el sector cultural per parlar de les col·laboracions entre el sector cultural i Viquipèdia.He sigut un dels seus impulsors a nivell mundial