[Tip] Contando la magnitud de la Web semántica con SPARQL

SPARQL es un lenguaje de consulta de datos similar a SQL, pero pensado para consultas en bases de datos basadas en grafos. Estas bases de datos es común verlas en proyectos sobre los que se fundamenta la web semántica (o Web 3.0) como Wikidata o DBpedia, y almacenan información siguiendo siempre un patrón:

(sujeto, predicado, objeto)

El lenguaje SPARQL está pensado para que las secuencias que se pongan en la parte del where sea una especie de patrón que deba encajar con las tripletas que hay en el grafo. De esta forma, una de las consultas más sencillas que nos podemos plantear es precisamente la de contar cuántas tripletas hay en nuestra base de datos:

select (count(?suj) as ?tripletas)
where {
  ?suj ?pred ?obj
}

Por lo general, estos proyectos de libre conocimiento tienen disponible un endpoint al que mandar consultas para ejecutarlas. Aquí os dejo unos cuantos:

Desgraciadamente, tenemos que tener en cuenta que esta consulta es muy pesada, y algunos de estos endpoints pueden no responder nunca por timeout por no estar optimizados.

Pero en el caso de DBpedia, esta consulta parece que sí está optimizada y podemos extraer datos interesantes: En este momento, la DBpedia en español posee cerca de 170 millones de hechos. Por su parte, la DBpedia en inglés es mucho más grande y alberga casi 440 millones de tripletas.

Wikidata, o es mucho más grande (cosa que no descarto) o su sistema no está lo suficientemente optimizado como para ejecutar estas consultas tan pesadas.

 

Rango en Wikidata: Cajitas con un valor importante

No hace mucho que sigo Wikidata desde cerca (lo que puedo). Es un proyecto muy interesante, y de ser usada bien y conocida, podría ser de gran utilidad a muchas webs y programas. Básicamente, consiste de una base de datos de todo tipo. Y lo mejor es que está hecha usando Software libre :).

Hace algunos días, entré para curiosear y ver si se habían producido novedades… y sí: Me encontré con unas extrañas cajitas al lado de las propiedades.

Clase de datos Ubuntu (Q381)
Clase de datos Ubuntu (Q381)

Al pasar el raton por encima te dice “Normal Rank”. Buscando en el glosario descubrí de qué se trata el rango: se podría decir que mide lo confiable que es el dato ofrecido.

Esto parece que podría ser muy útil para algunas aplicaciones, para poder confiar en ese dato o no. Recordemos que es una base de datos que puede ser editada por cualquier persona, y habrá que asegurarse de que esté correcto. Esta novedad fue incluida en Wikidata el 10 de diciembre del año pasado, junto con la tabla de contenido de la parte superior.

Fuente y enlaces | Wikidata.org | Glosario Wikidata (Es)