[Tip] Contando la magnitud de la Web semántica con SPARQL

SPARQL es un lenguaje de consulta de datos similar a SQL, pero pensado para consultas en bases de datos basadas en grafos. Estas bases de datos es común verlas en proyectos sobre los que se fundamenta la web semántica (o Web 3.0) como Wikidata o DBpedia, y almacenan información siguiendo siempre un patrón:

(sujeto, predicado, objeto)

El lenguaje SPARQL está pensado para que las secuencias que se pongan en la parte del where sea una especie de patrón que deba encajar con las tripletas que hay en el grafo. De esta forma, una de las consultas más sencillas que nos podemos plantear es precisamente la de contar cuántas tripletas hay en nuestra base de datos:

select (count(?suj) as ?tripletas)
where {
  ?suj ?pred ?obj
}

Por lo general, estos proyectos de libre conocimiento tienen disponible un endpoint al que mandar consultas para ejecutarlas. Aquí os dejo unos cuantos:

Desgraciadamente, tenemos que tener en cuenta que esta consulta es muy pesada, y algunos de estos endpoints pueden no responder nunca por timeout por no estar optimizados.

Pero en el caso de DBpedia, esta consulta parece que sí está optimizada y podemos extraer datos interesantes: En este momento, la DBpedia en español posee cerca de 170 millones de hechos. Por su parte, la DBpedia en inglés es mucho más grande y alberga casi 440 millones de tripletas.

Wikidata, o es mucho más grande (cosa que no descarto) o su sistema no está lo suficientemente optimizado como para ejecutar estas consultas tan pesadas.

Cookie	Duración	Descripción
IDE	1 year 24 days	Used by Google DoubleClick and stores information about how the user uses the website and any other advertisement before visiting the website. This is used to present users with ads that are relevant to them according to the user profile.
test_cookie	15 minutes	This cookie is set by doubleclick.net. The purpose of the cookie is to determine if the user's browser supports cookies.
VISITOR_INFO1_LIVE	5 months 27 days	This cookie is set by Youtube. Used to track the information of the embedded YouTube videos on a website.

Cookie	Duración	Descripción
_ir		The cookie is set by Pinterest. We do not know the exact purpose of the cookies.
_koko_analytics_pages_viewed	6 hours	No description
_pk_id.1.3a40	1 year 27 days	No description
_pk_ses.1.3a40	30 minutes	No description
CONSENT	16 years 8 months 5 days 14 hours	No description
cookielawinfo-checkbox-functional	1 year	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-others	1 year	No description
dekisession	10 years	No description
mtwebsession		No description

[Tip] Contando la magnitud de la Web semántica con SPARQL

Relacionado

Deja un comentarioCancelar respuesta

[Tip] Contando la magnitud de la Web semántica con SPARQL

Compartir:

Relacionado

Deja un comentarioCancelar respuesta