parser

[Python] BeautifulSoup extrae código de una sopa de etiquetas HTML

Es posible que como desarrollador te hayas enfrentado alguna vez al «reto» de extraer información (del tipo que sea) de una página web. Es muy sencillo cuando eres «humano», pero un robot… No, no es tan fácil. Imaginemos, por ejemplo que quisiéramos almacenar el número de artículos que tiene la Wikipedia en Español en un determinado momento. La forma más fácil es visitar la página destinada a tal efecto y, en la tabla, leer el número correspondiente y escribirlo (por ejemplo, en un archivo de texto). Pero la tarea se puede hacer muy tediosa (y de hecho lo es). Pero nosotros no estamos aquí para hacer un trabajo de chinos. Para algo existen los cacharros con los cuales estás leyendo esto. Es mas cómodo encargarle esta pesada tarea a un ordenador. Pero, ¿cómo vamos a llevar a cabo nuestra tarea? Para este tipo de problemas existen los «parser», como lo es, en este caso, BeautifulSoup. Analizemos un poco la estructura de la página. Tiene una tabla, y nuestro valor deseado… Leer más »[Python] BeautifulSoup extrae código de una sopa de etiquetas HTML