1. Chema Cortes
  2. mcu_isbn

Overview

HTTPS SSH

Copyright de la Base de datos del ISBN : la base de datos de ISBN utilizada aquí está sujeta a acuerdos entre el Ministerio de Educación, Cultura y Deporte y las asociaciones de Editores de España. Los scripts de este repositorio no cuentan con la autorización expresa de ninguna de estas dos partes, por lo que no pueden ser utilizados en un sistema en producción, sea o no sea de finalidad comercial.

Extrator ISBN MCU

Extractor de registros bibliográficos de mcu.es/webISBN

Obtiene listas de libros publicados a partir del buscador "Bases de datos del ISBN" del Ministerio de Educación, Cultura y Deporte de España.

Requisitos

El script requiere BeautifulSoup4, que puede tener distintos nombres según la distribución de python que se use:

Se recomienda usar una versión actualizada de python.

Modo de uso

El script es controlado con la base de datos libros.sqlite, donde toma las tablas editoriales y materias para ir iterando a través de ellas.

Para inicializar la base de datos, se puede ejecutar directamente el módulo database que crea e inicia las tablas a partir de los ficheros editoriales.txt y materias.txt para iniciar las tablas.

python database.py

Cada línea del fichero de editoriales consiste en el nombre de la editorial y una lista de prefijos ISBNs para esta editorial, separados por un tabulador.

Cada línea del fichero de materias consiste en el código IBIC y la descripción de la materia, separados por un tabulador.

Para ejecutar el script, basta ejecutar el programa principal:

python main.py

Por defecto, extrae los libros entre 2010 y 2014. Si se desea otros años, se puede editar el fichero main.py para poner otro rango de años modificando las constantes YEAR1 y YEAR2.

La tabla de libros tiene la siguiente estructura:

Columna Descripción
ISBN
idbook índice del libro
title título del libro
id_editorial índice de la editorial
editorial nombre de la editorial
year año de publicación
IBIC código IBIC de la materia
materia nombre de la materia

En la zona de descargas se puede descargar un ejemplo de fichero sqlite de salida.

Cualquier incidencia ocurrida durante la ejecución se irá introduciendo en la tabla logs.

Problemas detectados

El buscador de ISBN no saca más de 1000 resultados, pudiendo salir libros sin título, sin editorial o con más de una editorial.

Es posible que el script se interrumpa por fallos de conectividad con la página web. En estos casos, lo recomendable es esperar un tiempo antes de volver a lanzar el script.