No es un secreto que hoy día el pirateo de libros es inmenso. Gracias al formato PDF en lo general, muchos libros se han escaneado y puestos en portales piratas y pseudo legales, por ejemplo, b-ok.lat, el cual -me sorprende- no ha sido cerrado por contener millones de libros actuales en PDF de acceso gratuito (5 por día para usuario no registrado y diez por día, si el usuario se ha registrado).
Muchos de los libros pirateados tienen calidades de escaneo diversas. Algunos parecen haberse escaneado a mano, poniendo cada hoja en el escáner, y procediendo al proceso de copiado. Otros -da la impresión- son libros que se han pasado a PDF desde el original, probablemente en Word o LaTeX, esto último si se trata de un libro de matemáticas.
Pues bien, en un sitio de Internet absolutamente pirata hallé un libro que tengo guardado en una caja, el cual está en una bodega en casa de mi madre, y que no he podido buscar por falta de tiempo. Se trata del libro sobre la defensa escandinava, de Hartman y Taulbut, que me parece uno de los mejores trabajos sobre el tema. Hay que decir que el libro es anterior al año 2000 y quizás por eso no lo había hallado antes, pues en general se escanean libros modernos. Sin embargo, alguien lo halló en archive.org y lo subió al sitio de libros de ajedrez pirata.
Lo descargué y hallé que el escaneo no es malo, pero claramente se trata de un pdf de imágenes en color, en donde las páginas se ven ya grisaseas -quizás por el paso del tiempo. Pienso que el libro así funciona para todo fin práctico, pero se me ocurrió que si "blanqueara" cada página, la lectura sería mejor. Entonces puse manos a la obra, saqué mi compilador de Delphi y en menos de una hora había logrado mi cometido.
Para poder procesar el archivo PDF, página por página, primero lo pasé por el sitio ILovePDF.com, el cual tiene una opción que me permite convertir cada página del libro en imágenes JPG. Una vez teniendo esas imágenes, escribí un programa que permite al usuario ir a la carpeta donde están estas imágenes para procesarlas todas automáticamente.
El proceso de blanquear cada imagen fue pasar de una imagen de color a una de blanco y negro, es decir, del formato de 24 bits de color: rojo, verde y azul a simplemente puntos negros y blancos, es decir, formato de un solo bit. Es claro que en este formato se tiene punto negro o blanco. El procesamiento de cada imagen se hace usando scanline, que permite procesar líneas de puntos de color muy rápidamente para convertir a blanco y negro. De hecho, el proceso para hacer esto no lo escribí yo, sino que lo saqué de una discusión que había encontrado en Internet acerca de este tópico.
El programa convierte las 147 imágenes en muy poco tiempo, menos de un par de minutos. Una vez hecho esto, lo único que falta es usar de nuevo ILovePDF para pasar estas imágenes al formato PDF. Sin embargo, el resultado no fue tan bueno como esperaba. He aquí un ejemplo:
Como puede verse, en los bordes no queda como puntos blancos y negros. Esto no me convenció y ahora estoy pensando en cómo solucionar esto. Sin embargo, creo que el experimento fue relativamente exitoso. Ahora estoy en proceso de mandar el libro con las imágenes blanqueadas al sitio pirata por si alguien quiere el libro con las páginas en estricto blanco y negro.