Saltar al contenido →

Mes: enero 2017

Los bibliotecarios que lucharon contra un algoritmo… Y perdieron

Charles Finley podría haber pasado a la historia como uno de los mayores lectores de una biblioteca. Con un registro de préstamos de 2361 libros durante 2015, el lector voraz de la East Lake County Library (Orlando, EEUU) demostraba un interés inusitado en temáticas de diversa índole junto con un amplio espectro de gustos en literatura. Durante nueve meses, el usuario de la biblioteca pudo leer un libro en una media de tres horas. Esto provocó que los responsables del sistema bibliotecario se interesasen por él comprobando que en la ficha se hallaban su dirección, su carrera profesional y su número de licencia de conducir. Desgraciadamente, detrás del señor Finley se encontraban George Dore y Scott Amey, dos bibliotecarios que apostaron contra el sistema y perdieron.

En el fondo, el lector falso, Finley, fue creado con la intención de inflar las estadísticas de la biblioteca, tratando de engañar al algoritmo que mostraba la popularidad de los libros que en realidad no se prestaban en exceso (los libros que no se usan durante un largo período de tiempo se descartan y se eliminan del sistema bibliotecario). Los registros mostraron que docenas de libros se sacaron y se devolvieron en la misma hora, además de que la circulación de la biblioteca ascendió un 4% gracias a los préstamos de Finley.

Dore ha sido acusado de cometer fraude y ha sido suspendido de su puesto como gerente de la biblioteca. Además ha provocado que se inicie una auditoría de todo el sistema bibliotecario puesto que afirmó que hinchar las estadísticas se trataba de algo usual dentro del sistema.

Esto puede que saque a la luz un problema de financiación puesto que nueve bibliotecas del condado reciben alrededor de un millón de dólares teniendo presente sus ratios de préstamo. El sistema bibliotecario es cooperativo con una catalogación centralizada y con ciertos privilegios de préstamo para los residentes del condado.

En cualquier caso, la biblioteca de Dore no se encontraba en este esquema de financiación, por lo que aparentemente no hay un interés financiero a la hora de inflar las estadísticas y acometer el fraude. Sin embargo, asegura que se está desarrollando entre las bibliotecas una muy mal ambiente por conseguir fondos.

Comentarios cerrados

La explotación estadística de textos a través de Ngram Viewer

Google Ngram Viewer es un motor de búsqueda que muestra las frecuencias de un conjunto de cadenas de búsqueda delimitadas por comas, utilizando un recuento anual de n-gramas de fuentes impresas entre 1500 y 2008. Liberado en 2010, la fuente principal de donde se nutre este programa es Google Books. El programa puede buscar una sola palabra, un conjunto de ellas o frases completas, incluyendo errores ortográficos. Esto permitiría a historiadores y lingüistas trazar la trayectoria de palabras y frases a través del tiempo sobre la base de una enorme cantidad de datos lo que permite observar el auge y la caída de ciertas expresiones, giros y palabras. Incluso algunos historiadores denominaron a este nuevo campo abierto por Google como culturomics. Sin embargo, aunque el fondo puede llegar a ser interesante, el Ngram Viewer dispone de varios problemas.

El más evidente son los errores en el reconocimiento de caracteres, que nunca es un proceso perfecto y que empeora cuando las tipografías utilizadas son antiguas. Uno de los mejores ejemplos, es la confusión que tiene el sistema con las letras f y s. El segundo es que existe una preponderancia de literatura científica. El tercero los errores en la introducción de los metadatos de los libros escaneados que pueden dar representaciones de términos en épocas que no existían.

En el gráfico siguiente, podemos ver la evolución comparativa de los términos disruptive y disruption a modo de ejemplo.

ngram

Comentarios cerrados