Big Data, Twitter y la Library of Congress

No dudéis que el Big Data va a ser trending topic este año. Habrá discusiones de si el término se utilizaba previamente o si simplemente es una buena idea de marketing, ¿no las hubo antes?, pero las discusiones terminológicas en ocasiones obvian la eficiencia y el desarrollo efectivo de las ideas.

Uno de los proyectos más apasionante en torno al Big Data que actualmente se están desarrollando se sitúan justamente en el ámbito bibliotecario. En abril de 2010, the Library of Congress (LoC) de Estados Unidos y Twitter llegaban a un acuerdo para que ésta se hiciese cargo del archivo de todos los tweets que almacenaba la empresa. En total, en ese momento, la biblioteca nacional estadounidense se hacía cargo de 170.000 millones de tweets públicos, 130 terabytes de información que crecían a un ritmo de 140 millones de tweets al día pero que actualmente lo hace más rápido, en torno a 500 millones.

El proyecto, además de la preservación, era ambicioso queriendo poner a disposición de los investigadores una basta fuente documental de hechos desarrollados los últimos años como la Primavera Árabe y que habían utilizado Twitter como correa de transmisión. Desde el punto de vista, periodístico, social e histórico, Twitter se presenta como una fuente primaria basta, pero de datos en crudo, de información dispersa que hay que ir hilvanando para poder obtener conclusiones.

Para tratar de hacer viable la recuperación de información, la LoC ha utilizado técnicas de Big Data desde distintos enfoques. Sin embargo, la biblioteca ha declarado su frustración a la hora de hacer viable la recuperación de la información considerando que las técnicas actuales no están tan avanzadas como la tecnología para crear y distribuir esos datos. Desde la LoC, afirman que si hoy en día las grandes empresas son incapaces de obtener resultados relevantes para las cantidades de información que generan dentro de su actividad diaria, qué puede hacer una organización pública con un presupuesto limitado.

El archivo de Twitter está planteado para que sólo pueda ser utilizado por investigadores, de momento 400 personas han declarado su interés por usarlo, sin embargo la situación actual no es muy prometedora, puesto que al lanzar una consulta, el sistema tardaría 24 horas en ofrecer resultados. Para poder mejorar la eficiencia del sistema, desde la LoC afirman que sería necesaria la inversión de una cantidad mayor de recursos de los que la institución no dispone actualmente, además de existir restricciones presupuestarias por la situación económica actual, por lo que la viabilidad del proyecto a la hora de ofrecer una herramienta útil de recuperación de la información es incierta en un corto plazo.

También te puede interesar...