Saltar al contenido →

Categoría: Internet

El fin de la web como la conocimos

No deberíamos engañarnos respecto al futuro de la web. Hay que mirar con un poco de perspectiva respecto cómo el ecosistema de la información ha ido evolucionando a lo largo de los años tras la promesa del acceso universal y gratuito a la información. En la década de los 90, conectarse a la Web estaba reservado a unos pocos y no digamos publicar contenidos en ella. A principios de los 2000, la propuesta era que cualquiera podría generar sus propios contenidos, se constituiría una inteligencia colectiva dentro de lo que se denominó la Web 2.0. En la primera década del siglo XXI, el Social Media supuso un terremoto respecto a la rapidez en que la información se transmitía y se priorizaba y nos fuimos acostumbrando a los términos trending topic o viralización. Parecía que por fin la opinión pública no iba a ser tan maleable e influenciable, que iba a saber consumir información y determinar qué fuentes de información podrían ser fiables y cuáles no. Pero según pasaron los años, todo ello cayó como un castillo de naipes.

Las Fake News y el escándalo de Cambridge Analytica nos hizo caer la venda de los ojos según ciertos intereses y la publicidad iba integrándose en el ecosistema. «Podremos vivir con ello», pudimos creer, pero parece que la baraja se rompe del todo y en diversos frentes a la vez.

Como siempre sucede, los grandes cambios aparecen como pequeñas grietas por los que se filtra el agua rompiendo toda la estructura y haciendo colapsar toda la estructura anterior. Lo que nos conduce hacia el escenario ya admitido por Google de que la web abierta está en rápido declive (aunque posteriormente haya puntualizado esa afirmación) y que sólo se entiende si nos alejamos unos pasos y contemplamos el escenario desde una perspectiva amplia.

Desde aquí, ya hemos apuntado algunas señales de este gran cambio, pero hay otros puntos que debemos considerar para complementar el análisis:

  1. Concentración de tráfico. La mayoría del tráfico de la web se concentra en unas pocas empresas como Google, Amazon (AWS), Meta (Facebook) o TikTok. Estas grandes empresas que concentran el 50% del tráfico de la Red deciden qué se ve, cómo se ve y cómo se monetiza. Esto provoca un desequilibrio respecto a otros agentes de la Red.
  2. El fin del hiperenlace. La tendencia de consumo de información tiende hacia el contenido encapsulado (reels, vídeos, memes, capturas de pantalla…) Lo que socava el origen mismo de la red como agregación de enlaces de contenido.
  3. Publicidad y rastreo. El esfuerzo que están llevando a cabo las grandes plataformas de redes sociales a la monetización de la actividad de los usuarios provoca que estos tiendan a desconfiar del uso de las mismas. Esto menoscaba el uso de la red como un espacio público de debate y de intercambio de ideas.
  4. Costos de infraestructura. Durante el apogeo de la blogosfera, era relativamente sencillo y barato abrir un lugar de publicación. Sin embargo, la complejidad de mantenimiento de estos sitios ha aumentado, así como tratar de posicionar los contenidos.
  5. IA Generativa. Ya abordado anteriormente en este blog, la IA en las búsquedas de usuarios es un game changer en todo el ecosistema de información que puede conducir a un cambio relevante respecto a la publicación y consumo de información.
Deja un comentario

La IA no tendrá quien le escriba

Google ha comenzado a activar el Modo IA en su app «Google» en los sistemas operativos Android e iOS. De manera que ante una búsqueda los resultados se devolverán a través de su IA Gemini de forma preferente. Los medios de comunicación llevan un tiempo comenzando a acusar el descenso de acceso a sus noticias (30-35% de caídas en la búsqueda orgánica) tanto por la IA como el cambio de los algoritmos de Google (1 y 2).

Se está produciendo un terremoto brutal en el ecosistema de la información. El viejo dogma «si publicas, acabarán viniendo» se deshace mientras la IA se integra cada vez más en las aplicaciones móviles y en la manera en que la información se consume. ¿Tiene sentido la inversión en la publicación de información cuando el retorno económico previsto lo acapara las respuestas generadas por inteligencia artificial? En los medios de comunicación, empiezan a asaltar las dudas.

ChatGPT, Perplexity, CoPilot (Microsoft), Anthropic (Amazon) y Gemini (de Google) son las principales apuestas para transformar la forma en la que buscamos información y cubrimos nuestras necesidades. Sin embargo, estos textos generados de forma estadística bloquean el acceso al segundo nivel (los enlaces a las fuentes originales) lo que restringe el tráfico. Si los usuarios de buscadores tendían a quedarse con los primeros 10 resultados de búsqueda del buscador y no pasar de ellos, ahora con unas respuestas estructuradas y que parecen bastante verosímiles (aunque alucinen si no tienenrespuestas) es previsible que no salgan de las interfaces que les ofrecen las IAs.

Mientras las IAs explotan todo el contenido disponible en la Web desde hace décadas para construir su propuesta de valor, el debate sobre el uso justo de este contenido que muchas veces es accesible de forma gratuita impulsa el debate. Incluso la necesidad de agregar contenido para entrenar sus modelos no se limita al espacio digital, sino la voracidad también pasa por el formato impreso. De hecho, Anthropic compró libros en formato impreso para alimentar sus modelos lo que generó una polémica sobre los límites de este uso justo. Finalmente, llegó a un acuerdo con entidades de derechos de autor para tratar de zanjar la polémica (bajo pago de 1500 millones de dólares) aunque no admite ninguna irregularidad.

Ante el apocalipsis de las noticias ante un escenario de Zero-Click donde el acceso a sus contenidos mediante enlaces tienda a cero, los medios de comunicación tradicionales y las publicaciones puramente on-line deben adaptar sus estrategias. The New York Times alcanzó un acuerdo con Amazon por 20-25 millones de euros anuales para que la multinacional pueda utilizar sus artículos para sus servicios de IA, mientras que otros grupos como Financial Times, Axel Springer o the Guardian; pero es probable que las cabeceras que alcancen este tipo de acuerdos sean pocas. Los medios europeos tratan de unir sus fuerzas para tratar de llegar a acuerdos con estas plataformas, sin embargo las negociaciones necesitan tiempo, algo que tal vez las estructuras económicas de los medios no puedan soportar.

Deja un comentario

Una Web que se devora asimisma (1)

En la década de los 90, cuando se echaba mano del socorrido símil autopistas de la información para entender qué es lo que podría aportar a futuro la World Wide Web (que acabó reducida a Web o Red), se nos prometió un El Dorado donde el acceso a la información será universal y barato. Sin embargo, ese paraíso futurible donde todavía el acceso era caro y con unas necesidades tecnológicas aún lejanas para la inmensa mayoría de la población pronto mutó hacia otra cosa mientras el dinero comenzó a fluir hacia un entorno que lo redefiniría todo.

En una primera fase, la recopilación de enlaces de sitios interesantes en forma de directorios fue sencillo de mantener. Pero pronto esa curación humana se tornaría inmanejable dando espacio a otro tipo de tecnologías como la de En una segunda, Google que acudió a salvarnos frente aquella intoxicación, haciendo racional y sencillo la categorización de la información mediante algoritmia y una serie de rankings que fueron cambiando a lo largo del tiempo. Esta clasificación automática tuvo que ir adaptándose a la realidad de una web que crecía y se bifurcaba hacia todo tipo de contenidos e intereses según se democratizaba la generación de contenido (Web 2.0) y el acceso sencillo e inmediato en cualquier punto (teléfonos móviles).

Cada nueva evolución tecnológica significaba un cambio del paradigma anterior, pero la Web supo pudiendo ofrecer soluciones de información a todo tipo de sensibilidades y de esperanzas. Hubo un momento que la Web era un foro abierto en que cualquier persona tenía una oportunidad para promocionarse, opinar de forma transparente y mostrar sus conocimientos. Con suerte, hasta poder construir una comunidad propia, pero el modelo se fue retorciendo según se añadían capas y capas nuevas al algoritmo y el ecosistema móvil se posicionaba como una nueva gallina de los huevos de oro, según las marcas buscaban llegar a consumidores jóvenes y no tanto. Por supuesto que los mensajes y la capacidad de influir a la opinión pública también cambiaba; trasladándose desde los medios de comunicación y hacia Facebook y, en menor medida, a Twitter entonces y ahora X.

Por si la situación no fuese compleja, y con las redes sociales ya siendo sometidas a escrutinio y control debido a su alcance a la población en general, otra capa de complejidad se añade apoyándose en todo lo anterior. La Inteligencia Artificial viene a incorporar un poco más de confusión a todas esas vías de acceso de información a los usuarios. Ya se trate mediante texto o imagen (en la mayor brevedad vídeo), las IAs se posicionan como grandes generadores de textos que de forma barata son capaces de sobrepasar al resto de generadores de contenidos ya sean medios de comunicación como referentes de la opinión pública individuales.

[Continúa]

Un comentario

EdgeRank vs PageRank o cómo consumimos información en Internet

Es cierto. Hablar hoy en día sobre cómo interactuamos con el contenido en la Red basándonos en los algoritmos de Google (PageRank) y Facebook (EdgeRank), sólo nos puede ilustrar respecto a los filtros a los que nos vemos sometidos para acceder a la información que estamos consumiendo. Hace mucho tiempo que Google trata de ocultar la puntuación de Pagerank en los sitios web animando a los desarrolladores a que se centren más en el SEO, mientras que Facebook dejó de utilizar su algoritmo EdgeRank en 2011 siendo sustituido por una inteligencia artificial en 2013 que tiene presentes 100.000 factores distintos. Sin embargo, es necesario retroceder al nacimiento de estos dos algoritmos, para entender cómo consumimos la información hoy en día y cómo las grandes empresas recaban información sobre nuestros comportamientos para tratar de mostrarnos la mejor información posible.

Google se basó en conceptos bibliométricos para desbancar a su competencia a finales del siglo XX. Realmente, cuando buscabas cualquier término en el buscador de Mountain View los resultados eran relevantes y parecía que su motor de búsqueda se encontrase a gran distancia de su competencia más inmediata. Tanto es así que Google estuvo mucho tiempo relacionado con el concepto de «buscar en Internet» porque funcionaba realmente bien. Sencillamente, el algoritmo PageRank consideraba los enlaces del hipertexto como votos. Si una página web recibía muchos enlaces era como citarla, por lo que había muchos autores que referenciaban a esa página web como interesante dentro de un campo. Además, PageRank también tenía presente el contenido de la página, si un término aparecía en el título o al principio del texto es que esa página abordaba esa temática de forma relevante.

Sin embargo, PageRank en sus inicios sólo consideraba que el contenido era relevante gracias a los productores de contenido, por ejemplo, los periodistas, los bloggers… Pero no por los usuarios finales de ese contenido, es decir, los internautas que eran los que finalmente los consumían. ¿Cómo afinar los contenidos teniendo presente los intereses de un usuario?

Facebook se enfrentó a su problema desde un principio. A medida que su red social se incrementaba, los usuarios necesitaban de esa priorización. ¿Cómo podía saber Facebook en sus inicios qué contenidos tenía que destacar en la página principal de un usuario? EdgeRank fundamentaba la relevancia no por el contenido en sí mismo, sino por la interacción entre usuarios y tenía presente tres variables:

  • La puntuación de afinidad entre usuarios. Cuantos más usuarios compartiesen dos «amigos» significaba que tenían vínculos sociales más fuertes entre ellos dos. Además, también podía identificarse esa afinidad mediante los mensajes que se enviasen, la visualización de sus respectivos perfiles y otro tipo de interacciones dentro de la red social.
  • Asignación de pesos a las interacciones. El algoritmo tenía presente que un mensaje o un comentario tenía más peso en la puntuación final que un simple like, por ejemplo.
  • Tiempo pasado. A la hora de mostrar contenido, EdgeRank preponderaba contenido más nuevo frente a contenido más viejo.

Si bien Google lo tuvo más complicado en un principio por su propia naturaleza como buscador, tanto la Gran G como Facebook se esforzaron por conocer cuáles es nuestro comportamiento con los contenidos en la Web. Facebook y Google han tratado de capturar nuestros clics, nuestras interacciones, cómo compartíamos y con quién la información y cómo la consumíamos. Todo ello, no sólo para mejorar los resultados que nos muestra si no también para poder vender esa información a terceros para mejorar los impactos publicitarios.

Sin embargo, esa búsqueda por mostrar la información que es relevante para nosotros tiene efectos perniciosos puede que no buscados por las tecnológicas. Por un lado, se provoca un filtro burbuja en la que nos muestra tan sólo la información que es relevante para nosotros como por ejemplo de nuestra tendencia política, pero también afecta a nuestro bienestar puesto que se puede provocar un sesgo respecto a la información positiva o negativa que se nos puede llegar a mostrar.

Comentarios cerrados

Memex, una propuesta de proto-hipertexto

Si lo hubiésemos leído en cualquier relato de algún autor clásico de ciencia-ficción, no hubiese pasado de una anécdota literaria; pero Vannebar Bush se tomó muy en serio la descripción de su máquina Memory – Extender (MEMEX). En la descripción de esta máquina, se aportaba una primera idea de cómo un documento podría ser unido con otro para su recuperación mecánica. La idea fue difundida en un artículo en The Atlantic Monthly en 1945 bajo el título As We May Think, aunque el autor comenzó a trabajar en el texto seis años antes, en 1939. En el documento, Bush se planteaba cómo se estaba gestionando la información en aquella época y cómo se podría hacer más accesible.

Inspirado por Paul Otlet, Bush consideraba que los métodos utilizados para transmitir y revisar los resultados de la investigación no eran los más adecuados. De hecho, consideraba que la cantidad y el volumen de la información que se generaba en aquel momento era tal que no se podía gestionar adecuadamente. Por ello, proponía un dispositivo que permitiese gestionar la información y que evitase en buena medida la sobrecarga de información (infoxicación). Con su Memex, las personas podrían comprimir y almacenar todos sus libros, registros y comunicaciones, además de gestionarlos.

A memex is a device in which an individual stores all his books, records, and communications, and which is mechanized so that it may be consulted with exceeding speed and flexibility. It is an enlarged intimate supplement to his memory.

It consists of a desk, and while it can presumably be operated from a distance, it is primarily the piece of furniture at which he works. On the top are slanting translucent screens, on which material can be projected for convenient reading. There is a keyboard, and sets of buttons and levers. Otherwise it looks like an ordinary desk.

Esquema del MEMEX de Bush

Bush consideraba que su aparato podría extender la memoria de las personas – de ahí su nombre -, podría ser consultado con velocidad y flexibilidad. El soporte elegido por el investigador era el microfilm. De este modo, creía que todos los registros debían ser almacenados en ese soporte, ya se tratase de materiales adquiridos o materiales introducidos por el autor. El Memex permitía al usuario «fotocopiar» aquellos contenidos que desease e integrarlos dentro del sistema.

Tal vez, lo más interesante conceptualmente era que sugería un sistema de clasificación que podría ser considerado como un sistema proto-hipertextual. El aparato facilitaba un tipo de indexacion asociativa a través del que cualquier elemento podría llevar a otro mediante la voluntad del usuario y los senderos (trails) que defina. Según Bush, el usuario tiene que indexar un documento o imagen mediante un código que se registrará en un libro de forma independiente y que facilitará la recuperación de información. El autor no describe en ningún momento un sistema de recuperación automática, ni esquemas de metadatos universales como una clasificación bibliotecaria.

The essential feature of the memex [is] the process of tying two items together… When the user is building a trail, he names it in his code book, and taps it out on his keyboard. Before him are the two items to be joined, projected onto adjacent viewing positions. At the bottom of each there are a number of blank code spaces, and a pointer is set to indicate one of these on each item. The user taps a single key, and the items are permanently joined… Thereafter, at any time, when one of these items is in view, the other can be instantly recalled merely by tapping a button below the corresponding code space.

El concepto del Memex se considera como una de las ideas semilla de lo que vendría a posterior cuando se empezó a diseñar Internet en primera instancia y la Web en segunda, evolucionando esa concepción de trail el hiperenlace y el hipertexto que verían la luz varias décadas después.

Comentarios cerrados

Cuando el tagging se convierte en nocivo (en el MundoReal™)

Una de las cosas que la Web 2.0 trajo consigo es el etiquetado tanto de artículos, fotografías como de otro tipo de documentos. Estas etiquetas, asignadas en muchas ocasiones libremente por los usuarios de este tipo de servicios, son palabras clave cuyo fin es permitir a otros usuarios del mismo servicio localizar información y artículos relacionados.

Este sistema de clasificación de información de los que se sirve servicios bien conocidos como Twitter o Instagram es una buena idea en un principio. Por ejemplo, en el caso de Twitter sirve para la detección de las tendencias en distintos ámbitos de clasificación de la información, ya se geográficamente como temáticamente. Y a pesar de que esta acción parezca ser superflua en primera instancia, tiene un impacto en el MundoReal™.

Algo tan inocente como un turista o un vecino añadiendo una etiqueta a una fotografía que se acaba de hacer de un elemento natural que le resulta bonito o simplemente interesante puede llegar a convertirse en un problema precisamente para la conservación de aquello que acabamos de inmortalizar. De hecho, ya hay Parques Naturales como Keep Jackson Hole Wild que están pidiendo a sus visitantes que no Geo-localicen sus fotos en un intento de preservar los espacios naturales del parque.

Un ejemplo a pequeña escala es el Broccoli Tree que acabó siendo vandalizado y finalmente talado precisamente por su popularidad en Instagram. El árbol fue popularizado por Patrik Svedberg que realizó durante meses de un árbol situado en Suecia. Poco a poco, el árbol fue adquiriendo popularidad convirtiéndose en una pequeña atracción turística y ganándose un hueco como celebridad en Instagram con 30.000 seguidores. Sin embargo, en 2017, alguien cortó una de sus ramas y posteriormente alguna autoridad local decidió que había que cortar el árbol entero poniendo fin a este pequeño rincón natural.

De esta forma, un sistema que sirvió para destacar un elemento natural y que personas de todo el mundo lo conociesen y apreciasen, sirvió también para acabar con él. Algo que también se puede comprobar a mayor escala en espacios naturales como Maya Bay que tuvo que ser cerrada para tratar de recuperar su ecosistema ante la gran afluencia de turistas.

Comentarios cerrados

Tú en tu burbuja (de información)

2018 fue el año que se le cayó la careta de Facebook definitivamente. Detrás de la imagen, un tanto amable de Mark Zuckerberg, ya puesta en duda en la película de David Fincher La Red Social, en la que se mostraba al CEO de Facebook como una persona ambiciosa y sin apenas escrúpulos (aunque se le trataba de edulcorar hacia el final de la cinta); descubrimos una realidad en la que lo sencillo es traficar con nuestros datos casi con total impunidad. Así, tras disculpa tras disculpa, Facebook ha ido escurriendo el bulto durante todo el año.

Sin embargo, hace ya bastante tiempo que se nos advirtió que cuando algo era gratis, el producto éramos nosotros. En definitiva, que alguien estaba explotando esa información que desinteresadamente, casi sin darnos cuenta, estábamos dándoles un pozo de información de la cual se podía extraer un beneficio económico.

No nos llevemos a engaño. Cada vez que conectamos un servicio adicional (Spotify, iVoox, etcétera) a Facebook o a Google, le estamos dando una llave a acceder a una gran cantidad de información a una y a otra empresa. Una información que nos descubre quiénes somos a terceros hasta extremos que como usuarios no podemos imaginar. Os invito a que os paseéis por la web de Google My Activity o vuestro historial de localizaciones para descubrir qué sabe Google de vosotros. Por supuesto que esto es sólo una pequeña parte de lo que la empresa de la gran G sabe de nosotros.

Esta información no sólo sirve para saber qué nos ha interesado, si no también qué nos puede llegar a interesar. En el caso de Google, en diciembre de 2009, implementó un algoritmo para ajustar los resultados al usuario. De esta manera, buscásemos lo que buscásemos, Google trataría de acomodar la información que nos proveyese atendiendo a nuestros gustos. Por ejemplo, dependiendo de la información que tuviese la empresa de Mountain View, cuando buscásemos “partido político” podría preponderar información sobre partidos de la izquierda o de la derecha partiendo de nuestras búsquedas previas y nuestras preferencias.

Este filtro burbuja ya establecido provoca que nos veamos limitados a la hora de obtener la información más relevante ante una búsqueda. Realmente Google nos ofrece lo que queremos leer, no la información más completa y mejor. Esto puede derivar hacia que la próxima batalla se va a establecer respecto a qué datos pueden ser usados y cómo en cuanto usamos la red. La privacidad se está convirtiendo en una característica de los productos de Apple sin ir más lejos.

En España, tenemos un ejemplo respecto a la ley que permite recopilar datos a los partidos políticos para definirnos ideológicamente. Este movimiento legislativo ya ha sido contestado por la Agencia de Protección de Datos española afirmando que es ilegal recopilar información sobre la ideología de las personas, aunque obviamente parezca que esa información ya se encuentra recopilada y disponible para quien quiera usar de ella.

Ya se ha demostrado que en Twitter (y por supuesto en cualquier red social) seguimos a personas que tienen nuestros mismos puntos de vista, que no seguimos a personas del signo contrario. El riesgo es que se nos intente manipular de cierta manera para que cambiemos nuestro punto de vista, que no alcancemos la información que nos daría un contrapunto y que nos hiciese cuestionar nuestras creencias previas. De esta manera, una fuente podría darnos una información falsa interesadamente, dándonos una confirmación de algo que tenemos nosotros prefijado previamente y que no necesariamente se acercase a la realidad.

En definitiva, el riesgo no es la información, sino la desinformación y la manipulación como se ha ido demostrando los últimos años. Una vez más, como consumidores de información debemos considerar qué fuentes de información consultamos, qué ética se persigue y si realmente esta fuente de información es real o de humor (¿cuántas personas de habla hispana y no hispana saben que El Mundo Today es un medio satírico?).

Actualmente, el acceso a la información es casi inmediato, pero sin filtro. El filtro lo establecemos cada uno de nosotros con nuestra experiencia, aunque gracias a los algoritmos serán otros los que decidan cómo y qué tipo de información consumiremos.

Comentarios cerrados