Saltar al contenido →

Etiqueta: Buscadores Web

EdgeRank vs PageRank o cómo consumimos información en Internet

Es cierto. Hablar hoy en día sobre cómo interactuamos con el contenido en la Red basándonos en los algoritmos de Google (PageRank) y Facebook (EdgeRank), sólo nos puede ilustrar respecto a los filtros a los que nos vemos sometidos para acceder a la información que estamos consumiendo. Hace mucho tiempo que Google trata de ocultar la puntuación de Pagerank en los sitios web animando a los desarrolladores a que se centren más en el SEO, mientras que Facebook dejó de utilizar su algoritmo EdgeRank en 2011 siendo sustituido por una inteligencia artificial en 2013 que tiene presentes 100.000 factores distintos. Sin embargo, es necesario retroceder al nacimiento de estos dos algoritmos, para entender cómo consumimos la información hoy en día y cómo las grandes empresas recaban información sobre nuestros comportamientos para tratar de mostrarnos la mejor información posible.

Google se basó en conceptos bibliométricos para desbancar a su competencia a finales del siglo XX. Realmente, cuando buscabas cualquier término en el buscador de Mountain View los resultados eran relevantes y parecía que su motor de búsqueda se encontrase a gran distancia de su competencia más inmediata. Tanto es así que Google estuvo mucho tiempo relacionado con el concepto de «buscar en Internet» porque funcionaba realmente bien. Sencillamente, el algoritmo PageRank consideraba los enlaces del hipertexto como votos. Si una página web recibía muchos enlaces era como citarla, por lo que había muchos autores que referenciaban a esa página web como interesante dentro de un campo. Además, PageRank también tenía presente el contenido de la página, si un término aparecía en el título o al principio del texto es que esa página abordaba esa temática de forma relevante.

Sin embargo, PageRank en sus inicios sólo consideraba que el contenido era relevante gracias a los productores de contenido, por ejemplo, los periodistas, los bloggers… Pero no por los usuarios finales de ese contenido, es decir, los internautas que eran los que finalmente los consumían. ¿Cómo afinar los contenidos teniendo presente los intereses de un usuario?

Facebook se enfrentó a su problema desde un principio. A medida que su red social se incrementaba, los usuarios necesitaban de esa priorización. ¿Cómo podía saber Facebook en sus inicios qué contenidos tenía que destacar en la página principal de un usuario? EdgeRank fundamentaba la relevancia no por el contenido en sí mismo, sino por la interacción entre usuarios y tenía presente tres variables:

  • La puntuación de afinidad entre usuarios. Cuantos más usuarios compartiesen dos «amigos» significaba que tenían vínculos sociales más fuertes entre ellos dos. Además, también podía identificarse esa afinidad mediante los mensajes que se enviasen, la visualización de sus respectivos perfiles y otro tipo de interacciones dentro de la red social.
  • Asignación de pesos a las interacciones. El algoritmo tenía presente que un mensaje o un comentario tenía más peso en la puntuación final que un simple like, por ejemplo.
  • Tiempo pasado. A la hora de mostrar contenido, EdgeRank preponderaba contenido más nuevo frente a contenido más viejo.

Si bien Google lo tuvo más complicado en un principio por su propia naturaleza como buscador, tanto la Gran G como Facebook se esforzaron por conocer cuáles es nuestro comportamiento con los contenidos en la Web. Facebook y Google han tratado de capturar nuestros clics, nuestras interacciones, cómo compartíamos y con quién la información y cómo la consumíamos. Todo ello, no sólo para mejorar los resultados que nos muestra si no también para poder vender esa información a terceros para mejorar los impactos publicitarios.

Sin embargo, esa búsqueda por mostrar la información que es relevante para nosotros tiene efectos perniciosos puede que no buscados por las tecnológicas. Por un lado, se provoca un filtro burbuja en la que nos muestra tan sólo la información que es relevante para nosotros como por ejemplo de nuestra tendencia política, pero también afecta a nuestro bienestar puesto que se puede provocar un sesgo respecto a la información positiva o negativa que se nos puede llegar a mostrar.

Deja un comentario

Tú en tu burbuja (de información)

2018 fue el año que se le cayó la careta de Facebook definitivamente. Detrás de la imagen, un tanto amable de Mark Zuckerberg, ya puesta en duda en la película de David Fincher La Red Social, en la que se mostraba al CEO de Facebook como una persona ambiciosa y sin apenas escrúpulos (aunque se le trataba de edulcorar hacia el final de la cinta); descubrimos una realidad en la que lo sencillo es traficar con nuestros datos casi con total impunidad. Así, tras disculpa tras disculpa, Facebook ha ido escurriendo el bulto durante todo el año.

Sin embargo, hace ya bastante tiempo que se nos advirtió que cuando algo era gratis, el producto éramos nosotros. En definitiva, que alguien estaba explotando esa información que desinteresadamente, casi sin darnos cuenta, estábamos dándoles un pozo de información de la cual se podía extraer un beneficio económico.

No nos llevemos a engaño. Cada vez que conectamos un servicio adicional (Spotify, iVoox, etcétera) a Facebook o a Google, le estamos dando una llave a acceder a una gran cantidad de información a una y a otra empresa. Una información que nos descubre quiénes somos a terceros hasta extremos que como usuarios no podemos imaginar. Os invito a que os paseéis por la web de Google My Activity o vuestro historial de localizaciones para descubrir qué sabe Google de vosotros. Por supuesto que esto es sólo una pequeña parte de lo que la empresa de la gran G sabe de nosotros.

Esta información no sólo sirve para saber qué nos ha interesado, si no también qué nos puede llegar a interesar. En el caso de Google, en diciembre de 2009, implementó un algoritmo para ajustar los resultados al usuario. De esta manera, buscásemos lo que buscásemos, Google trataría de acomodar la información que nos proveyese atendiendo a nuestros gustos. Por ejemplo, dependiendo de la información que tuviese la empresa de Mountain View, cuando buscásemos “partido político” podría preponderar información sobre partidos de la izquierda o de la derecha partiendo de nuestras búsquedas previas y nuestras preferencias.

Este filtro burbuja ya establecido provoca que nos veamos limitados a la hora de obtener la información más relevante ante una búsqueda. Realmente Google nos ofrece lo que queremos leer, no la información más completa y mejor. Esto puede derivar hacia que la próxima batalla se va a establecer respecto a qué datos pueden ser usados y cómo en cuanto usamos la red. La privacidad se está convirtiendo en una característica de los productos de Apple sin ir más lejos.

En España, tenemos un ejemplo respecto a la ley que permite recopilar datos a los partidos políticos para definirnos ideológicamente. Este movimiento legislativo ya ha sido contestado por la Agencia de Protección de Datos española afirmando que es ilegal recopilar información sobre la ideología de las personas, aunque obviamente parezca que esa información ya se encuentra recopilada y disponible para quien quiera usar de ella.

Ya se ha demostrado que en Twitter (y por supuesto en cualquier red social) seguimos a personas que tienen nuestros mismos puntos de vista, que no seguimos a personas del signo contrario. El riesgo es que se nos intente manipular de cierta manera para que cambiemos nuestro punto de vista, que no alcancemos la información que nos daría un contrapunto y que nos hiciese cuestionar nuestras creencias previas. De esta manera, una fuente podría darnos una información falsa interesadamente, dándonos una confirmación de algo que tenemos nosotros prefijado previamente y que no necesariamente se acercase a la realidad.

En definitiva, el riesgo no es la información, sino la desinformación y la manipulación como se ha ido demostrando los últimos años. Una vez más, como consumidores de información debemos considerar qué fuentes de información consultamos, qué ética se persigue y si realmente esta fuente de información es real o de humor (¿cuántas personas de habla hispana y no hispana saben que El Mundo Today es un medio satírico?).

Actualmente, el acceso a la información es casi inmediato, pero sin filtro. El filtro lo establecemos cada uno de nosotros con nuestra experiencia, aunque gracias a los algoritmos serán otros los que decidan cómo y qué tipo de información consumiremos.

Deja un comentario

Sci-Hub, la mayor (e ilegal) biblioteca de investigación de Open-Access del mundo

sci-hub

En los últimos años, la batalla sobre el acceso al conocimiento científico-técnico se ha recrudecido. El movimiento sobre el acceso libre, universal y gratuito al conocimiento se ha visto espoleado principalmente por la página web Sci-Hub que ofrece material descargable que hasta ahora sólo podía ser accesible mediante pago. Actualmente, los servidores de Sci-Hub almacenan cerca de 50 millones de documentos a los que se añaden más cada día, según los usuarios hacen uso de su buscador. Hay que señalar que estos contenidos se agregan sin el permiso pertinente de los que poseen su copyright. El crecimiento de esta página web ha provocado que los grandes medios de comunicación ya hayan comenzando a hacerse eco de esta página y The Washington Post ha tratado de ofrecer un poco de luz sobre quién está haciendo uso de la misma: todo el mundo.

Debajo de esta piratería de la propiedad intelectual, se encuentra una lucha más compleja y profunda que nos debe llevar a la década de los años 70. En esta década se produjo un incremento importante de las publicaciones seriadas científicas, pero que derivó en algo mucho más relevante con la popularización de Internet que debería hacer mucho más sencillo el conseguir rebajar los costes.

Como nota aclaratoria, debemos tener presente que los científicos que publican en estas revistas no son retribuidos por los artículos que finalmente acaban siendo publicados, sino que lo que realmente buscan es el prestigio para obtener financiación para las instituciones para las que trabajan y para sus propios equipos. Sin embargo, las editoriales pueden llegar a cobrar hasta $10.000 por suscripción para alguna de estas revistas, mientras que los científicos obtienen sus ingresos gracias a las administraciones públicas que todos mantenemos gracias a los impuestos. La pregunta es evidente si los científicos trabajan por el bien común, financiados por las administraciones públicas, ¿por qué esa información no es libre y gratuita?

Tal y como señalábamos, desde los años 70, los precios de las revistas académicas comenzaron a subir más que la inflación. Peter Suber, en su libro Open Access, afirmaba que «en el año 2000, Harvard tenía suscritas 98.900 revistas, mientras que Yale tenía 73.900.» La mejor biblioteca de investigación de la India, Indian Institute of Science, tenía suscritas 10.600 revistas, mientras que muchas bibliotecas subsaharianas no disponían de ninguna. Pero no es que las universidades pobres no puedan permitirse una suscripción o un acceso a los papers de su interés, es que las propias universidades de los países desarrollados han tenido que acometer planes de recortes en las mismas por la continua alza de los precios. Empezando por Harvard.

Para contrarrestar esa continua barrera que suponía el continuo incremento de las revistas, surgió el movimiento Open-Access en 1990. Los propulsores del mismo eran conscientes de que Internet podría reducir los costes de producción y distribución, a la vez que ofrecían una solución a esas diferencias de acceso a la información. Por ello, surgieron iniciativas como PLOS ONE como una forma de facilitar ese acceso. Sci-Hub se la contempla como un ala radical de este movimiento y es que su máxima responsable Alexandra Elbakyan espera poder acelerar la adopción del Open Access.

Las publicaciones científicas contemplan el movimiento con consternación y denuncias. La revista Science publicó recientemente una editorial (My love-hate of Sci-Hub) defendiendo el modelo de negocio de las revistas. Entre otras, las editoriales se defienden afirmando que la publicación on-line es tan cara como la impresa (se necesita contratar a ilustradores, comunicadores, editores y técnicos) y que las revistas aseguran la calidad de las publicaciones científicas y las hacen convenientes para los lectores.

2 comentarios

Buscadores para la Internet of Things

La World Wide Web fue ideada por Tim Berners-Lee como un sistema de gestión de información. En él, todos los documentos están interconectados mediante una serie de enlaces que se sitúan dentro de los textos. Esto hacía sencillo realizar citas a otras fuentes de información y su consulta, ya que la recuperación de otros documentos relacionados se realizaba de una forma más ágil que la establecida hasta el momento. El desarrollo de Berners-Lee supuso la colocación de los cimientos para que Internet se popularizase, haciéndose más sencilla de utilizar y, por tanto, más accesible a una gran parte de la población.

Esa apertura hacia un público masivo significó que fuesen necesarias unas herramientas que favoreciesen la recuperación de información dentro de la misma Web. Google afinó mucho más el concepto del investigador del CERN al considerar que aquellos documentos que obtuviesen más enlaces deberían ser, necesariamente, más populares (Entre otros elementos de valor). Hasta ese momento, los buscadores de la Web se dedicaban a recuperar textos, sin embargo, según la Web se hacía más grande eran necesaria una segmentación para una recuperación más efectiva. Así, se diferenció por tipos de documentos (En Word, en PDF o en PowerPoint), se segmentó por elementos multimedia (imágenes, vídeos) e incluso posteriormente se hizo por el tipo de publicación (Noticias, blogs o libros). El siguiente paso es la diferenciación por tipo de máquinas conectadas a la Red.

La próxima revolución en la sociedad es lo que se ha denominado la Internet of Things (IoT) propuesto por Kevin Ashton en 2009. En un principio, se definió como todos aquellos objetos que podían ser equipados con identificadores (En aquel momento, se consideraba que la tecnología RFID era la más adecuada) que podrían ser inventariados y gestionados por un ordenador. Actualmente, el concepto es un poco más amplio y se considera que la IoT la compone cualquier objeto que disponga de una dirección IP o una URI. Hoy, existe una infinidad de objetos que se conectan a Internet para infinidad de tareas. Desde los tradicionales ordenadores y derivados (Tabletas y teléfonos móviles), pasando por cámaras de vigilancia, televisiones, frigoríficos, automóviles, semáforos, sistemas de gestión de piscinas, etcétera. La pregunta inmediata a hacerse es si una vez están conectados podrían ser recuperados como si fuesen documentos o imágenes tal y como se hace en Google.

Thingful, que será lanzado en fase beta durante este año, parte de la idea de la necesidad de buscar datos de una estación meteorológica concreta o de una carretera que disponga de sensores embebidos en ella. La idea de Thingful es la recuperación a través de enlaces directos a conjuntos de datos o páginas de perfiles con los objetos que se encontrarán enriquecidas con la información estructurada que darán sus propietarios a través de Twitter.

Por otro lado, y quizá más interesante, es la propuesta de John Matherly creador del buscador Shodan. Su desarrollo permite buscar directamente cualquier tipo de dispositivo que se encuentre conectado a Internet. Es decir, Shodan indexa Internet buscando dispositivos que estén programados para contestar. Los objetos que se encuentran en la base de datos de Shodan son desde coches, equipamiento quirúrgico, sistemas de climatización de oficinas, instalaciones de tratamientos de aguas… La idea detrás de Shodan es el aprendizaje, por lo que el número de resultados que muestra se encuentra limitados. Si un usuario desease la obtención de una mayor cantidad de resultados, deberá justificar el uso de la información que obtenga y asegurar que los va a usar sin ánimo de violentar sistemas de seguridad.

Los buscadores de la IoT abren un abanico interesante de posibilidades, pero al mismo tiempo muestran una serie de peligros que a nivel individual y colectivo hasta ahora habían pasado completamente desapercibidos.

Comentarios cerrados

¿Será Facebook juez y parte en el posicionamiento web de Google?

Hace ahora justo un año cuando lanzaba la pregunta ¿Es la web social el inicio del declive de Google? Entonces, algunos escépticos consideraron mi propuesta como una completa locura e infundamentada, insostenible, increíble, imposible… Puede ser que lo fuese entonces, hoy es probable que tenga mayor sentido.

Podríamos considerar que, al principio, la Web era el enlace, millones de páginas enlazadas sin aparente orden ni concierto que encontraban su sentido en esa algarabía gracias al trabajo del algoritmo de Google y de otros buscadores. Sin embargo, hoy en día, la Web se construye mucho más allá de los enlace. Partiendo de las base de que los enlaces los crean y los gestionan los creadores de contenido, aquellos que quieren estar considerados en los puestos altos del ranking de Google o simplemente los que desean referenciar contenidos para ampliar conocimientos, hay una parte de los usuarios de la Web que no saben ni entienden cómo se crean. La Web no llega a ser necesariamente democrática en ese aspecto porque una parte de ella no enlaza, ni siente la necesidad de hacerlo. Hasta ahora.

Hoy en día, los usuarios de la Web pueden llegar a no ser tan pasivos. La Web 2.0 trató de democratizar la creación del contenido, sin embargo lo que realmente sucedió es que democratizó la recomendación del mismo, siendo arrebatada esa idea primigenia hacia otros valores. Twitter y Facebook redirigen contenidos a nuestros conocidos y seguidores sin necesidad de escribir largos y extensos textos. Lo importante es derivar la atención, “me gustó esto y te creo que os podría interesar”, a través de personas que pueden tener las mismas inquietudes (no necesariamente intelectuales) que nosotros.

De este modo, Facebook, aunque actualmente sobre todo Twitter, se erigen como los grandes filtradores de contenidos de la Red y pueden llegar a otorgar una parte importante del tráfico de páginas web. Los medios de comunicación y las páginas web profesionales han sido los primeros en percatarse de ello y en colocar esos letreros de veces twitteado o “Me gusta” sobreimpreso en el azul Facebook para poner fácil a sus lectores el compartir sus gustos.

¿Ese mismo “Me gusta” puede influir en el posicionamiento? ¿Habrá perdido Google la posibilidad de posicionar los contenidos bajo sus reglas, las que obligaba a los SEOs a devanarse los sesos intentando entenderlo, y pagando a terceros para que les permita indizar esas recomendaciones? ¿Es la muerte del enlace como sistema democrático en la Web? ¿Es el principio del fin del SEO como lo conocimos hasta ahora?

Lo interesante de esta cuestión es el baile de poder que ha sufrido la Web en escasos cinco años. Un sitio web no concebida desde un principio para ser un nodo de tráfico, arrebata lentamente el poder de influencia que pueda tener Google sobre el resto del ecosistema web y lo peor de todo es que la dependencia de una a la otra puede ser peligrosa.

Un comentario

There will be blood (Todos contra Google)

He aquí una empresa que encontró ElDorado, una organización que dio un paso más allá en el mercado global de un mundo interconectado, que entendió la quinta esencia de cómo se comportaba el mercado dentro de un canal completamente nuevo, que intuyó cómo sería el futuro y se atrevió a desarrollar todo un modelo de negocio para sí misma y lo hizo accesible para el resto. Pero en el camino, son muchas las piedras en las que tropezar, muchos los enfrentamientos que superar y muchas mentes a las que convencer. En crisis, si todos admiran tu cuenta de resultados, si todos contemplan que tu caja sigue aumentando cada trimestre, sólo ansiarán meter la mano en ella. No les van a faltar las maneras de encontrar caminos para ello.

Aunque todas las miradas se centrarán en los medios, no son los únicos. Los medios de comunicación, esos agentes que consideran que sin ellos en Internet carecería de sentido, no habría contenido; quieren su pedazo de pastel sobre el buscador de Google y Google News. Haces dinero con nosotros, con nuestro producto, queremos nuestra parte, parecen aseverar. Sin embargo, la tendencia está cambiando, la competencia pura y perfecta de Internet es la culpable, y Facebook ya redirecciona más tráfico que Google a las webs. ¿No cabría también que pedir su parte del pastel a estos concentradores emergentes?

Los gobiernos, con Francia a la cabeza con su “tasa Google”, consideran que sus ingresos vía impuestos no están lo suficientemente bien recaudados como debieran y consideran que ese dinero podría ser bien utilizado para “protección de la oferta legal de contenidos en Internet y a la remuneración de los creadores”. Es decir, destinarlo a subvenciones que protejan el sector cultural. Los medios de comunicación han tratado de añadir leña al fuego difundiendo la noticia que Google no paga los suficientes impuestos en España, ya que sólo declara el 5’1% de lo que ingresa en este país (Según algunas estimaciones).

Por otro lado, las operadoras de telecomunicaciones, algunas cansadas de lanzar productos fallidos, tratan de convertirse en algo más que tuberías y solicitan también su parte, mientras Google ya muestra interés en convertirse también en una operadora más instalando cables submarinos, ofreciendo conexiones ultrarrápidas experimentales o con servicios de voz. Al mismo tiempo que algunos consideran que esa reclamación podría fin a la neutralidad red, Google se muestra conciliador asegurando que las telefónicas recibirán lo que hayan invertido. ¿Una aceptación de su debilidad?

Y, mientras tanto, la compañía sigue enredada en aspectos legales antiguos y nuevos provocados por la precipitación a la hora de publicar nuevos servicios. En Estados Unidos, prosigue el litigio sobre el control de los contenidos y sus planes de digitalización de casi toda obra editada en el mundo. Sin embargo, la travesía de Google Books nunca fue sencilla con acuerdos y denuncias que ponen en cuestión la viabilidad de un proyecto muy ambicioso y que dispone de detractores y defensores que no deja indiferente ni satisfecho a ninguno de los actores implicados.

Para que todo esto no fuese suficiente, Google Buzz el producto destinado a plantar cara a los productos estrella del denominado Social Media (Twitter y Facebook) se ha lanzado sin tener presentes aspectos claves como el de la privacidad que violaba y la sobrecarga informativa que provocaba, lo que ha conducido que se esté preparando una demanda contra el gigante de Mountain View de la que a buen seguro no saldrá  muy bien parado.

Desde luego que esta no es manera de empezar el año.

Un comentario

¿Acabará el Chat de Facebook con el Messenger?

El movimiento ha pasado completamente desapercibido, el mundo estaba demasiado preocupado intentando destripar Google Buzz por esas fechas, o tal vez porque esta opción ya era conocida y estaba disponible desde hacía tiempo, pero desde Facebook se ha realizado un movimiento más para que casi toda la actividad social de los internautas pase por su sitio web (o por sus servicios). El chat de Facebook, un pequeño menú desplegable más molesto que otra cosa que aparecía a pie de página, se ha hecho mayor o al menos va a intentarlo. Desde la semana pasada, es posible acceder a él a través del protocolo Jabber. Es decir, los usuarios pueden utilizarlo de forma abierta como si de un MSN Messenger se tratase, asaltando el escritorio de los internautas. La conversación asíncrona puede llegar a ser síncrona, aunque por supuesto todavía debe pasar un proceso de mejora en el que sea posible filtrar a esos usuarios molestos que aceptamos como integrantes de nuestra red social, pero que realmente tenemos bloqueados y de los que no queremos saber nada.

Sin embargo, este servicio es cada vez usado con mayor frecuencia por los usuarios de Facebook, que se detienen a charlar con sus contactos mientras publican y comentan los estados de los mismos. En el mismo momento en que ya no hace falta conocer el correo electrónico concreto de una persona, tan sólo cómo se llama – o se hace llamar – dentro de la Red Social, será posible hablar con ella, socavando los esfuerzos de Microsoft de convertir su Messenger en otra red social.

Y es que Facebook y Twitter tienen lo que otros quieren, Google lo sigue intentando tratando de cerrar su asignatura pendiente, mientras Facebook se propone posicionarse también en el escritorio, puede que desarrollando funcionalidades más allá del intercambio de mensajes. De momento, lo ha puesto un poco difícil al usuario medio, con configuraciones de aplicaciones de terceros un tanto liosas, aunque algunos como Adium (sólo para Mac) ya lo integran, pero puede que no tardemos en descubrir un Facebook Messenger tratando de destronar una de las aplicaciones favoritas de los internautas españoles.

3 comentarios
Usamos Cookies - Utilizando este sitio o cerrando este mensaje aceptas nuestra política de Cookies.
Aceptar Cookies
x