Saltar al contenido →

Categoría: Internet

La explotación estadística de textos a través de Ngram Viewer

Google Ngram Viewer es un motor de búsqueda que muestra las frecuencias de un conjunto de cadenas de búsqueda delimitadas por comas, utilizando un recuento anual de n-gramas de fuentes impresas entre 1500 y 2008. Liberado en 2010, la fuente principal de donde se nutre este programa es Google Books. El programa puede buscar una sola palabra, un conjunto de ellas o frases completas, incluyendo errores ortográficos. Esto permitiría a historiadores y lingüistas trazar la trayectoria de palabras y frases a través del tiempo sobre la base de una enorme cantidad de datos lo que permite observar el auge y la caída de ciertas expresiones, giros y palabras. Incluso algunos historiadores denominaron a este nuevo campo abierto por Google como culturomics. Sin embargo, aunque el fondo puede llegar a ser interesante, el Ngram Viewer dispone de varios problemas.

El más evidente son los errores en el reconocimiento de caracteres, que nunca es un proceso perfecto y que empeora cuando las tipografías utilizadas son antiguas. Uno de los mejores ejemplos, es la confusión que tiene el sistema con las letras f y s. El segundo es que existe una preponderancia de literatura científica. El tercero los errores en la introducción de los metadatos de los libros escaneados que pueden dar representaciones de términos en épocas que no existían.

En el gráfico siguiente, podemos ver la evolución comparativa de los términos disruptive y disruption a modo de ejemplo.

ngram

Comentarios cerrados

Y si Facebook llegase a tener demasiado poder

Facebooks rules the world

No nos hemos dado cuenta, pero poco a poco hemos ido abandonando la web. Fue poco a poco, sin pretenderlo, pero nuestra web se hizo más pequeña. Pasamos de los monitores de 17 pulgadas a los monitores de cinco pulgadas y si en aquel momento nos costaba leer un texto largo, es comprensible que actualmente ante una letra de siete puntos nuestros ojos nos pidan un descanso.

Pero fue Facebook, a pesar de que comience a sentir en sus carnes el relevo generacional y que nos hayamos cansado de publicar lo que hacemos en nuestro muro, fue el primero en percatarse de que el futuro pasaría por el móvil, que todos los contenidos se consumirían mediante este dispositivo y que los portátiles pasarían a mejor vida. Que era vital posicionar la icónica F blanca en nuestras pantallas.

Atrás van quedando las polémicas de si Facebook es realmente una red social como se entendía en sus principios. Una red social entendida como un lugar donde conectarse con las amistades que realmente conocíamos y que se encontraban sujetas más o menos al número de Dunbar. No, desde luego que ya no lo es en muchos de los casos. Pero hay que tener presente que Facebook siempre ha sido temerosa de su propia obsolescencia -consciente diría yo- afanándose en adquirir o tratar de hacerlo las nuevas tecnologías que le salían al paso, que podrían hacerle sombra: Whatsapp, Instagram, Oculus… Porque sí, a pesar de que conecte a más de mil millones de personas en el planeta, Facebook tiene miedo. Miedo a su propia irrelevancia a que sus usuarios la abandonen como hicieron con otras plataformas como el MSN Messenger.

Para ello, se ha dispuesto a comerse Internet. Desplazarse a los nichos donde otras plataformas se sitúan con el único objetivo de servir información mientras la recopila silenciosamente, sin que nos percatemos de ello.

Facebook es actualmente una de las principales empresas publicitarias de Estados Unidos. Junto a Google, Microsoft, Yahoo y AOL, la empresa de Mark Zuckerberg factura anualmente 5 billones de dólares (10% del total). Sin embargo, el dinero publicitario todavía no ha sabido posicionarse en el móvil, mientras que se enfrenta a retos evidentes como los bloqueadores de publicidad en los navegadores móviles. En cualquier caso, Facebook parece querer convertirse en el portal mediante el cual los usuarios se conecten como si se tratase de la fiebre de los portales de la burbuja.com. Pero, debemos reconocer que el atractivo de esta red social es muy relevante como demuestra el hecho de que el usuario medio estadounidense pasa 42 minutos diarios en la web.

A Facebook se le ha considerado como el nuevo editor de noticias, capaz de no generar ningún tipo de contenido pero ser el vehículo mediante el cual los productores de noticias conectan con su público. Esto genera una especial relación amor-odio ya que muchas de estas empresas dependen de la red social para monetizarse. El último movimiento de Facebook es Instant Articles, una plataforma mediante la cual redistribuye contenidos de los principales editores de la web. Los editores pueden utilizar su plataforma incluyendo sus propios anuncios, obteniendo el 100% de esos ingresos, aunque también pueden echar mano de Facebook Audience Network en la que la red social se reservaría el 30% de los ingresos.

Desde luego que va a ser interesante comprobar hacia dónde se encaminan todas estas iniciativas si tenemos presentes que cada vez que la red social ha realizado un cambio en su Newsfeed o en sus políticas han provocado enfados en sus clientes. Incluso ha llegado a expulsar a alguno de ellos con el impacto que puede tener en su cuenta de resultados lo que ha llevado a empezar a cuestionarse si Facebook realmente tiene actualmente demasiado poder en la Red.

Comentarios cerrados

La batalla contra la publicidad se convierte en una guerra entre distintos keyplayers

Ad-blocker

La batalla contra la publicidad que podría considerarse intrusiva y que arruinaba la experiencia de navegación por Internet empezó pronto. En 2003, Google alivió a muchos internautas cuando lanzó su Toolbar con la capacidad de bloquear los molestos Pop-Ups publicitarios. Esta característica de bloqueo fue integrada y adoptada por muchos navegadores como una opción por defecto. Sin embargo, la publicidad encontró otras vías para continuar expandiéndose y con ello degradando la navegación en Internet.

Al contrario que los medios tradicionales, que tenían distintas maneras de financiarse (publicidad, espacios por palabras, suscripciones y subvenciones), en la Web las vías de financiación se reducen (publicidad o suscripción) lo que no deja muchas alternativas a los medios que generan contenidos. Debemos de considerar que Google es una agencia de publicidad gigante y fue su manera de monetizar su buscador y poder sobrevivir desarrollando un modelo de negocio viable.

En 2007, la batalla contra la publicidad dio su siguiente paso. Mozilla Firefox ya permitía la inclusión de addons a su navegador y uno de los que comenzaba a despuntar entre los usuarios más avanzados era Adblock Plus. La polémica estuvo servida con el bloqueo en algunas de las webs de aquellos usuarios que usasen ese navegador específicamente porque no había manera de discernir quiénes usaban el bloqueador de anuncios y quiénes no. Desde entonces, el uso de este addon, que ya puede instalarse en otros navegadores como Chrome, no ha tenido mucha repercusión. En primer lugar, porque era un producto que usaban tan sólo usuarios con un perfil más técnico y tecnológico y, en segundo, porque comenzaba a surgir un mercado mucho más importante que el navegador del ordenador: el móvil.

Actualmente, navegar por Internet a través del móvil puede convertirse en un verdadero un suplicio. Primero porque muchas páginas web no están optimizadas para dar una experiencia acorde a nuestras pequeñas pantallas y, segundo, la cantidad de publicidad se mantiene, con lo que el usuario debe estar intentado pelearse con las pequeñas aspas de cierre publicitario que con un puntero de ratón sería fácilmente conseguible, pero no así cuando tenemos que usar nuestros dedos. Por otro lado, existe una publicidad totalmente engorrosa que en cuanto se carga la página te redirige a otra en la que te dice que “su móvil es inseguro descárguese este programa”, “su Whatsapp está desaprovechado, descárguese este complemento”. En ocasiones, es imposible salir de estas promociones publicitarias y acabas odiando al responsable de publicidad de ciertos medios de comunicación. ¿Solución? Uso de navegadores alternativos como, de nuevo, Mozilla Firefox que puede aliviar este conjunto de prácticas y favorecer mucho la navegación.

¿Qué está sucediendo? Se está incrementando el uso de estos bloqueadores publicitarios de forma exponencial alcanzando ya los 200 millones de usuarios suponiendo ya hasta un quinto de los posibles ingresos publicitarios. La reacción ante los usuarios que usan los bloqueadores pasa desde la hostil, bloqueando a los usuarios que los tienen instalado, hasta la educativa pidiéndoles que los desactiven en su dominio. Hasta ahora, los dos mercados, el de escritorio y el de móvil, se diferenciaban y el que realmente crecía era el móvil alcanzando actualmente los 69 billones de dólares. Donde se perdían el grueso de los ingresos por bloqueadores no importaba en exceso, ya que donde se crecía y mucho era en el mercado móvil, sin embargo distintas tendencias están poniendo en riesgo ese crecimiento.

En primer lugar, tal y como ya se ha señalado, el uso de los bloqueadores está creciendo. Personalmente, los uso aunque permite que se me provea de publicidad “respetuosa”. Esta opción tiene un debate interesante soterrado. Adblock Plus te permite o bloquear toda la publicidad o mostrarte sólo publicidad respetuosa. ¿Quién decide qué es publicidad respetuosa? Adblock Plus y su empresa desarrolladora Eyeo que están encantados que se les pague por ello. Esto ha sido denunciado como una especie de chantaje hacia los anunciantes y llevado a los tribunales alemanes que han dictaminado que el modelo de negocio de Eyeo es legal.

En segundo lugar, los propios navegadores comienzan a implementar esta característica. Por ejemplo, Apple ya ha integrado la posibilidad de bloquear la publicidad en su navegador Safari. Es decir, todo el ecosistema iOS y MacOS podrán bloquear la publicidad, aunque donde más duele es el segmento de los dispositivos móviles de Apple. Algunos han señalado que Apple está preparándose para tratar de rentabilizar su plataforma de noticias Apple News, casi toda la publicidad en el ecosistema de Apple pasaría por, sí, Apple.

En tercer lugar, algunas operadoras móviles ya tienen implementada en sus servidores la posibilidad de bloquear la publicidad apuntando directamente a Google, AOL o Yahoo. Esto puede interpretarse como una forma de presionar a Google para que reparta sus ingresos publicitarios, lo que denominan como “la bomba”, ya que no interfiere en los anuncios “in the feed” de empresas como Twitter o Facebook. Las operadoras consideran injusto tener que realizar inversiones en sus redes para que el dinero publicitario se lo lleve otro. Aunque Google aduce que desarrollar servicios de mensajería, correo electrónico, apps y streaming también requiere de grandes inversiones monetarias. Además, activando la bomba, los operadores móviles podrían ofrecer como un producto premium el servicio móvil sin publicidad (actualmente la publicidad puede consumir entre el 10-50% de los planes de datos de los clientes de telefonía móvil) como actualmente está realizando Amazon con sus Kindles.

Un comentario

Buscadores para la Internet of Things

La World Wide Web fue ideada por Tim Berners-Lee como un sistema de gestión de información. En él, todos los documentos están interconectados mediante una serie de enlaces que se sitúan dentro de los textos. Esto hacía sencillo realizar citas a otras fuentes de información y su consulta, ya que la recuperación de otros documentos relacionados se realizaba de una forma más ágil que la establecida hasta el momento. El desarrollo de Berners-Lee supuso la colocación de los cimientos para que Internet se popularizase, haciéndose más sencilla de utilizar y, por tanto, más accesible a una gran parte de la población.

Esa apertura hacia un público masivo significó que fuesen necesarias unas herramientas que favoreciesen la recuperación de información dentro de la misma Web. Google afinó mucho más el concepto del investigador del CERN al considerar que aquellos documentos que obtuviesen más enlaces deberían ser, necesariamente, más populares (Entre otros elementos de valor). Hasta ese momento, los buscadores de la Web se dedicaban a recuperar textos, sin embargo, según la Web se hacía más grande eran necesaria una segmentación para una recuperación más efectiva. Así, se diferenció por tipos de documentos (En Word, en PDF o en PowerPoint), se segmentó por elementos multimedia (imágenes, vídeos) e incluso posteriormente se hizo por el tipo de publicación (Noticias, blogs o libros). El siguiente paso es la diferenciación por tipo de máquinas conectadas a la Red.

La próxima revolución en la sociedad es lo que se ha denominado la Internet of Things (IoT) propuesto por Kevin Ashton en 2009. En un principio, se definió como todos aquellos objetos que podían ser equipados con identificadores (En aquel momento, se consideraba que la tecnología RFID era la más adecuada) que podrían ser inventariados y gestionados por un ordenador. Actualmente, el concepto es un poco más amplio y se considera que la IoT la compone cualquier objeto que disponga de una dirección IP o una URI. Hoy, existe una infinidad de objetos que se conectan a Internet para infinidad de tareas. Desde los tradicionales ordenadores y derivados (Tabletas y teléfonos móviles), pasando por cámaras de vigilancia, televisiones, frigoríficos, automóviles, semáforos, sistemas de gestión de piscinas, etcétera. La pregunta inmediata a hacerse es si una vez están conectados podrían ser recuperados como si fuesen documentos o imágenes tal y como se hace en Google.

Thingful, que será lanzado en fase beta durante este año, parte de la idea de la necesidad de buscar datos de una estación meteorológica concreta o de una carretera que disponga de sensores embebidos en ella. La idea de Thingful es la recuperación a través de enlaces directos a conjuntos de datos o páginas de perfiles con los objetos que se encontrarán enriquecidas con la información estructurada que darán sus propietarios a través de Twitter.

Por otro lado, y quizá más interesante, es la propuesta de John Matherly creador del buscador Shodan. Su desarrollo permite buscar directamente cualquier tipo de dispositivo que se encuentre conectado a Internet. Es decir, Shodan indexa Internet buscando dispositivos que estén programados para contestar. Los objetos que se encuentran en la base de datos de Shodan son desde coches, equipamiento quirúrgico, sistemas de climatización de oficinas, instalaciones de tratamientos de aguas… La idea detrás de Shodan es el aprendizaje, por lo que el número de resultados que muestra se encuentra limitados. Si un usuario desease la obtención de una mayor cantidad de resultados, deberá justificar el uso de la información que obtenga y asegurar que los va a usar sin ánimo de violentar sistemas de seguridad.

Los buscadores de la IoT abren un abanico interesante de posibilidades, pero al mismo tiempo muestran una serie de peligros que a nivel individual y colectivo hasta ahora habían pasado completamente desapercibidos.

Comentarios cerrados

El declive de la Wikipedia

La Wikipedia es uno de los ejemplos por antonomasia de la Web 2.0, de la web colaborativa y, por supuesto, de la sabiduría de las masas (Wisdom of the crowd). Son muchos los servicios a terceros que la utilizan como fuente de información empezando por las dos tecnológicas más grandes Google y Apple (Siri). Sin embargo, el éxito y el impacto más que evidente de la Wikipedia son extraños, ya que este proyecto se ha mantenido por una organización sin ánimo de lucro que intermitentemente solicita ayuda a sus usuarios y colaboradores para poder mantener su funcionamiento. La Wikipedia provocó que Microsoft tuviese que cerrar Encarta, mientras que Google lo intentó con su enciclopedia Knol. Las enciclopedias tradicionales se han debatido entre el modelo freemium como el caso de la enciclopedia Britannica que mantiene algunos textos abiertos con publicidad a la vez que mantiene un sistema de suscripción por $70.

Recientemente, la publicación MIT Technology Review publicaba un texto denunciando la agonía de la Wikipedia. Desde 2007, según la publicación, la Wikipedia ha perdido hasta un tercio de sus colaboradores (siempre refiriéndose a su versión inglesa) pasando durante este período de 51.000 a 31.000 y las bajas siguen ascendiendo. Un debate que se mantiene desde 2009 y al que se añaden otros como que esta bajada no ayuda a tapar las miserias de una enciclopedia que ha crecido de forma inorgánica y cuyos artículos frívolos disponen de mayor dedicación que aquellos que son más complejos o que existan más entradas dedicadas a la Antártida que a muchos países africanos. Por otro lado, la calidad de la Wikipedia, atendiendo al criterio de las 1000 entradas que toda enciclopedia debería tener, no pasa de una calidad media.

Sin embargo, los achaques de la Wikipedia no son exclusivos. Cualquier comunidad on-line que disponga de un impacto tan relevante como la enciclopedia colaborativa sufre de ciertas disfuncionalidades como un exceso de burocracia. Para tratar de atajarlo, se incide en que satisfacer a los usuarios más activos es importante, pero no vital y que son estos los que deberían ayudar a los nuevos a adaptarse al medio en vez de tratar de penalizarles.

En 2005, cuando la Wikipedia supuso una bocanada de aire fresco tras el batacazo de las tecnológicas en 2001, comenzó su gran popularidad. Aumentaron sus colaboradores de forma exponencial al mismo tiempo que lo hacían los actos de vandalismo y de falsas entradas (hoax). Para tratar de atajar esas malas actuaciones, desde la organización de la enciclopedia se programaron una serie de bots que se dedicaban a vigilar las modificaciones de las entradas y, ante cualquier alarma, debían avisar a los bibliotecarios. El problema se atajó pronto, sin embargo, este nuevo proceder provocó que los nuevos miembros que se agregaban a la Wikipedia descubriesen que añadir nuevos conocimientos era bastante complicado.

Por otro lado, si los expertos en una materia trataban de realizar aportaciones, descubrían cómo sus esfuerzos podían ser modificados por otros casi inmediatamente. Al final, poder agregar contenidos en la Wikipedia pasó de «la enciclopedia que cualquiera puede editar» a la que «cualquiera que entienda las reglas, socialice, esquive el muro impersonal de rechazo semiautomatizado y siga queriendo contribuir […], puede editar».

Para añadir más leña al fuego, editar la Wikipedia no es sencillo ya que utiliza un lenguaje de marcado (de programación por así decirlo) propio. Desde la enciclopedia, se trató de atajar esa dificultad añadiendo un editor visual que facilitase la tarea, pero los editores tradicionales se rebelaron ya que ese editor aparecía por defecto. Se inició una lucha por su desactivación en la que se buscaban sus fallos y se ponían al descubierto, mientras se justificaba su falta de necesidad, lo que empeoraba la usabilidad de edición de la misma. Parece que, finalmente, podría resultar que los peores enemigos de la Wikipedia son aquellos que se encuentran dentro de ella.

Un comentario

Amazon’s clandestine pack

Muy entretenida la descripción que se hace en Business Week del departamento de Inteligencia Competitiva de Amazon en un largo extracto del libro dedicado a Jeff Bezos The Secrets of Bezos: How Amazon Became the Everything Store. En una simplificación, parece que los analistas de Amazon, además de comportarse como James Bond (sic) y ser definido como grupo clandestino, adquieren productos por toda la Red y se dedican a cronometrar cuánto tardan en recibir la mercancía. Para la empresa estadounidense, un cronómetro y una conexión a Internet es suficiente para establecer un departamento de estas características. Aunque hay que señalar que en la siguiente página se demuestra que el grupo se dedica a algo más que comprar trastos por toda la Web.

Amazon has a clandestine group with a name worthy of a James Bond film: Competitive Intelligence. The team, which operated for years within the finance department under longtime executives Tim Stone and Jason Warnick, focuses in part on buying large volumes of merchandise from other online retailers and measuring the quality and speed of their services—how easy it is to buy, how fast the shipping is, and so forth. The mandate is to investigate whether any rival is doing a better job than Amazon and then present the data to a committee of Bezos and other senior executives, who ensure that the company addresses any emerging threat and catches up quickly.

2 comentarios

Evitando la infoxicación

Desgraciadamente, no existen curas para la infoxicación. Las razones de nuestra ansiedad pueden ser variadas o podemos tratar de sobrellevarla; sin embargo, hoy en día la única forma que podríamos evitarla sería desconectándonos de Internet y convertirnos en una especie de paria social. En cualquier caso, no debemos sucumbir bajo esa ansiedad provocada por el descontrol que sentimos a la hora de recibir tantos estímulos informativos. El control de la información no debe pasar por recibir toda la información de calidad que podamos, sino más bien poder controlar ese flujo de información y sentirnos cómodos con él.

La infoxicación no es un fenómeno reciente ni mucho menos. Alain Toffer popularizó el concepto de “sobrecarga informativa (information overload o infobesity)” en 1970, aunque mucho antes, James G. Miller, en 1960, describió siete técnicas (ha implementar en organizaciones) con las que evitar el consumo intensivo de información ante una avalancha de ella.

  1. Omisión. Como no se puede consumir toda la información que se recibe, lo mejor es ignorarla.
  2. Error. Tratar de responder a los estímulos informativos sin prestarle excesiva atención.
  3. Colas. Poner la información en cola hasta poder prestarle la atención que se merecerían.
  4. Filtrado. Similar a la omisión, aunque en este caso se desecha una parte de la información y se les aplican prioridades para discriminar las unas de las otras.
  5. Empleo de canales paralelos. Se trata de encargar a distintas personas el seguimiento de cada canal de información y que realicen un filtrado.
  6. Aproximación. Tratar de procesar la información de una forma limitada o somera (Skimming).
  7. Escape. Hacer que el consumo de esa información se convierta en el problema de otras personas.

A lo largo del tiempo, se ha prestado especial énfasis a las colas, el empleo de canales paralelos y la aproximación como las mejores maneras de procesar la información. Sin embargo, actualmente, el filtrado es la que más atención ha recibido sobretodo gracias a los recientes desarrollos de la Web 2.0 (Social media, RSS, configuración de alertas, filtrado social de noticias, etc.)

Un comentario