Saltar al contenido →

Etiqueta: Creative Commons

El robo de contenidos web (Content scrapping) no es un buen negocio

Copy & PasteNo es la primera vez que hablo de ello, aunque es una de las cosas que más me enerva como editor web. Como sabréis, el término anglosajón es Content Scrapping, del que se pueden encontrar infinidad de entradas, y en castellano se ha traducido, de forma muy directa, como robo de contenidos. La sindicación de contenidos (RSS), un tanto denostada últimamente gracias a la irrupción del Social Media, fue una de las principales innovaciones que trajo la Blogosfera. La difusión de una nueva forma de recuperar la información de los sitios web sin tener que estar consultándolas constantemente, un buen ejemplo del concepto pull & push, fue una buena oportunidad para mejorar la fidelización de lectores para pequeñas publicaciones electrónicas.

Aparentemente, los grandes medios nunca acabaron de apostar por esta tecnología y prefirieron ofrecer sus RSS capadas con el titular y un pequeño extracto del texto, fundamentalmente, el primer párrafo. Podríamos discutir si se trata realmente de una componente mercantilista, una necesidad para aumentar el número de visitantes de la página web; o de uso, si generas mucho contenido y de diversa índole es mejor ofrecerlo resumido y que el lector decida qué le interesa leer realmente. Pero imagino que se conjugan distintos factores.

Sin embargo, desde aquí siempre invitamos a ofrecer los feeds completos como un premio a la fidelización a los lectores, a pesar de que la tentación de que otras webs “enchufen” nuestros contenidos a través de nuestros feeds sea irrefrenable y los republiquen. Personalmente, aunque es probable que discrepéis, que una web duplique mi contenido no es un halago. Lo fuese si me preguntase y yo le diese mi visto bueno. No me malinterpretéis, está bien que se republique una información, un texto (nosotros lo hacemos), al menos demuestra interés; que se reconvierta y se reelabore, aumenta la difusión de la información, pero redifundir contenidos de forma completa sin ni siquiera consultar, no me parece correcto. No me está bien que el editor web tenga que descubrirlo, que deba solicitar al webmaster o al administrador del sitio que redistribuye los contenidos a que cese su actividad. Esto no debería funcionar así, pero desgraciadamente en la mayoría de los casos lo hace.

Recientemente, El Mundo publicaba una nota muy interesante en la que se afirmaba que se podía redistribuir (Copiar y pegar) un artículo periodístico completo respetando el derecho de cita, pero que si se hacía con todos los contenidos y de una forma constante, si ambas partes buscaban un beneficio económico, la frontera de lo legal era claramente traspasada. Por otra parte, desde el punto de vista tecnológico y de difusión, Google lo tiene claro, no es una buena idea alimentar un sitio web con contenido copiado, así que los afectados que no se preocupen demasiado, que sitúen un enlace hacia el contenido original y el tiempo (en términos de posicionamiento y visitas) les dará la razón.

Sin embargo, para aquellos que no pueda refrenar su indignación sobre el robo de contenidos que puedan sufrir a través de sus feeds pueden hacer varias cosas:

  1. Como señalamos anteriormente, solicitar al webmaster que redifunde los contenidos que cese su actividad.
  2. Situar varios enlaces en sus feeds hacia el contenido original, así como un pequeño aviso de no redistribución de contenidos (Esto ahuyentará a la mayoría y en WordPress tenemos a nuestra disposición algunos buenos plugins para ello).
  3. Acciones tecnológicas concretas para los usuarios más avanzados, como bloqueo de las IPs o dominios de los Scrappers (Aunque hay que meterse en el fichero .htaccess del servidor donde tienes alojada la publicación), aunque para que esto sea efectivo habrá que dejar de utilizar, en la mayoría de los casos, el servicio de Feedburner.
10 comentarios

Sobre la duplicación de contenidos de tu web

Estos últimos días he estado enfrascado en un debate completamente apasionante, muy instructivo, a la vez que divertido, sobre la redifusión de los contenidos de un blog. Desde luego que el tema nos dio para mucho y bien podrían publicarse aquí algunos argumentos interesantes que se pronunciaron, pero aquí nos conformaremos con incidir sobre el tema que nos preocupaba cuando descubrimos la redifusión de los contenidos de nuestro blog: Su duplicación y su posible incidencia en Google.

Los bloguers, al igual que todos los autores, somos especialmente sensibles cuando se encuentran su trabajo en otros sitios web, sean cuales sean las características de los mismos. Aunque muchos adoptan licencias Creative Commons para tratar de fijar sus políticas a la hora de transmitir sus obras, podemos decir que estas licencias son un tanto flexibles y su aplicación depende del momento y las circunstancias del momento. Así, en este misma bitácora, disponemos de una licencia Creative Commons que permite copiar, distribuir y comunicar públicamente la obra; y hacer obras derivadas siempre que se reconozca los créditos de la misma de manera especificada por el autor. Además, al reutilizar o distribuir la obra, tiene que dejar bien claro los términos de la licencia de esta obra, mientras que alguna de estas condiciones puede no aplicarse si no se obtiene el permiso del titular de los derechos de autor y nada en esta licencia menoscaba o restringe los derechos morales del autor.

De hecho, apoyándose en nuestra licencia, ya os contamos el hecho de que Wikilearning estaba redifundiendo nuestros contenidos, algo que nos parecía correcto, sin embargo, el debate que anteriormente os citaba se debía a que un sitio web esta redistribuyendo nuestros contenidos de forma completa y sin nuestro permiso gracias a nuestros feeds. Antes de avanzar, debemos señalaros que el arte del plagio en la Web se denomina Web Scraping y hay formas más o menos graves de esta actividad. No hace rebuscar mucho para encontrar muchos ejemplos en la Blogosfera y os cito algunos a modo de introducción El plagio en los blogs, a modo de actuación Qué hacer cuando duplican nuestro contenido o Qué hacer y cómo enterarte cuando te copian contenido, o a modo de venganza, El increíble caso del blog menguante. Estrictamente, nosotros no nos encontrábamos en un caso de plagio, pero había otros elementos que nos preocupaban.

En general, los bloguers no están para muchas batallas y se conforman con que les reconozcan el trabajo mediante un enlace, en nuestro caso, a pesar de que tenemos los feeds preparados para evitar situaciones desagradables y en este caso de redifusión se nos reconocía el trabajo, queríamos ir un poco más allá. Fundamentalmente, no nos gustaba que se redistribuyese nuestro trabajo de forma indiscriminada y a través de textos completos para evitar la duplicación de nuestros contenidos en la Web porque todos sabemos que Google puede llegar a penalizarnos.

Siempre he considerado que el diálogo siempre es más ilustrativo, así que nos inclinamos por él. Huelga decir que no siempre podemos ser escuchados y siempre quedan otras herramientas para evitar este tipo de situaciones, pero las considero bastante desagradables y yo trataría de no usarlas, porque al final las víctimas son nuestros lectores y, por extensión, nosotros mismos.

De forma específica, recientemente Google editó una guía muy básica para editores web, Optimización para Motores de Búsqueda – Guía de Google para Principiantes, en la que se nos da algunos consejos sobre la duplicidad de contenidos. Así, en el texto se nos indica como consejo:

Crea contenido único y original. Nuevo contenido no sólo hará que tus usuarios actuales vuelvan a tu sitio web, sino que además atraerá nuevas visitas. Evita:

  • rehacer (o copiar) contenido que ya existe, pues aportará muy poco valor añadido a los usuarios
  • tener versiones duplicadas o muy parecidas en tu sitio web (más en contenido duplicado)

Ofrece contenido y servicios exclusivos. Plantéate crear un servicio nuevo y útil y que ningún otro sitio web ofrece. Podrías incluso escribir un artículo de investigación, publicar una exclusiva o sacar provecho de las cualidades de tus usuarios. Puede que otros sitios web tengan falta de recursos o pericia para hacer estas cosas.

Es decir, el contenido original es lo que hace que tus visitantes te lean, te sigan y se suscriban a tus feeds, si pueden encontrarlo por otras vías de forma sistemática, pueden dejar de visitarte. Por otro lado, en la página dedicada al Contenido Duplicado en Google (inglés), se nos señala:

Syndicate carefully: If you syndicate your content on other sites, Google will always show the version we think is most appropriate for users in each given search, which may or may not be the version you’d prefer. However, it is helpful to ensure that each site on which your content is syndicated includes a link back to your original article. You can also ask those who use your syndicated material to block the version on their sites with robots.txt.

Por lo tanto, hay que tener mucho cuidado a la hora de sindicar los contenidos hacia otros sitios web, porque dependiendo de la búsqueda Google podría indicar una página web u otra, y aunque Google considera que un enlace de retorno es suficiente, también señala la necesidad de bloquear los robots hacia las páginas sindicadas para que el contenido no aparezca duplicado.

Finalmente y para vuestra información, os comentaré que diálogo hubo y cada cual expuso sus puntos de vista de forma completamente cordial y razonada. Desgraciadamente, ninguno pudo llevarse el gato al agua y quedó bastante claro que nuestras posturas divergían, pero que se respetaban por lo que esta vez nuestro punto de vista fue respetado sin palabras altisonantes, algo, al fin y al cabo, completamente esperable entre colegas.

Un comentario