Contenidos duplicados en tu web

Este post está ya obsoleto. Hay que considerar ya muchos más aspectos.

En esta ocasión vamos a analizar y sobre todo resolver los diferentes problemas de contenidos duplicados que podemos tener en nuestra web, atenderemos a los problemas más comunes, no obstante si no encuentras solución a lo que aquí se plantea, puedes dejar un comentario sobre el problema que puedas tener y lo miraremos (cuando se pueda…) por cierto la imagen la he tomado de flicker

Aunque el título de este artículo ya lo aclara, insistiré en el hecho que aquí no vamos a analizar el problema de que te copien el contenido en otros sitios web, nos refereriremos siempre al contenido duplicado existente en tu sitio web. Por contenido duplicado en tu sitio web no debemos entender que tengas el mismo contenido repetido dos o más veces, sé que lo lógico es entender esto, pero no es esto lo que le molesta a Google. Hombre hay que evitar duplicar las cosas, pero realmente el problema es tener una o varias urls con el mismo contenido, esto es lo que no quiere google, indexar varias páginas con el mismo contenido.

Por contenido podemos entender el contenido de la página, pero realmente donde debemos poner más atención es en el título y descripción de la página, ambos, elementos que se muestran en la página de resultados de Google.

Detección y corrección del problema

Es molesto ver por ejemplo de los 10 primeros resultados, varios con los mismos títulos y descripciones, porque al ser la url diferente , Google interpreta que son diferentes páginas y muestra dichos resultados afeando la hoja de resultados de búsqueda.

En primer lugar lo que tenemos que hacer es detectar el problema y para ello la solución más eficaz y la que más nos interesa se llama Webmasters tools de Google, ya que es precisamente Google el buscador dominante y al que más atención debemos poner. Para utilizar webmasters tools no precisas tener una cuenta de gmail pero con franqueza te aconsejo disponer de una. Debes hacer click en añadir sitio nuevo y seguir las instrucciones.

Google Webmasters tools es una buena herramienta para controlar tu posicionamiento y como verás sirve para muchas cosas, pero en esta ocasión me interesa que te centres dentro de Labs en «sugerencias en HTML». La mejor noticia que puedes tener es el texto de Google «No hemos detectado ningún problema de contenido en su sitio.» Si esto no es así, no desesperes, para cada problema iremos dando una solución a lo largo de este post. Estoy seguro de que puedes no compartir algunas de las cosas que aquí digo, encantado de recibir vuestros comentarios con vuestros propios puntos de vista en base a vuestra experiencia en este tema. Procuraré contestar a todos.

En el apartado de sugerencias HTML lo usual es centrarse en resolver dos problemas: Metadescripciones y Títulos duplicados, pero si te fijas, ambos problemas tienen el mismo origen: Url’s diferentes pero que corresponden a la misma versión de la página. Esto puede ocurrir y de hecho ocurre por las siguientes causas:

URL’s con parámetros

Hay muchas aplicaciones que utilizan parámetros pasados por la url para funcionar, esto motiva url’s diferentes pero naturalmente con el mismo título de página y la misma descripción. Se me ocurre varias formas de atajar el problema dependiendo de si el contenido de las páginas con titulo y descripciones duplicadas son a su vez duplicadas, esto ocurre cuando los parámetros aportados no cambian los contenidos de la página.

Si el contenido de las páginas que te salen como duplicadas son diferentes, y la duplicidad la tienes sólo en los títulos y la descripción. Hay dos soluciones, una pensando en todos los buscadores y otra la más práctica para Google. La primera solución pasa por Imprimir alguna variable que añada algo nuevo en el título y descripción con lenguaje servidor. Esto suele funcionar bastante bien, requiere conocimientos de programación pero a un nivel muy básico. OJO ha de ser una cadena significativa, no vale por ejemplo introducir un número, google no le da valor a esto, he encontrado problemas de títulos duplicados cuando los títulos no lo eran ya que diferían en un número. Otras personas apuntan a resolver esto reprogamando la aplicación o módulo correspondiente de manera que no se utilicen parametros en la url, ya sea utilizando variables de sesión u otras técnicas, mmm esto no lo acabo de ver, pero lo comento. En esta situación no aconsejo canonical ya que perdemos indexación de páginas con contenido diferente, si la diferencia del contenido es poca, entonces si. La segunda solución específica para Google y dada su actual cuota de mercado, creo que es la más práctica, es utilizar la misma herramienta Google Webmasters tools para indicarle a Google los parámetros a ignorar. Para esto y dentro de esta herramienta ve a: Información del sitio, configuración y dentro de configuración ve a la pestaña Organización de parámetros, más fácil no puede ser, aquellos parámetros que esten produciendo la duplicidad, marcalos como «ignorar» y asunto arreglado. Tarda un tiempo en ser efectivo. Añadido del 22/07/2011. Desde ayer esta ruta ha cambiado, encuentras ahora esta herramienta en: Información del sitio, Url parameters. La novedad es que ahora Google te puede hacer dos preguntas sobre el parámetro. Una te pregunta si dicho parámetro te cambia el contenido, la segunda es sobre como lo cambia, si se produce un cambio de orden, una paginacion, una restricción, una especificación de lo contenidos, etc. Además puedes forzar si lo deseas que Google tome una única url representativa o en cambio contemple todas las urls. Puedes encontrar un artículo dedicado enteramente a este asunto aquí.
Estamos ahora en el supuesto que además de la duplicidad en los títulos y descripciones, también tenemos el contenido de la página duplicado o cambia muy poco. Para resolver esto se puede utilizar la etiqueta canonical propuesta por Google. Esta etiqueta declara la URL principal y no tendrá en cuenta aquellas urls derivadas de esta. Se trata de una buena opción, debes declarar en ella la url desprovista de parámetros que no cambien el contenido. Es decir sólo debes dejar aquellos parámetros que cambian el contenido de la página y eliminar aquellos que no cambien la visualización de los contenidos. Por ejemplo imagina que tienes una url tipo:
«http:www.sitioejemplo.com/televisores.php?marca=sony&cantidad=3″
Probablemente el parámetro cantidad no aporte contenido nuevo y estarás duplicando páginas con titulos, descripciones y contenidos idénticos. Si el parámetro marca aporta un contenido realmente diferente debes incluirlo en la etiqueta canónical, si esto no es así también debes excluirlo. Por tanto si el parámetro marca tampoco aporta contenido significativo, debieras declarar:
Debes tener en cuenta que a Google le lleva unas semanas reflejar los cambios, pero más tarde o más temprano verás en tu cuenta de Google Webmasters tools que ya no tienes problemas de contenido duplicado. Por cierto puedes utilizar url’s relativas, pero cada vez más son las voces que prefieren la declaración de URL’s absolutas. Lo dejo a tu criterio. Por supuesto tambien puedes utilizar la configuración de parámetros puesta a tu disposición en webmasters tools, ya hemo comentado esto en el punto anterior, no lo repetiremos aquí. Por cierto hay gente que sugiere el uso del elemento Base como alternativa a rel=»canonical». En principio yo no estoy de acuerdo con esto. El elemento BASE cuya declaración ha de hacerse dentro del HEAD sirve para especificar la URL base de un sitio y nada más, de forma que todas las url’s relativas presentes en la página web donde has declarado esto, es decir todas las urls relativas presentes en el BODY saldrán con dicha URL base. Si por ejemplo declaras:

Entonces cualquier ruta relativa presente en la página «index.php» por ejemplo:
href=»»../images/imagen.jpg»»>
Dicha ruta se interpretará como http://www.sitio.com/images/imagen.jpg. La etiqueta canonical ha sido creada exprofeso por Google para solucionar y combatir el contenido duplicado, por tanto veo más apropiado su uso y no considero una alternativa la utilización del elemento BASE.
Finalmente recuerda que siempre tienes la posibilidad de informar a los buscadores que no se indexe una página en concreto, puedes declarar como follow la primera de la serie y nofollow todas las demás. Es decir puedes declarar el siguiente metadatoQue indicará a los buscadores que no indexen la página pero que sigan todos los enlaces presentes en ella. Por otro lado puedes utilizar el archivo robots.txt para lo mismo, es decir no indexar una página en concreto, pero tambien te sirve para no indexar todas las versiones con parametros. por ejemplo el tema de los parámetros en la url puede resoverse de esta manera:
User-agent: *
Disallow: /*?*
Este cuarto punto es una actualización realizada el 29-11-2011, es decir unos meses despues. Recientemente Google ha introducido una técnica mucho más óptima puesto que permite no desindexar contenidos y al mismo tiempo que no se marquen como duplicado. No he encontrado todavía la página oficial donde se anuncia esto, pero la fuente Fernando Maciá me parece de lo más solvente, se trata de incluir el siguiente metadato en la primera página de la serie: es decir se está diciendo a través de ese marcado que la siguiente página cuya url completa se indica pertenece a la serie. En la segunda y siguientes se incorporaría (veremos sólo el ejemplo para la página 2):
Finálmente en la última página si suponemos una paginación de tres haríamos: (al no haber siguiente por ser la última no se incluye ya un rel=»next»). Fernando Maciá indica además que esta solución puede complementare con la declaración de «canonical» para decartar lo parámetros no relevantes. También se ha declarar canonical si la primera página de la serie puede alcazarse por más de una URL. Leer su artículo que no tiene deperdicio.

Diferentes URL’s conducen al mismo sitio

Desde mi punto de vista la solución más adecuada sería el uso de redirecciones 301, hay que elegir una url como URL objetivo y redireccionar las demás a esta. De esta manera sólo se indexará la URL Objetivo y resolveremos el problema. Además no se perderán los enlaces existentes a los otros documentos, ya que precisamente la redirección hace que se guié al buscador a encontrar la página objetivo que hemos definido, por tanto el enlace existente antes de la redirección no se rompe y sigue siendo un enlace válido y que cuenta para el posicionamiento.

Que diferentes URL’s conduzcan al mismo sitio es una situación se presenta más veces de lo que se piensa. Por ejemplo si en tu blog de WordPress tienes una categoria de marketing online y tambien declaras el tag marketing online y a ambos le asignas los mismos artículos o dicho más propiamente a cada artículo de marketing online le asignas el mismo tag y la misma categoría, pues tendrás este problema, estarás duplicando contenidos y a lo mejor no habías caído en esto.

Pongo como ejemplo mi propio blog el cual está alojado en un subdirectorio de mi sitio principal. El código a incluir en mi htaccess sería:

redirect 301 /seo-adictos-24h/tag/marketing-online/ https://www.miguel-valero.es/seo-adictos-24h/category/marketing-online/

un ejemplo más generalista suponiendo el blog en la raiz sería:

redirect 301 /tag/seo/ http://www.blog-ejemplo.es/category/seo/

Esto ha de hacerse en el htaccess que figura en la raiz del sitio. En mi caso tuve un problema de este tipo con el tag y categoría marketing online y se ha resuelto, ahora redirecciono el directorio tag al directorio category. Si no deseas pelearte con código en el archivo htaccess, debo indicarte que hay CMS’s como wordpress que disponen de plugins específicos para tratar este tema. No obstante si dispones de acceso te recomiendo que lo hagas directamente.

Por cierto aunque soy amante del toque humano para lograr la calidad, si te pirran las herramientas, también he encontrado una para valorar la duplicidad de contenidos en tu sitio web, no me parece nada comparable a webmasters tools pero te la cito por si te pica la curiosidad. Accede aquí a esta herramienta, la ponen a nuestra disposición la gente de Virante.com. En mi próximo artículo podrás hartarte de herramientas de este tipo, no te preocupes que hay muchas utilidades ya.

Hemos analizado ya diferentes problemas y soluciones pero si sigues presentando problemas de contenido duplicado para tu relax te digo que si están duplicando tu contenido no debes preocuparte ya que como dice Google y cito textualmente:

«El contenido duplicado de un sitio no implica que deban tomarse medidas al respecto a menos que aparentemente el objetivo sea engañar y manipular los resultados de los motores de búsqueda. Si su sitio tiene problemas relacionados con contenido duplicado y no sigue los consejos indicados anteriormente, conocemos muy bien la manera de elegir la versión adecuada para mostrarla en los resultados de la búsqueda».

Bueno concluyo este post desde el marco incomparable de la Campus Party, tras el primer aniversario de mi Blog decidí tomarme unas semanas de vacaciones, es bueno desconectar de vez en cuando. Ahora vuelvo con más fuerza y espero seguir apotando mi granito de arena a la blogosfera!

Un abrazo y hasta otra!

Miguel Valero

Desarrollador web y analista seo en valencia.

The last comment and 25 other comment(s) need to be approved.

12 comentarios

Boutique erotica Dice:
7 abril, 2012 en 10:34

Tenía un problema de titulos duplicados debido a cambios en la estructura de una tienda online utilizando joomla. Ya lo he corregido pero se ve que google tarda en actualizarlo. Es una pena porque he perdido el posicionamiento en 5 páginas de articulos que tenía en los primeros diez resultados. Buen artículo.
Responder
ANTONIO GARCIA CANDELAS Dice:
7 diciembre, 2011 en 17:16

Hola: Antes de todo he de decirte que tengo escasos conocimientos informáticos. hace cuatro años que tengo al web y siempre sus páginas han salido en los primeros lugares tecleando las keywords. Así si ponía: badajoz historia monumentos (o cualquier otra ciudad de Extremadura y Alentejo) y salían varias páginas en primera posición. Desde hace un mes no sale ninguna. Si esas tres o cuatro palabras anteriores las pongo juntas (sin espacio) si que salen como antes. Otro dato, si escribo separadas las keywords y busco fotografías, tambien salen siempre algunas mías las primeras. Me han aconsejado en un foro hacer una redirección 301, pero mi servidor (gratuito) no me permite modificar un determinado archivo. Yo no he modificado nada, excepto subir nuevos contenidos y actualizaciones. También me han dicho que se puede acceder a mi web con o sin www. Buscando desesperado – y tratando se aprender – me he entrado las herramientas de web master de google. En el apartado Html suggestions me dice que tengo 103 etiquetas de título duplicadas. No es cierto, lo qu8e ocurre es que están en cuatro idiomas y en algunos casos, en portugués y español se escribe igual. También hay poca diferencias entre algunas páginas en cuanto a título o/y keywords. Por ejemplo de alcazaba, se enlaza con otras como puertas alcaba, o torres alcazaba, etc. Pero esto no es nuevo, siempre ha sido así y ha funcionado estupendamente y conseguido buena posición. Perdona la extensiónde mi publicación, pero ando loco de acá para allá, dando palos de ciego. Por último otro dato: En Lycos se encuentran bastantes páginas.
Perdona nuevamente por el rrollo, pero es el trabajo de cuatro años que se ha venido abajo. Te agradezco de antemano tu interés. Muchas gracias.
Responder
- @miguelvaleroseo Dice:
  7 diciembre, 2011 en 18:49
  
  Puedo realizarte una auditoría básica donde te detallaré todos los problemas y el coste de las soluciones. Saludos
  Responder
Cestic Dice:
4 agosto, 2011 en 20:58

hola miguel,
buen articulo, google webmaster tool es muy importante, corregir errores cuando tienes muchos 404 o 500 porque te pueden penalizar si no lo haces, lo que dices de los parametros he visto como no lo hacia ni caso, y al final habia que ponerlos en el robots.txt para que lo entendiera. Lo de las urls con parametros es verdad, oscommerce es una mierda por ejemplo y si no tienes cuidado te indexa las sesiones y te crujen.
Saludos
Responder
Francisco Morales Dice:
22 julio, 2011 en 12:47

Gracias Miguel por la info, muy interesante, en referencia a la herramienta existe una estupenda que te ofrece la posibilidad gratuita sobre 500 URI y si pagas más – Screaming Frog SEO Spider Tool. Saludos
Responder
- miguel Dice:
  22 julio, 2011 en 15:19
  
  Pues le echaremos un vistazo a ver que tal funciona! gracias!
  Responder
elenanorimboud Dice:
20 julio, 2011 en 15:32

Buenas Miguel,

lo primero felicitarte por el blog que me aprece estupendo y lo sigo siempre. He visto que te ofrecias a ayudar sobre algún problema y bueno llevo tiempo buscando algún tipo de herramienta o algo que me ayude a descubrir si tengo contenido duplicado o, mejor dicho, contenido que puede considerarse «duplicado». No son URL distintas que van al mismo sitio o que el conteido es exactamente igual. Son archivos distintos, con contenido parecido, todo el contenido como es normal es igual salvo el main (hasta aquí normal, pero el caso es que tengo porfolio que es exactamente igual en 4 o 5 páginas. por lo que si vamos sumando, el 70% del código de estas páginas son el mismo. No sé si Google lo está considerando como contenido duplicado. Conoces algo que calcule hasta que punto Google considera contenido similar, si hay algún tipo de ratio.

No sé si me he explicado, pero ahí va.

Un saludo.
Responder
- miguel Dice:
  20 julio, 2011 en 19:41
  
  Te has explicado, pero recuerda que el caballo de batalla de Google de este año es no ver contenido duplicado en la hoja de resultados de Google, es decir Google no quiere que se ofrezcan resultados similares, es por ello que ahora se presta más atención a estos elementos que son los títulos de página y descripciones en mayor medida y que por supuesto el caso de dos o más urls vayan a la misma página. En este sentido la herramienta ya la conoces, Webmasters tools.
  En cuanto al contenido duplicado en otras páginas, pues hay herramientas varias para detectar el contenido duplicado de tu sitio en terceros, de esto te adelanto que irá mi próximo artículo.
  Finalmente en cuanto al contenido parecido que indicas que tienes en diferentes páginas de tu sitio web, parece ser que tu mismo ya eres una buena herramienta! No conozco una herramienta para determinar contenido parecido, si contenido duplicado, pero no contenido parecido, esto es algo complicado de programar y que exige buena capacidad de calculo, ya que estamos hablando de semántica, de sinónimos, de la capacidad del ser humano de expresar cosas con metáforas, palabras con doble sentido, etc. Si existe alguna herramienta de este tipo, no debe ser gran cosa, de todos modos lo miraré no vaya a ser que exista… Buen comentario el tuyo. Gracias!
  Responder
Aram Dice:
15 julio, 2011 en 12:07

Lo primero decirte que me ha gustado mucho tu artículo, pero tengo una duda cuando dices que para solucionar la duplicidad en un título no basta con añadir un número si no que hay que añadir una cadena significativa.

Puede ser que si sea válido? Utilizando la herramienta de SEOmoz en el que tenía este problema, paginando y añadiendo únicamente un número se corregía y ya no indicaba como titles duplicados.

Un saludo!
Responder
- miguel Dice:
  16 julio, 2011 en 1:33
  
  he de decirte que el problema lo he detectado revisando la herramienta sugerencias html de webmasters tools, en concreto la parte de títulos duplicados, y la diferencia era un número (y no de paginación), añadiendo un literal he resuelto el problema, en fín.
  Responder
Javi Dice:
13 julio, 2011 en 7:05

Muy interesante y útil este artículo.

En algunos sitios con Joomla tengo este problema debido a la paginación y las URLs que general algunos módulos. Lo he intentado resolver con el tag canonical, veremos que resultado da.

Saludos
Responder
- miguel Dice:
  16 julio, 2011 en 1:34
  
  ok cuenta luego como te ha ido. Saludos
  Responder

Dejar un comentario

¿Quieres unirte a la conversación?
Siéntete libre de contribuir!

Cookie	Duración	Descripción
cookielawinfo-checbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-non-necessary	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Non-necessary" category .
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
cookielawinfo-checkbox-preferences	1 year	This cookie is set by the GDPR Cookie Consent plugin to check if the user has given consent to use cookies under the "Preferences" category.
cookielawinfo-checkbox-uncategorized	1 year	The cookie is set by the GDPR Cookie Consent plugin to record the user consent for cookies in the category "Uncategorized".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
PHPSESSID		This cookie is native to PHP applications. The cookie is used to store and identify a users' unique session ID for the purpose of managing user session on the website. The cookie is a session cookies and is deleted when all the browser windows are closed.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duración	Descripción
YSC		This cookies is set by Youtube and is used to track the views of embedded videos.
__utma	2 years	This cookie is set by Google Analytics and is used to distinguish users and sessions. The cookie is created when the JavaScript library executes and there are no existing __utma cookies. The cookie is updated every time data is sent to Google Analytics.
__utmb	30 minutes	The cookie is set by Google Analytics. The cookie is used to determine new sessions/visits. The cookie is created when the JavaScript library executes and there are no existing __utma cookies. The cookie is updated every time data is sent to Google Analytics.
__utmc		The cookie is set by Google Analytics and is deleted when the user closes the browser. The cookie is not used by ga.js. The cookie is used to enable interoperability with urchin.js which is an older version of Google analytics and used in conjunction with the __utmb cookie to determine new sessions/visits.
__utmt	10 minutes	The cookie is set by Google Analytics and is used to throttle the request rate.
__utmz	5 months	This cookie is set by Google analytics and is used to store the traffic source or campaign through which the visitor reached your site.

Cookie	Duración	Descripción
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_UA-20621967-1	1 minute	A variation of the _gat cookie set by Google Analytics and Google Tag Manager to allow website owners to track visitor behaviour and measure site performance. The pattern element in the name contains the unique identity number of the account or website it relates to.
_ga_EVMLSP7VGF	2 years	This cookie is installed by Google Analytics.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.

Cookie	Duración	Descripción
IDE	2 years	Used by Google DoubleClick and stores information about how the user uses the website and any other advertisement before visiting the website. This is used to present users with ads that are relevant to them according to the user profile.
NID	5 months	This cookie is used to a profile based on user's interest and display personalized ads to the users.
test_cookie	15 minutes	The test_cookie is set by doubleclick.net and is used to determine if the user's browser supports cookies.
uid	1 year	This cookie is used to measure the number and behavior of the visitors to the website anonymously. The data includes the number of visits, average duration of the visit on the website, pages visited, etc. for the purpose of better understanding user preferences for targeted advertisments.
VISITOR_INFO1_LIVE	5 months	This cookie is set by Youtube. Used to track the information of the embedded YouTube videos on a website.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt.innertube::nextId	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.
yt.innertube::requests	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.

Cookie	Duración	Descripción
DEVICE_INFO	5 months 27 days	No description
wevarnishpass	past	No description

Contenidos duplicados en tu web

Detección y corrección del problema

Dejar un comentario

Deja una respuesta Cancelar la respuesta

Entradas relacionadas: