Es molesto ver por ejemplo de los 10 primeros resultados, varios con los mismos títulos y descripciones, porque al ser la url diferente , Google interpreta que son diferentes páginas y muestra dichos resultados afeando la hoja de resultados de búsqueda.
En primer lugar lo que tenemos que hacer es detectar el problema y para ello la solución más eficaz y la que más nos interesa se llama Webmasters tools de Google, ya que es precisamente Google el buscador dominante y al que más atención debemos poner. Para utilizar webmasters tools no precisas tener una cuenta de gmail pero con franqueza te aconsejo disponer de una. Debes hacer click en añadir sitio nuevo y seguir las instrucciones.
Google Webmasters tools es una buena herramienta para controlar tu posicionamiento y como verás sirve para muchas cosas, pero en esta ocasión me interesa que te centres dentro de Labs en «sugerencias en HTML». La mejor noticia que puedes tener es el texto de Google «No hemos detectado ningún problema de contenido en su sitio.» Si esto no es así, no desesperes, para cada problema iremos dando una solución a lo largo de este post. Estoy seguro de que puedes no compartir algunas de las cosas que aquí digo, encantado de recibir vuestros comentarios con vuestros propios puntos de vista en base a vuestra experiencia en este tema. Procuraré contestar a todos.
En el apartado de sugerencias HTML lo usual es centrarse en resolver dos problemas: Metadescripciones y Títulos duplicados, pero si te fijas, ambos problemas tienen el mismo origen: Url’s diferentes pero que corresponden a la misma versión de la página. Esto puede ocurrir y de hecho ocurre por las siguientes causas:
URL’s con parámetros
Hay muchas aplicaciones que utilizan parámetros pasados por la url para funcionar, esto motiva url’s diferentes pero naturalmente con el mismo título de página y la misma descripción. Se me ocurre varias formas de atajar el problema dependiendo de si el contenido de las páginas con titulo y descripciones duplicadas son a su vez duplicadas, esto ocurre cuando los parámetros aportados no cambian los contenidos de la página.
- Si el contenido de las páginas que te salen como duplicadas son diferentes, y la duplicidad la tienes sólo en los títulos y la descripción. Hay dos soluciones, una pensando en todos los buscadores y otra la más práctica para Google. La primera solución pasa por Imprimir alguna variable que añada algo nuevo en el título y descripción con lenguaje servidor. Esto suele funcionar bastante bien, requiere conocimientos de programación pero a un nivel muy básico. OJO ha de ser una cadena significativa, no vale por ejemplo introducir un número, google no le da valor a esto, he encontrado problemas de títulos duplicados cuando los títulos no lo eran ya que diferían en un número. Otras personas apuntan a resolver esto reprogamando la aplicación o módulo correspondiente de manera que no se utilicen parametros en la url, ya sea utilizando variables de sesión u otras técnicas, mmm esto no lo acabo de ver, pero lo comento. En esta situación no aconsejo canonical ya que perdemos indexación de páginas con contenido diferente, si la diferencia del contenido es poca, entonces si. La segunda solución específica para Google y dada su actual cuota de mercado, creo que es la más práctica, es utilizar la misma herramienta Google Webmasters tools para indicarle a Google los parámetros a ignorar. Para esto y dentro de esta herramienta ve a: Información del sitio, configuración y dentro de configuración ve a la pestaña Organización de parámetros, más fácil no puede ser, aquellos parámetros que esten produciendo la duplicidad, marcalos como «ignorar» y asunto arreglado. Tarda un tiempo en ser efectivo. Añadido del 22/07/2011. Desde ayer esta ruta ha cambiado, encuentras ahora esta herramienta en: Información del sitio, Url parameters. La novedad es que ahora Google te puede hacer dos preguntas sobre el parámetro. Una te pregunta si dicho parámetro te cambia el contenido, la segunda es sobre como lo cambia, si se produce un cambio de orden, una paginacion, una restricción, una especificación de lo contenidos, etc. Además puedes forzar si lo deseas que Google tome una única url representativa o en cambio contemple todas las urls. Puedes encontrar un artículo dedicado enteramente a este asunto aquí.
- Estamos ahora en el supuesto que además de la duplicidad en los títulos y descripciones, también tenemos el contenido de la página duplicado o cambia muy poco. Para resolver esto se puede utilizar la etiqueta canonical propuesta por Google. Esta etiqueta declara la URL principal y no tendrá en cuenta aquellas urls derivadas de esta. Se trata de una buena opción, debes declarar en ella la url desprovista de parámetros que no cambien el contenido. Es decir sólo debes dejar aquellos parámetros que cambian el contenido de la página y eliminar aquellos que no cambien la visualización de los contenidos. Por ejemplo imagina que tienes una url tipo:
«http:www.sitioejemplo.com/televisores.php?marca=sony&cantidad=3″
Probablemente el parámetro cantidad no aporte contenido nuevo y estarás duplicando páginas con titulos, descripciones y contenidos idénticos. Si el parámetro marca aporta un contenido realmente diferente debes incluirlo en la etiqueta canónical, si esto no es así también debes excluirlo. Por tanto si el parámetro marca tampoco aporta contenido significativo, debieras declarar:
Debes tener en cuenta que a Google le lleva unas semanas reflejar los cambios, pero más tarde o más temprano verás en tu cuenta de Google Webmasters tools que ya no tienes problemas de contenido duplicado. Por cierto puedes utilizar url’s relativas, pero cada vez más son las voces que prefieren la declaración de URL’s absolutas. Lo dejo a tu criterio. Por supuesto tambien puedes utilizar la configuración de parámetros puesta a tu disposición en webmasters tools, ya hemo comentado esto en el punto anterior, no lo repetiremos aquí. Por cierto hay gente que sugiere el uso del elemento Base como alternativa a rel=»canonical». En principio yo no estoy de acuerdo con esto. El elemento BASE cuya declaración ha de hacerse dentro del HEAD sirve para especificar la URL base de un sitio y nada más, de forma que todas las url’s relativas presentes en la página web donde has declarado esto, es decir todas las urls relativas presentes en el BODY saldrán con dicha URL base. Si por ejemplo declaras:
Entonces cualquier ruta relativa presente en la página «index.php» por ejemplo:
href=»»../images/imagen.jpg»»>
Dicha ruta se interpretará como http://www.sitio.com/images/imagen.jpg. La etiqueta canonical ha sido creada exprofeso por Google para solucionar y combatir el contenido duplicado, por tanto veo más apropiado su uso y no considero una alternativa la utilización del elemento BASE.
- Finalmente recuerda que siempre tienes la posibilidad de informar a los buscadores que no se indexe una página en concreto, puedes declarar como follow la primera de la serie y nofollow todas las demás. Es decir puedes declarar el siguiente metadatoQue indicará a los buscadores que no indexen la página pero que sigan todos los enlaces presentes en ella. Por otro lado puedes utilizar el archivo robots.txt para lo mismo, es decir no indexar una página en concreto, pero tambien te sirve para no indexar todas las versiones con parametros. por ejemplo el tema de los parámetros en la url puede resoverse de esta manera:
User-agent: *
Disallow: /*?*
- Este cuarto punto es una actualización realizada el 29-11-2011, es decir unos meses despues. Recientemente Google ha introducido una técnica mucho más óptima puesto que permite no desindexar contenidos y al mismo tiempo que no se marquen como duplicado. No he encontrado todavía la página oficial donde se anuncia esto, pero la fuente Fernando Maciá me parece de lo más solvente, se trata de incluir el siguiente metadato en la primera página de la serie: es decir se está diciendo a través de ese marcado que la siguiente página cuya url completa se indica pertenece a la serie. En la segunda y siguientes se incorporaría (veremos sólo el ejemplo para la página 2):
Finálmente en la última página si suponemos una paginación de tres haríamos: (al no haber siguiente por ser la última no se incluye ya un rel=»next»). Fernando Maciá indica además que esta solución puede complementare con la declaración de «canonical» para decartar lo parámetros no relevantes. También se ha declarar canonical si la primera página de la serie puede alcazarse por más de una URL. Leer su artículo que no tiene deperdicio.
Diferentes URL’s conducen al mismo sitio
Desde mi punto de vista la solución más adecuada sería el uso de redirecciones 301, hay que elegir una url como URL objetivo y redireccionar las demás a esta. De esta manera sólo se indexará la URL Objetivo y resolveremos el problema. Además no se perderán los enlaces existentes a los otros documentos, ya que precisamente la redirección hace que se guié al buscador a encontrar la página objetivo que hemos definido, por tanto el enlace existente antes de la redirección no se rompe y sigue siendo un enlace válido y que cuenta para el posicionamiento.
Que diferentes URL’s conduzcan al mismo sitio es una situación se presenta más veces de lo que se piensa. Por ejemplo si en tu blog de WordPress tienes una categoria de marketing online y tambien declaras el tag marketing online y a ambos le asignas los mismos artículos o dicho más propiamente a cada artículo de marketing online le asignas el mismo tag y la misma categoría, pues tendrás este problema, estarás duplicando contenidos y a lo mejor no habías caído en esto.
Pongo como ejemplo mi propio blog el cual está alojado en un subdirectorio de mi sitio principal. El código a incluir en mi htaccess sería:
redirect 301 /seo-adictos-24h/tag/marketing-online/ https://www.miguel-valero.es/seo-adictos-24h/category/marketing-online/
un ejemplo más generalista suponiendo el blog en la raiz sería:
redirect 301 /tag/seo/ http://www.blog-ejemplo.es/category/seo/
Esto ha de hacerse en el htaccess que figura en la raiz del sitio. En mi caso tuve un problema de este tipo con el tag y categoría marketing online y se ha resuelto, ahora redirecciono el directorio tag al directorio category. Si no deseas pelearte con código en el archivo htaccess, debo indicarte que hay CMS’s como wordpress que disponen de plugins específicos para tratar este tema. No obstante si dispones de acceso te recomiendo que lo hagas directamente.
Por cierto aunque soy amante del toque humano para lograr la calidad, si te pirran las herramientas, también he encontrado una para valorar la duplicidad de contenidos en tu sitio web, no me parece nada comparable a webmasters tools pero te la cito por si te pica la curiosidad. Accede aquí a esta herramienta, la ponen a nuestra disposición la gente de Virante.com. En mi próximo artículo podrás hartarte de herramientas de este tipo, no te preocupes que hay muchas utilidades ya.
Hemos analizado ya diferentes problemas y soluciones pero si sigues presentando problemas de contenido duplicado para tu relax te digo que si están duplicando tu contenido no debes preocuparte ya que como dice Google y cito textualmente:
«El contenido duplicado de un sitio no implica que deban tomarse medidas al respecto a menos que aparentemente el objetivo sea engañar y manipular los resultados de los motores de búsqueda. Si su sitio tiene problemas relacionados con contenido duplicado y no sigue los consejos indicados anteriormente, conocemos muy bien la manera de elegir la versión adecuada para mostrarla en los resultados de la búsqueda».
Bueno concluyo este post desde el marco incomparable de la Campus Party, tras el primer aniversario de mi Blog decidí tomarme unas semanas de vacaciones, es bueno desconectar de vez en cuando. Ahora vuelvo con más fuerza y espero seguir apotando mi granito de arena a la blogosfera!
Un abrazo y hasta otra!
Miguel Valero
Desarrollador web y analista seo en valencia.
Tenía un problema de titulos duplicados debido a cambios en la estructura de una tienda online utilizando joomla. Ya lo he corregido pero se ve que google tarda en actualizarlo. Es una pena porque he perdido el posicionamiento en 5 páginas de articulos que tenía en los primeros diez resultados. Buen artículo.
Hola: Antes de todo he de decirte que tengo escasos conocimientos informáticos. hace cuatro años que tengo al web y siempre sus páginas han salido en los primeros lugares tecleando las keywords. Así si ponía: badajoz historia monumentos (o cualquier otra ciudad de Extremadura y Alentejo) y salían varias páginas en primera posición. Desde hace un mes no sale ninguna. Si esas tres o cuatro palabras anteriores las pongo juntas (sin espacio) si que salen como antes. Otro dato, si escribo separadas las keywords y busco fotografías, tambien salen siempre algunas mías las primeras. Me han aconsejado en un foro hacer una redirección 301, pero mi servidor (gratuito) no me permite modificar un determinado archivo. Yo no he modificado nada, excepto subir nuevos contenidos y actualizaciones. También me han dicho que se puede acceder a mi web con o sin www. Buscando desesperado – y tratando se aprender – me he entrado las herramientas de web master de google. En el apartado Html suggestions me dice que tengo 103 etiquetas de título duplicadas. No es cierto, lo qu8e ocurre es que están en cuatro idiomas y en algunos casos, en portugués y español se escribe igual. También hay poca diferencias entre algunas páginas en cuanto a título o/y keywords. Por ejemplo de alcazaba, se enlaza con otras como puertas alcaba, o torres alcazaba, etc. Pero esto no es nuevo, siempre ha sido así y ha funcionado estupendamente y conseguido buena posición. Perdona la extensiónde mi publicación, pero ando loco de acá para allá, dando palos de ciego. Por último otro dato: En Lycos se encuentran bastantes páginas.
Perdona nuevamente por el rrollo, pero es el trabajo de cuatro años que se ha venido abajo. Te agradezco de antemano tu interés. Muchas gracias.
Puedo realizarte una auditoría básica donde te detallaré todos los problemas y el coste de las soluciones. Saludos
hola miguel,
buen articulo, google webmaster tool es muy importante, corregir errores cuando tienes muchos 404 o 500 porque te pueden penalizar si no lo haces, lo que dices de los parametros he visto como no lo hacia ni caso, y al final habia que ponerlos en el robots.txt para que lo entendiera. Lo de las urls con parametros es verdad, oscommerce es una mierda por ejemplo y si no tienes cuidado te indexa las sesiones y te crujen.
Saludos
Gracias Miguel por la info, muy interesante, en referencia a la herramienta existe una estupenda que te ofrece la posibilidad gratuita sobre 500 URI y si pagas más – Screaming Frog SEO Spider Tool. Saludos
Pues le echaremos un vistazo a ver que tal funciona! gracias!
Buenas Miguel,
lo primero felicitarte por el blog que me aprece estupendo y lo sigo siempre. He visto que te ofrecias a ayudar sobre algún problema y bueno llevo tiempo buscando algún tipo de herramienta o algo que me ayude a descubrir si tengo contenido duplicado o, mejor dicho, contenido que puede considerarse «duplicado». No son URL distintas que van al mismo sitio o que el conteido es exactamente igual. Son archivos distintos, con contenido parecido, todo el contenido como es normal es igual salvo el main (hasta aquí normal, pero el caso es que tengo porfolio que es exactamente igual en 4 o 5 páginas. por lo que si vamos sumando, el 70% del código de estas páginas son el mismo. No sé si Google lo está considerando como contenido duplicado. Conoces algo que calcule hasta que punto Google considera contenido similar, si hay algún tipo de ratio.
No sé si me he explicado, pero ahí va.
Un saludo.
Te has explicado, pero recuerda que el caballo de batalla de Google de este año es no ver contenido duplicado en la hoja de resultados de Google, es decir Google no quiere que se ofrezcan resultados similares, es por ello que ahora se presta más atención a estos elementos que son los títulos de página y descripciones en mayor medida y que por supuesto el caso de dos o más urls vayan a la misma página. En este sentido la herramienta ya la conoces, Webmasters tools.
En cuanto al contenido duplicado en otras páginas, pues hay herramientas varias para detectar el contenido duplicado de tu sitio en terceros, de esto te adelanto que irá mi próximo artículo.
Finalmente en cuanto al contenido parecido que indicas que tienes en diferentes páginas de tu sitio web, parece ser que tu mismo ya eres una buena herramienta! No conozco una herramienta para determinar contenido parecido, si contenido duplicado, pero no contenido parecido, esto es algo complicado de programar y que exige buena capacidad de calculo, ya que estamos hablando de semántica, de sinónimos, de la capacidad del ser humano de expresar cosas con metáforas, palabras con doble sentido, etc. Si existe alguna herramienta de este tipo, no debe ser gran cosa, de todos modos lo miraré no vaya a ser que exista… Buen comentario el tuyo. Gracias!
Lo primero decirte que me ha gustado mucho tu artículo, pero tengo una duda cuando dices que para solucionar la duplicidad en un título no basta con añadir un número si no que hay que añadir una cadena significativa.
Puede ser que si sea válido? Utilizando la herramienta de SEOmoz en el que tenía este problema, paginando y añadiendo únicamente un número se corregía y ya no indicaba como titles duplicados.
Un saludo!
he de decirte que el problema lo he detectado revisando la herramienta sugerencias html de webmasters tools, en concreto la parte de títulos duplicados, y la diferencia era un número (y no de paginación), añadiendo un literal he resuelto el problema, en fín.
Muy interesante y útil este artículo.
En algunos sitios con Joomla tengo este problema debido a la paginación y las URLs que general algunos módulos. Lo he intentado resolver con el tag canonical, veremos que resultado da.
Saludos
ok cuenta luego como te ha ido. Saludos