19/7/12

Indexando tu sitio Web en Google

Antes —digamos, en la época en que los sitios Web se construían con tablas—, era suficiente con inscribir un sitio en los directorios de buscadores, para que la gente te encontrara al buscar.

Pero Google llegó a cambiar el panorama. En su afán de optimizar los procesos publicitarios de adWords, se vieron en la necesidad de mejorar la Web. Primero, apoyando iniciativas de estandarización; luego, indicando nuevas maneras de hacer bien las cosas en Internet; y desde hace poco tiempo, limpiando su base de datos para eliminar sitios Web tramposos o spammers que solo buscan aparecer primero en los resultados de búsqueda y que, de paso, hacían más difícil la experiencia del usuario para encontrar.

El cambio es positivo y gracias a eso tengo trabajo haciendo SEO  ó_ó  ... pero no nos engañemos. Todo fluye de manera directa o indirecta hacia la fuente de ingresos que mueve a Google y mientras el negocio funcione y se siga perfeccionando, Internet será un "lugar" cada vez mejor.

Una de las mejoras que introdujo Google para hacernos la vida más simple, son los Sitemap. A través de las herramientas de Webmasters Tools de Google, podemos agregar nuestros sitemap y Google usará esa información para acceder a nuestro sitio y recaudar contenidos indexables, con mucha más rapidez (días, a veces horas) que si esperamos a que nos encuentre por sí solo.




Pero los sitemap no se hacen solos. Hay software spider con los que puedes recuperar todas las URL de tu sitio Web, filtrarlas si es necesario, y exportar un documento XML que puedes subir a la raíz del sitio, listo para indexar. También hay plugins de Wordpress que hacen el trabajo de manera automática o manual. Yo uso los dos métodos, el spider para los sitios Web complejos con muchas páginas (me permite filtrar las páginas que no quiero incluir en el buscador), y el plugin automático para sitios Web con pocas páginas pero muchos post o artículos.


Hay distintos tipos de Sitemap. Está el genérico (sitemap.xml), que reúne todas las páginas del sitio Web; el sitemap de imágenes (sitemap-image.xml), que indexa solo los monos (asociados a una página o artículo); el sitemap de noticias (sitemap-news.xml) para los sitios web informativos (éste requiere una aprobación extra por parte de Google, para ser listado en la sección de Noticias); y el sitemap de video (sitemap-video.xml), que funciona igual que el de imágenes.


También se puede incluir el Feed de noticias como fuente de contenidos.


En la imagen se ve que de 4.471 páginas en el sitemap, 4.239 están indexadas (94,5%), lo que es una excelente cifra. Esto tiene relación con la calidad de las páginas indexadas, el uso de estándares (HTML5 validado en la W3C) y con la calidad de sus contenidos, que a su vez está relacionada con lo que los usuarios usualmente buscan.


En el caso de las imágenes, hay 574 en el sitemap y de ésas apenas 128 (22,4%) están indexadas. No son más indexadas porque, probablemente, muchas de esas imágenes se usan en más de una oportunidad en diferentes páginas y se pueden considerar como contenido duplicado dentro del Sitio Web.


Los blog gratuitos de Blogger y Wordpress generan sus sitemap de manera automática, al igual que sus fuentes de Feed. Incluye las dos en Google Webmaster Tools y espera paciente.

2 comentarios:

  1. Buen día, sabés que he enviado el sitemap a google varias veces, y siempre la indexación figura como instantánea, inmediatamente me dice cuántas páginas a indexado. De 45 páginas enviadas indexó sólo 8. La pregunta sería: ¿Me quedo tranquilo esperando a que con el paso del tiempo se indexen más páginas de mi sitio? Tampoco aparecen datos de la búsqueda de los usuarios. Gracias.

    ResponderEliminar
  2. Hola Jorge.

    El GWT muestra una imagen aproximada del comportamiento de tu sitio Web en Google. Si tu sitio es nuevo, o tiene menos de tres meses de antigüedad, es normal que aparezca poco en resultados.

    El tema con la indexación de páginas es relativo al sitio y al tema. Google hace mucho hincapié en que le interesan los sitios de calidad con contenidos originales. Y es posible, como también me ocurre en algunos blog personales, que Google simplemente no indexe las páginas porque su algoritmo considera ese contenido como "poco original".

    También puede ocurrir que haya un bloqueo de Robots.txt; o que el título y la descripción de la página no cumplan con las directrices estándar para SEO (muy largos o muy cortos); o que tengas contenido duplicado.

    Dame el link de tu sitio y le doy un vistazo.

    ResponderEliminar