SISTEMAS QUE UTILIZA GOOGLE PARA RASTREAR, INDEXAR Y MOSTRAR EL CONTENIDO WEB:
fuente http://www.prodyweb.com
INTRODUCCIÓN
Cuando se sienta frente a su equipo informático y realiza una búsqueda en Google, obtiene de forma prácticamente instantánea una lista de resultados de la Web. ¿Qué sistemas utiliza Google para encontrar páginas web que coincidan con su consulta y para determinar el orden de los resultados de búsqueda?
Para explicarlo de forma sencilla, realizar una búsqueda en la Web es como consultar un libro muy extenso en el que un índice exhaustivo indica exactamente la ubicación de cada elemento. Cuando un usuario realiza una búsqueda en Google, sus programas consultan su índice para decidir qué resultados de búsqueda son los más relevantes y mostrárselos.
A continuación se indican los tres procesos clave para la presentación de los resultados de búsqueda.
Rastreo:
El rastreo es el proceso mediante el cual Googlebot descubre páginas nuevas y actualizadas y las añade al índice de Google.
Google utiliza una enorme cantidad de equipos informáticos para obtener (o "rastrear"

miles de millones de páginas de la Web. El programa encargado de recuperar este contenido es Googlebot, también conocido como "robot" o "araña". Googlebot emplea un proceso basado en algoritmos: a través de programas informáticos, se determinan los sitios que deben rastrearse, la frecuencia y el número de páginas que hay que obtener de cada sitio.
El proceso de rastreo de Google empieza con una lista de URL de páginas web generada a partir de anteriores procesos de rastreo y se amplía con los datos de los sitemaps que ofrecen los webmasters. A medida que Googlebot visita cada uno de estos sitios web, detecta enlaces en sus páginas y los añade a la lista de páginas que debe rastrear. Los sitios nuevos, los cambios en los existentes y los enlaces obsoletos se detectan y se utilizan para actualizar el índice de Google.
Google no acepta retribuciones económicas para rastrear un sitio con mayor frecuencia y separa el servicio de búsqueda del programa de generación de ingresos, AdWords.
Indexación:
Googlebot procesa todas las páginas que rastrea para elaborar un índice completo de todas las palabras que detecta y de su ubicación en cada página. Además, procesa la información incluida en las etiquetas y los atributos de contenido clave, como las etiquetas "Title" y los atributos "ALT". Googlebot puede procesar muchos tipos de contenido, pero no todos. Por ejemplo, no puede procesar el contenido de una serie de archivos multimedia y páginas dinámicas.
Publicación de resultados:
Cuando un usuario introduce una consulta, el sistema de google busca en el índice las páginas que coinciden con esa consulta y muestra los resultados que considera más relevantes para el usuario. La relevancia se determina a partir de más de 200 factores, uno de los cuales es el PageRank de cada página. Este parámetro representa la importancia que Google asigna a una página en función de los enlaces procedentes de otras páginas web. En otras palabras, cada enlace a una página de un sitio influye en el PageRank del mismo. No todos los enlaces son iguales: Google se esfuerza en mejorar el servicio que ofrece al usuario identificando los enlaces fraudulentos y otras prácticas que influyen negativamente en los resultados de búsqueda. Los mejores enlaces son los que se basan en la calidad del contenido del sitio.
Para que su sitio consiga una buena posición en las páginas de resultados, es importante asegurarse de que Google pueda rastrearlo e indexarlo correctamente.
Cuando su sitio esté listo:
*
Envíelo a Google a través de http://www.google.es/addurl.html
*
Envíe un sitemap a través de las Herramientas para webmasters de Google. Google lo utilizará para conocer la estructura de su sitio web e incrementar la cobertura que concedemos a sus páginas.
*
Asegúrese de que todos los sitios que deben estar al corriente de sus páginas sepan que su sitio se encuentra activo.
Directrices de diseño y contenido:
*
Cree un sitio con una jerarquía y enlaces de texto claros. Se debe poder acceder a todas las páginas desde al menos un enlace de texto estático.
*
Ofrezca a los usuarios un mapa del sitio con enlaces que conduzcan a las secciones importantes del mismo. Si el mapa contiene más de cien enlaces, puede dividirlo en varias páginas.
*
Cree un sitio útil con mucha información y redacte páginas que describan el contenido con claridad y exactitud.
*
Piense en las palabras que podrían introducir los usuarios para localizar sus páginas y asegúrese de que esas palabras estén incluidas en su sitio.
*
Intente utilizar texto en lugar de imágenes para mostrar nombres, contenido o enlaces importantes. El rastreador de Google no reconoce el texto incorporado a imágenes
#
Asegúrese de que los elementos <title> y los atributos "alt" de su sitio sean descriptivos y precisos.
#
Compruebe que no haya enlaces dañados ni código HTML incorrecto.
#
Si decide utilizar páginas dinámicas (es decir, si la URL contiene el carácter "?"

, tenga en cuenta que no todos los motores de búsqueda rastrean tanto páginas dinámicas como páginas estáticas. Se recomienda que los parámetros sean cortos y reducidos en número.
#
Una página no debería contener más de cien enlaces.
Directrices de calidad:
Estas directrices de calidad abarcan las formas más comunes de comportamiento engañoso o manipulador, pero Google también puede adoptar medidas contra otras prácticas fraudulentas no mencionadas aquí (por ejemplo, engañar a los usuarios registrando sitios web conocidos con incorrecciones ortográficas). No se debe asumir que Google aprueba una determinada técnica engañosa por el simple hecho de que no esté incluida en esta página. Los webmasters que se esfuercen por respetar el espíritu de los principios básicos mencionados anteriormente ofrecerán a los usuarios un servicio de mayor calidad y alcanzarán una posición mejor que aquellos que busquen vacíos legales que aprovechar.
Si cree que algún sitio está vulnerando las directrices de calidad de Google, notifíquelo a través de la página https://www.google.com/webmasters/tools/spamreport?hl=es. Google prefiere desarrollar soluciones escalables y automatizadas a los problemas. Por lo tanto, se intenta minimizar la lucha directa contra sitios fraudulentos. Los informes que recibe sobre este tipo de sitios se utilizan para crear algoritmos escalables que reconozcan y bloqueen intentos futuros de generarlos.
Principios básicos de las directrices de calidad:
*
Cree páginas principalmente para los usuarios, no para los motores de búsqueda. No engañe a sus usuarios ni muestre a los motores de búsqueda un contenido distinto del que ofrece a los usuarios (práctica conocida como "encubrimiento"

.
Evite trucos destinados a mejorar la posición obtenida a través de los motores de búsqueda. Una buena regla general es preguntarse si se sentiría cómodo al tener que explicar a un sitio web de la competencia lo que ha hecho. Otra prueba de gran utilidad es preguntarse: "¿Ayuda esto a mis usuarios?; ¿haría esto si no existiesen los motores de búsqueda?".
*
No participe en esquemas de enlaces destinados a mejorar la posición de su sitio o a manipular los resultados del algoritmo PageRank en su favor. Evite, en concreto, los enlaces a emisores de spam o "vecindarios indeseables" de la Web, ya que estos enlaces podrán influir negativamente en su propia posición.
*
No utilice programas informáticos no autorizados para enviar páginas, comprobar las clasificaciones, etc. Este tipo de programas consumen recursos informáticos e infringen nuestras Condiciones del servicio. Google no recomienda el uso de productos como WebPosition Gold™, que envían consultas a Google de forma automática o mediante programación.
Directrices específicas de calidad
*
Evite utilizar texto o enlaces ocultos.
*
No utilice técnicas de redireccionamiento engañoso o encubrimiento.
*
No envíe consultas automatizadas a Google.
*
No suba páginas con palabras clave irrelevantes.
*
No cree varias páginas, subdominios o dominios que presenten básicamente contenido duplicado.
*
No cree páginas de comportamiento malicioso, como páginas de suplantación de identidad (phishing) o páginas que instalen virus, troyanos u otro tipo de software malicioso.
*
Evite las páginas "puerta" creadas exclusivamente para motores de búsqueda u otros medios extendidos, como programas de afiliación con escaso o nulo contenido original.
*
Si su sitio participa en un programa de afiliación, asegúrese de que aporta un valor añadido. Proporcione contenido único y relevante que ofrezca a los usuarios una razón para visitar el sitio.
Si determina que su sitio no cumple con estas directrices, puede modificarlo para que se ajuste a ellas y enviar una solicitud para reconsiderar su inclusión en los resultados de búsqueda.
Directrices técnicas:
* Utilice un navegador de solo texto como Lynx para examinar su sitio, ya que la mayoría de las arañas de los motores de búsqueda visualizarán el sitio igual que Lynx. Si el uso de funciones avanzadas (como JavaScript, cookies, identificadores de sesión, marcos, DHTML o Flash) impide la visualización de todo el sitio en un navegador de texto, es posible que las arañas de los motores de búsqueda tengan problemas para rastrearlo.
* Permita que los robots de búsqueda rastreen su sitio sin identificadores de sesión ni argumentos que efectúen un seguimiento de su ruta por el sitio. Estas técnicas son de gran utilidad para supervisar el comportamiento de un determinado usuario, pero el patrón de acceso de los robots es completamente distinto. El uso de estas técnicas podría dar lugar a una indexación incompleta del sitio, ya que es posible que los robots no puedan eliminar las URL que parezcan distintas aunque conduzcan a la misma página.
* Asegúrese de que su servidor web admita la cabecera HTTP "If-Modified-Since". Esta función permite que su servidor web avise a Google si el contenido de su sitio ha cambiado desde la última vez que lo rastreamos. El uso de esta función le permitirá ahorrar ancho de banda y reducir gastos generales.
* Utilice el archivo robots.txt en su servidor web. Este archivo les indica a los rastreadores los directorios que se pueden rastrear y los que no. Asegúrese de mantenerlo actualizado para evitar un bloqueo accidental del rastreador Googlebot. Visite la página http://www.robotstxt.org/wc/faq.html para obtener información sobre la forma de dirigir el comportamiento de los robots que visiten su sitio. Para asegurarse de estar utilizando correctamente el archivo robots.txt, puede probarlo con la herramienta de análisis de robots.txt disponible a través de las Herramientas para webmasters de Google.
* Si su empresa adquiere un sistema de administración de contenido, asegúrese de que pueda exportar el contenido de modo que las arañas de los motores de búsqueda logren rastrear su sitio.
* Utilice robots.txt para evitar el rastreo de páginas de resultados de búsqueda u otras páginas generadas automáticamente que carecen de valor para los usuarios procedentes de motores de búsqueda.
* Realice una prueba para asegurarse de que su sitio aparezca correctamente en distintos navegadores.
fuente http://www.prodyweb.com
Gracias.. esta bueno el contenido por eso lo postie aca

algun puntito no vendría mal jaja


Otros posts que te van a interesar:
- Posicionamiento Web en Google y Otros Buscadores
- ¿Por qué es Tan Importante el Posicionamiento Web o SEO?
- Como salir primero en los buscadores
- [El Mejor metodo de] Posicionamiento Web
- como mejorar tu posicionamiento en google
- ¿Cómo puedo promocionar un sitio web exitosamente.?
- Que es un navegador web? Google lo explica
- Márketing Online: Posicionamiento en Buscadores
- 1 millon de visitas a tu web
- Tu sitio web en los primeros lugares de google!
Buen post!!!!!!!!!!!!!!!! +10
graçias totales
Gracias! 

Para poder comentar necesitas estar Registrado. O.. ya tenes usuario? Logueate!












+ 5