De seguro muchos tenemos una idea de cómo Google realiza su tarea de indexación de la Web, el rastreo de las páginas nuevas y los cambios en ellos. Hoy viernes en su blog oficial Google da a conocer, como lo viene haciendo últimamente, otro detalle sobre cómo realiza esta tarea de indexar contenido y procesarlo para ofrecerlo mediante su buscador a nosotros, los usuarios.

Lo primero que nos mencionan los ingenieros encargados, Jesse Alpert and Nissan Hajaj, es:

Empezamos con una serie de páginas iniciales bien conectadas y seguimos cada uno de los enlaces que contiene hacia nuevas páginas. Luego seguimos con los enlaces en esas nuevas páginas y así, hasta que al final tenemos una enorme lista de enlaces.” […] “Aún luego de remover los duplicados exactos, nos quedamos con un trillón de URLs únicas, y el número de páginas individuales fuera de ello crece a un ritmo de varios billones por día.

Luego viene el análisis de “gráfico de enlaces”, una representación matemática de qué enlaza a qué. Esto forma parte de una de las claves en las cuales se basa el algoritmo del Pagerank de Google, que le permite al motor de búsquedas número uno, determinar cuál es la importancia que le asignará a esas páginas como punto de referencia a las páginas que ésta apunta.

El mapa de este trillón de URLs es similar a un mapa hecho con 3 millones de intersecciones. Asi que varias veces al día hacemos el computo equivalente a explorar cada interseccion de cada avenida de los Estados Unidos. Excepto que ésta vez se trata de un mapa 50,000 veces más grande que el de los Estados Unidos, esto es con unas 50,000 avenidas e intersecciones más.”

Via: Cnets

Etiquetas: