¿Cómo funciona un buscador? – Capítulo 4 – PageRank

Llegamos al último capítulo de la serie donde vamos a explicar los fundamentos de ordenación de resultados de una búsqueda basándonos en el cálculo del Pagerank de Google.

En el capítulo 3 aprendimos como los resultados de una búsqueda se ordenan según su importancia usando una serie de algoritmos. Pero estos algoritmos son totalmente autómaticos y simplemente se basan en la correspondencia del texto de las páginas con la búsqueda que estamos realizando. Para poder obtener una ordenación mejor debemos introducir componentes más «subjetivos», como por ejemplo el número de enlaces que apunta a determinada página web. Cuantos más enlaces hacia nuestra página mayor será nuestra puntuación (Con ciertas restricciones importantes que veremos a continuación).

Veamos la fórmula básica (No os asustéis que es muy sencillita) con la que se calcula la puntuación (PageRank) de una página web:

  • -PR(A) significa que vamos a calcular el PageRank de la web A.
  • -T1, T2, T3 … Tn son las páginas web que tienen un link hacia la página web A.
  • -d es una constante que suele vale 0.85
  • -C(T1), C(T2), C(T3) … C(Tn) son el número de links al exterior de las webs T1,T2,T3 etc…

Vemos que la fórmula tiene en cuenta el PageRank que cada página que nos apunta, además, cuantos más enlaces al exterior tiene la página que nos apunta menor es la puntuación que nos da. Teóricamente la fórmula calcula la probabilidad de que un usuario llegue a tu página navegando haciendo clicks aleatoriamente, cuantos más enlaces hacia tu página más probable es que llegue un navegante despistado. Pero será aún más probable si hay enlaces a tu página desde una web famosa con mucho PageRank. Para verlo más claro vamos a utilizar un ejemplo, imaginaros las siguientes webs:

-Página Web A (PageRank = ¿?¿?)
-Página Web T1 (PageRank = 5):
   -Link hacia A.
   -Link a slashdot
   -Link a barrapunto
   -Link a la nasa
-Página Web T2 (PageRank=3):
   -Link hacia A
   -Link a google

Deseamos conocer el valor del PageRank de la Web A y ver si nos beneficia más la Web T1 o la Web T2. Procedemos a aplicar la fórmula:

PageRank(A)=(1-0.85) + 0.85*(PageRank(T1)/C(T1)) + 0.85*(PageRank(T2)/C(T2))

Nos valta saber C(T1) y C(T2) que simplemente se calculan sumando el número de links al exterior de ambas páginas, C(T1)=4 y C(T2)=2.

PageRank(A)=(1-0.85) + 0.85*(5/4) + 0.85*(3/2)

PageRank(A)=(1-0.85) + 1 + 1.275

Observad que la página T2 con PageRank 3 nos beneficia algo más que T1 con PageRank 5 porque no tiene tantos links al exterior. Si terminamos de operar obtenemos nuestra puntuación final:

PageRank(A)=2.425=2(Redondeando hacia abajo)

Ya sabemos calcular el PageRank a mano (Algo bastante inútil, aquí te lo calculan automáticamente), pero ¿Qué conclusión práctica podemos sacar de la fórmula? Veámoslo con un par de ejemplos prácticos:

– Si tenemos una web con PageRank 2 y nos enlazan 20 nuevas páginas con PageRank 1 seguramente sigamos con PageRank 2, pero si hay una web que nos enlaza con PageRank 6 seguro que subiremos a PageRank 3. Cuanto mayor sea el PageRank de la web que nos enlaza mayor es la puntuación que nos da.

-Si tenemos una web con PageRank 2 y nos enlaza una web con PageRank 3 que tiene enlaces a otras 5000 webs seguramente sigamos con PageRank 2, pero si la misma web solo tiene nuestro enlace seguro que subiremos a PageRank 3. Cuanto menos enlaces al exterior tenga la web que nos enlaza mayor es la puntuación que nos da.

Hoy en día el algoritmo para calcular el PageRank es mucho más complicado que el explicado y tiene en cuenta muchas más variables para dar puntuaciones lo más fiables posibles. Pero la base sigue siendo parecida a la fórmula de este artículo. ¿Cómo mejoraríais la fórmula del PageRank? ¿Qué factores creéis que son importantes a la hora de evaluar una web de forma automática?

Más información en los papers orginales escritos por los creadores de Google en The Anatomy of a large-scale hypertextual Web search engine y The PageRank citation ranking: Bringing order to the Web.

Y para los que han llegado hasta aquí leyendo todos estos artículos un regalito: una foto de Sergey de juerga en la universidad, uno de los creadores del fenómemo Google haciendo el gilipichis 😉

22 respuestas a «¿Cómo funciona un buscador? – Capítulo 4 – PageRank»

  1. Bueno, genial este repositorio de artículos acerca de como funciona un buscador 😉

    En concreto este post, lo completaría con una serie de detalles:

    1. Google tiene bots que navegan por la red de forma continua buscando páginas nuevas y actualizaciones de antiguas.

    Antes eran conocidos con el nombre de googlebot y freshbot, el primero indexaba paginas y el segundo era el encargado de actualizarlas.

    Ahora ya no existen. Google utiliza ya un rango de bots con IP del tipo 64.68.82.* (por si queréis comprobarlo en vuestras estadísticas) que sirven para indexar páginas nuevas y también para meterlas de forma fija en el indice.

    Una vez que google que localiza una pagina, se guarda la información sobre la misma, la analiza, la pasa a un editor, y a esa pagina se le da una nota que oscila entre el 1 y el 10. A esa nota se le conoce como PageRank

    Este proceso tarda unas dos o tres semanas, desde que la página entra en el historial de google.

    2. Otro mecanismo totalmente eficaz el Page Rank es la propia barra google que ofrece google, la llamada GoogleBar, si bien sólo está disponible para windows :/

    3. Por cierto que, de todas las paginas que puedan tener en un enlace a la tuya, para google cuentan las que tienen Page Rank 4/10 o superior. Las demas tambien cuentan pero su valor es menor.

    Todo esto lo aprendí de Johny. Un saludo.

  2. Muy buena la complementación 🙂 Pero el tercer punto no es del todo correcto. La puntuación que te dan va en función de la fórmula explicada en el artículo y no tiene nada ver si tiene PageRank superior a 4. Simplemente cuanto mayor mejor, pero no hay nada que diga que a partir de 4 se pondere de forma que se obtenga una puntuación mayor.

  3. Es interesante el tema de la indexación, pero para mi el tema más complicado de los navegadores no es este, sino el escalar el sistema a los millones de páginas que existen. Si decides publicar otro artículo podrías explicar como se lo monta google para hacer lo que hace en decimas de segundo.

  4. Yo uso el Google PageRank Tool te dice instantaneamente el pr de cualquier pagina. Por cierto tengo 2 urls con pr 4 , si alguien quiere hacer un intercambio de enlaces de texto que me escriba a kaesar30arrobagmailpuntocom.
    Saludos

  5. Hola!! He encontrado tu bitacora buscando sobre mi proyecto y es que creo que tenemos algo en común, mi proyecto fin de carrera también es un buscador, aunque yo sin planes de irme a Tokio , buff…
    Hay una cuestión que no he encontrado y que creo que podria ser interesante que pudieras algun enlace, si lo conoces. No recibe la misma ponderación una página que tiene el termino buscado en su titulo que una que la pueda enter en una etiqueta sin más, es algo de la importancia semántica , pero no he consiguido encontrar nada relevante. Muchas bitacoras hablan sobre el pagerank pero esto es un campo mucho más olvidado.
    Muchas gracias y saludos desde España!

  6. En cuanto a los Bots de google, parece ser que existen los especializados en foros. Yo administro uno, y cada vez que abro el panel de control lo encuentro. Parece ser que se ha quedado a vivir ahí adentro. Esto da la puta de que son distintos de los que indexan páginas «normales».

Los comentarios están cerrados.