CHANGE TO ENGLISH VERSION

¿Cómo funciona un buscador? – Capítulo 1

Por Kirai el 30 de March de 2004 en Internet

Para mi proyecto final de carrera estoy programando un buscador. No es una tarea fácil, pero gracias a lo que estoy aprendiendo ya no veo a Google como algo tan misterioso. Tengo pensado escribir unos cuantos artículos para divulgar lo que vaya aprendiendo, es importante saber como funciona un buscador para hacer que sea más fácil para ellos encontrar información en nuestros blogs y páginas webs.

Clasificar información para luego encontrarla con facilidad es una tarea que lleva realizando la humanidad desde hace muchos siglos, el problema es que cada vez disponemos de más cantidad de información escrita. Necesitamos mejores métodos para organizar la información y luego obtenerla con facilidad. Uno de los métodos más potentes que existe hoy en día consiste en obtener la información de forma automática.

Dentro de la obtención de información de forma automática se pueden definir varios enfoques según la finalidad y modo de funcionamiento:

  • Recuperación de información (Information Retrieval)
  • Extracción de información (Information Extraction)
  • Búsqueda de respuestas (Question answering)

La Recuperación de información consiste en indicar al usuario en qué documentos puede haber información relevante. Un sistema de Recuperación de información nos indica en que documentos hay apariciones de las palabras que hemos puesto en nuestra búsqueda y los ordena según una puntuación. Un ejemplo de este tipo de sistemas son los típicos buscadores como Google, Yahoo etc.

La Extracción de información consiste en hacer lo mismo que la Recuperación de información pero en vez de mostrar los resultados al usuario se generan una serie de archivos con los datos más importantes que se han encontrado. Estos sistemas eliminarían la tarea del usuario de tener que seleccionar los resultados realmente importantes. Aun no existe ningún sistema de este tipo realmente efectivo en entornos abiertos como Internet, solo se han hecho pruebas con colecciones de datos de temas concretos.

La Búsqueda de respuestas consiste en responder a una pregunta concreta del usuario. A un sistema de búsqueda de respuestas le podemos hacer peticiones del tipo ¿Cuándo nació Einstein? ¿Dónde está la plaza roja? y debe ser capaz de respondernos con una frase concreta. Puede sonar a ciencia ficción pero ya hay sistemas que son capaces de responder a preguntas sencillas.

Mis compañeros y yo estamos construyendo por ahora un sistema de Recuperación de información que utilizaremos para intentar crear encima un sistema de Búsqueda de respuestas sencillo.


Comentarios

  1. Se ve interesante, estaré esperando tu información.
    Saludos!
    Mario

  2. Tiene muy buena pinta. A ver si nos cuentas más sobre esto a menudo :)

  3. Cuando he leido: ” ¿Cómo funciona un buscador?” he pensado: “mal” … me parece … ¿raro? ¿triste? ¿vergonzoso? que a estas alturas de la vida, “lo mas” (lease Yahoo/Google/etc…) no sean mas que viejos sistemas de búsqueda de palabras y un poco de puntuación/ranking pero potenciados para ir a lo bestia sobre mil maquinas y toneladas de información. En lugar de mejorar el hecho de que me den respuestas perfectamente válidas, y por las que esperaría 30 segundos si hace falta, o un minuto, o dos (peor es no saberlo), en su lugar se esfuerzan por encontrar esas palabras por toda la red y ordenarlas en funcion de cuantos otros links les apunten, aunque sean tan desacertados como la propia página para mi intención …
    A parte de “que palabra quieres” debería al menos por lo menos, haber un “en qué contexto” (algo mas cómodo que el directorio de yahoo, o mas multi-seleccion).
    He ahí mi opinión …

  4. Me parece una gran idea. Es ilusionante ver que la gente aún puede hacer el proyecto Fin de Carrera para algu útil. Hay carreras en las que te obligan a hacer un caso tipo y de inicitiva e inventiva nada.

    Espero que parendais mucho y que el buscador que hagais acabe funcionando comercialmente. Ya me gustaría estar en vuestro lugar.

    Un saludo y mucho ánimo.

  5. Esto de comercial no creo que tenga nada :) . Pero intentamos idear cosas y aquí en informática de la universidad de alicante se portan bastante bien. En cuanto al comentario de Albin ya iremos viendo que un buscador no que guía solo por los links, hay técnicas muy avanzadas para hacer que los resultados sean los mejores. El problema es que no es fácil organizar toda la información. Para buscar por contextos primero deberíamos clasificar todas las webs en una serie de contextos predefinidos. Esta tarea sería mucho más fácil si todo el mundo siguiera los estándares web y semantizara su contenido al máximo.

  6. Interesante proyecto, tal vez deberías pensar en darle un vuelvo al asunto, y crear un buscador de ideas: Cuando alguien se queda en blanco, el buscador se encarga de encontrar las ideas.
    telendro

  7. No sabía nada del sistema ‘Búsqueda de respuestas’, ¿para responder el buscador deberá entender palabra por palabra la pregunta o seran preguntas tipo que se buscaran en una bdd? espero ansioso el capítulo 2. :P
    Por cierto, los buscadores no tienen la culpa de los malos resultados, puede que no haya información sobre la búsqueda en internet, o disponible para cualquiera.

  8. Hector ,me parece muy pragmática tu desarrollo en relación a buscadores y preguntas sencillas rápidas que dejen un sabor a satisfacción,no como yahoo o google ,estos a pesar de ser familiares y hoy nimgos,siempre te guardan algo,no tienes permiso para llegar mas allá,a veces aquellos que por amor a la ciencia nos dedicamos a buscar respuestas científicas,sabemos todo el contenido de los libros de las 4 ciencias básicas de las ingenierías…buscamos una opinión,una explicación mas alla de lo ordinario,no tenemos ni siquiera una maldita respuesta,sin embargo los Españoles si que nos dan una gran ayuda empezando por escribir en nuestro mismo idioma…por eso estamos pisados por estos miserables por su lenguaje y tambien por sus secretos,a pesar que los chinos inventaron casi todo que los otros se han adueñado de sus exitos,desde lo mas insignificante,los spaguettis que robó marco polo y la misma polvora….y pare de contar…cuando será que el equilibrio de la moral toque el nervio de la verguenza de estos científicos y nos reparen lo que nosotros y los griegos dieron sin cobrar?

  9. [...] e la cada vez más acuciante necesidad de encontrar información de manera automática. En el primer capítulo parte de tres enfoques que suelen confundirse:

    • Recuperación de información (Inform [...]

  10. [...] ahoo, etc.

    En Kirari.net ya podeis leer la continuación de la serie que queda así:

    – Capítulo 1: diferencias entre los diversos tipos de buscadores.

    – Capítulo 2: cómo b [...]



Lo más leído en Kirainet:

Fotografia

Fotografia