La anatomía de los motores de búsqueda
Por Fernando Gutiérrez
Artículo publicado en el número 169 de la revista PYME bajo el título “Comprenda las técnicas de Internet”
Un motor de búsqueda es un sistema que busca y clasifica documentos almacenados en los diversos servidores de Internet -a este proceso de clasificación se le conoce también como “indexación”-. El primer sistema de búsqueda popular en Internet se llamó “Archie” y se orientaba exclusivamente a la investigación y clasificación de los nombres de los archivos concentrados en servidores FTP –servidores que usaban el protocolo para la transferencia de archivos-. De ahí el nombre de “Archie” que hace alusión a “Archive”. Este sistema no buscaba en los contenidos de los documentos, sino exclusivamente examinaba los nombres de los archivos.
Con la llegada de otras aplicaciones en Internet aparecieron nuevos mecanismos de búsqueda, como el caso del sistema “Veronica” que funcionaba para “indexar” los archivos de la aplicación Gopher –aplicación que precedió a la World Wide Web-, y finalmente Wandex, que fue el primer motor de búsqueda para la Web, desarrollado en el MIT en 1993.
Después de Wandex surgieron otros motores importantes como Aliweb (1993), Webcrawler (1994), Infoseek (1994), Lycos (1994), Altavista (1995), Excite (1995), HotBot (1996), Ask Jeeves (1996), Northern Light (1997), Google (1998), All The Web (1999), Teoma (1999), Baidu (2000), Info com (2003), Yahoo Search (2003), MSN Search (2005), Ask.com (2005), Live Search (2006), Wikiseek (2007).
La empresa Yahoo fue fundada en 1994, sin embargo, integró su motor de búsqueda hasta 2003. Antes de esta integración operaba como catálogo temático general, y el proceso de “indexación” o clasificación de la información era manual.
Los motores de búsqueda emplean programas llamados “robots” o “arañas”, que saltan de un lugar a otro recogiendo información (por lo general contenida en páginas Web) y almacenando todos los datos en una enorme base. Estas bases de datos contienen, por lo general, el título de la página, una descripción detallada del sitio, palabras clave e información de enlaces (a esta información también se le conoce como información “META”, que va más allá del contenido).
Por ejemplo:
En algunos casos pueden incluirse, además, comentarios realizados por los responsables del buscador o una valoración subjetiva -votación- que hacen los usuarios que han accedido anteriormente al servidor. El usuario accede a la base de datos, llenando una forma que ejecuta un mecanismo de búsqueda. Por lo regular, estas formas se llenan con lenguaje natural, o mediante combinaciones de palabras clave o instrucciones especiales, y como salida se recibe un listado con los resultados de la búsqueda.
Los motores incorporan, automáticamente y de forma constante, información de la red mediante los “robots” de búsqueda, y a través de distintos algoritmos posicionan los resultados. Por tal motivo, no es una casualidad que un sitio aparezca primero que otro. Entre los algoritmos más comunes para el posicionamiento de un sitio aparecen los siguientes:
- Popularidad del sitio (¿Cuántos sitios apuntan hacia un sitio determinado?)
- Título del sitio
- Título en el URL o dirección (Ej. www.titulo.com.mx)
- Encabezados en el contenido (títulos y subtítulos dentro de la página)
- Contenido del sitio (texto)
- Nombres de las imágenes o gráficos
- Nombres en las ligas (links)
Bajo estas circunstancias, por ejemplo, tiene mayor probabilidad de aparecer en los primeros lugares un sitio que tenga más referencias de otros sitios, que un sitio que no tenga alguna referencia o sólo unas cuantas. Por tal motivo, puede señalarse que los primeros sitios que aparecen como resultado de una búsqueda son los mejores indexados o clasificados, según los distintos algoritmos.
Como los usuarios, suelen leer sólo los primeros resultados de una búsqueda, el tema de posicionamiento en un motor resulta de gran importancia para aquellas personas u organizaciones que desean poner al alcance de todos los cibernautas su información.
Por ejemplo, si una persona quisiera buscar “pinturas en México” y teclea en el motor de búsqueda de Google México (www.google.com.mx) solamente la palabra “pinturas”, las páginas que aparecerán como resultado serán las mejores posicionadas, no necesariamente las que se esperaba encontrar. En este caso, habría que redefinir mejor la búsqueda, con otras palabras claves para acceder a lo que se requiere (Ej. pinturas de artistas mexicanos, pintores mexicanos, artistas de la pintura en México…)
Los usuarios que buscan información deben comprender que los primeros resultados de una búsqueda responden también a razones de popularidad que derivan de un mejor proceso de indexación. Por tal motivo, es indispensable conocer las diversas técnicas que aseguren una mayor efectividad en el proceso de búsqueda de información en Internet.