lunes, 26 de diciembre de 2011

La Red profunda. Lo que los buscadores convencionales no encuentran


Cuando se quiere encontrar un dato entre los más de 8,5 millones de sitios web disponibles en Internet, lo normal es acudir a buscadores del estilo de Altavista o Google, pero estas populares herramientas pasan por alto una importante parte de la Red que contiene entre 400 y 550 veces más información. En 1994, la doctora Jill Ellsworth, especializada en el estudio de la Red, acuñó el término 'Internet invisible' para referirse a la información que no podían encontrar los buscadores más comunes por razones técnicas o simplemente por conveniencia. En 2000, un estudio de la consultora estadounidense BrightPlanet, elaborado por Michael Bergman, confirmaba y explicaba la existencia de una Red profunda, que tendría aproximadamente 7.500 terabytes (equivalente a 7.500 billones de bytes) de información frente a los 19 de la superficial o parte de la Red accesible mediante los buscadores convencionales.

Estas cifras suponían superar entre 400 y 550 veces el volumen de información en el que un usuario que solamente utilizase, por poner un ejemplo, Google o Altavista era capaz de buscar. Catálogos de bibliotecas, bases de datos, revistas electrónicas y archivos de documentos que no pueden ser indexados por su formato componen este mar de información desconocido por la mayoría de los usuarios que se limitan a usar las herramientas de búsqueda más comunes.

Esta supuesta invisibilidad de ciertos sitios de Internet es fruto de la tecnología actual que utilizan los motores de búsqueda. Esto no significa que sea imposible acceder a estos documentos si se utiliza una tecnología más avanzada.

Conocer el funcionamiento de los motores de búsqueda es vital para comprender el porqué de la existencia de la Red profunda. Google, Altavista o cualquier otro motor son esencialmente enormes bases de datos que contienen el texto completo de páginas web. Cuando un usuario utiliza un buscador, no está buscando en toda la World Wide Web, sino en la base de datos específica del motor. Esto permite que se obtengan rápidos resultados, hecho que no sería posible si cada vez que se realiza una consulta se tuvieran que rastrear en tiempo real los millones y millones de documentos que se encuentran disponibles en la web.

A la hora de crear estas bases de datos, los motores de búsqueda, con una periodicidad normalmente mensual, utilizan las llamadas arañas o robots inteligentes que saltan de una web a otra a través de los enlaces de hipertexto registrando la información allí disponible.
Si una web no tiene enlaces, la única forma que tiene de ser registrada en un buscador es que su autor la incluya manualmente rellenando un formulario. En caso contrario, esta web resultara invisible para todos aquellos usuarios de Internet que no conozcan la URL o dirección web concreta. Sin embargo, el que una página carezca de enlaces no es la única causa que puede llevar a una web a permanecer en las profundidades. Los buscadores suelen indexar páginas estáticas que incluyen textos simples y que están programadas en HTML, el lenguaje de programación más común con el que están escritos los sitios web. Ésta es la información que, sin ninguna duda, un usuario encontraría en la Red superficial utilizando los buscadores más comunes, el resto pasa a formar parte de la Red profunda.

Actualmente, la posibilidad de buscar e indexar cierto tipo de archivos no textuales, como imágenes, audio, vídeo, archivos PDF o Postscript, programas ejecutables o archivos comprimidos, se ha convertido en un reto para los motores de búsqueda más generales. Técnicamente la mayoría de estos formatos pueden ser indexados, pero los motores eligen no hacerlo por razones de negocio. En primer lugar, hay mucha menos demanda de este tipo de formatos que de textos HTML y, además, estos formatos son más difíciles de archivar y organizar, por lo que requieren mayores recursos del servidor. Estos archivos no suponen una parte muy grande de la Red profunda, sin embargo, se va extendiendo rápidamente su uso a medida que pasa el tiempo, principalmente para documentos de alta calidad, concernientes a los Gobiernos o alguna otra autoridad. A pesar de estos inconvenientes, la demanda se está imponiendo y algunos motores de búsqueda como Google o Altavista ya están incorporando entre sus opciones la posibilidad de buscar imágenes o archivos PDF.

En realidad, el mayor reto al que se enfrentan los motores de búsqueda recae en el acceso a la información que se encuentra en las bases de datos, que conforman la mayor parte de la Red profunda.
El problema radica en que cada una de las bases de datos es única en diseño, estructura, herramientas y método de búsqueda. Sólo presentan dinamismo en respuesta a una pregunta directa, cosa que hasta el momento sólo es capaz de hacer el propio usuario y en ningún caso los programas araña que usan los buscadores en sus tareas de catalogación. Si el usuario pretende realizar una búsqueda en ellas, debe usar las propias herramientas que la base de datos ofrece y que, al estar creadas específicamente para este propósito, proporcionarán los mejores resultados.

El inconveniente está en que es necesario encontrar la base de datos en primer lugar, tarea en la que a veces los motores de búsqueda ayudan y otras no. Hay diferentes tipos de bases de datos a los que se puede acceder a través de la Red. Sin embargo, se debe tener en cuenta que el hecho de que los documentos web estén almacenados en una base de datos no los hace automáticamente parte de la Red profunda. A veces se usan simplemente porque permiten un mantenimiento más fácil del sitio.

La Red profunda abre un sinnúmero de nuevas posibilidades. Su supuesta invisibilidad depende del conocimiento de su existencia y de no conformarnos con los recursos convencionales que nos brinda Internet. El hecho de que Yahoo o Terra no encuentren el dato que buscamos no significa que no esté en la Red. Tan sólo hay que sumergirse algo más para comprobar si ese dato está en la telaraña mundial o es que simplemente es invisible a los ojos de ciertos buscadores.

Recursos para llegar a los datos 'invisibles'
La Red invisible no es tal, tan sólo hay que saber dónde buscar. Los sitios web que aparecen a continuación permiten un acceso fácil y directo a la Red profunda.

The invisible web:
Tiene catalogadas más de 10.000 bases de datos, además de buscadores y archivos de todo tipo. Ofrece descripciones completas de cada una de las bases de datos catalogadas.

Complete Planet: www.completeplanet.com 
Este sitio permite buscar en 30.000 bases de datos de la Red profunda. Ofrece la posibilidad de realizar varias búsquedas simultáneas.

Invisible web directory: www.invisible-web.net
Sitio web elaborado por Chris Sherman y Gary Price, autores del libro The invisible web, en el que ofrecen un directorio temático de las principales bases de datos disponibles en la Red profunda.

Internet invisiblewww.internetinvisible.com
Esta web en castellano ofrece acceso temático a 2.350 bases de datos. Incluye una guía de recursos profesionales, clasificados por titulaciones universitarias.

BigHub:  www.thebighub.com
Permite al usuario el acceso a 1.500 bases de datos especializadas. Además ofrece la posibilidad de buscar en múltiples motores de búsqueda y directorios de forma simultánea.

Contiene una base de datos con múltiples opciones que permite al usuario la búsqueda por temas. Está específicamente diseñada para estudiantes universitarios.

Lexibot de BrightPlanetwww.lexibot.com/index.asp 
Este es un servicios de pago que permite la búsqueda en más de 4.300 bases de datos. Filtra, clasifica y organiza los resultados obtenidos.



Bibliografía:

Bright Planet (2000): The Deep Web: Surfacing Hidden Value (accesible en:http://128.121.227.57/download/deepwebwhitepaper.pdf).


University at Albany Libraries - The Deep Webhttp://library.albany.edu/internet/deepweb.html

The Search Engine Report - Invisible Web Gets Deeperby Danny Sullivan

Searching the Invisible Webpor  Chris Sherman

No hay comentarios:

Publicar un comentario