Escala web · Web profunda · Frescura

Dinámica, diversidad y tamaño de la Web: por qué los buscadores son difíciles

La Web no es una biblioteca estable. Crece, cambia, se duplica, desaparece, se expande por idiomas y esconde muchas zonas detrás de formularios o sistemas dinámicos.

Crecimiento

Los buscadores deben gestionar páginas nuevas, modificadas y eliminadas continuamente.

Diversidad

Idiomas, dominios, formatos y niveles de calidad impiden una indexación uniforme.

Web profunda

Muchos recursos no son accesibles siguiendo enlaces estáticos.

Metadatos

Las descripciones estructuradas ayudan, pero son incompletas e inconsistentes.

Lectura 2026: web dinámica, mobile-first e IA en buscadores

Los problemas clásicos descritos en este artículo siguen presentes, pero ahora aparecen a través de la indexación mobile-first, páginas renderizadas con JavaScript, datos estructurados, funciones de búsqueda con IA y controles de contenido como las etiquetas robots meta. Una página puede existir en la web pública y aun así ser poco visible si su versión móvil oculta contenido, sus datos estructurados están bloqueados, sus señales canonical se contradicen o la información útil solo aparece tras interacciones frágiles en cliente.

Dinámica, diversidad y tamaño de la web. Un problema para los buscadores

En este proyecto se resumen las conclusiones obtenidas después de haber realizado la lectura de los artículos:

Internet en Chile (SUBTEL) Enlace
Trends in the Evolution of the Public Web (1998 - 2002). enlace
Graph Structure in the web Enlace
Web Dynamics Enlace

Si necesitas ayuda esta disponible el siguiente video explicativo: https://www.youtube.com/watch?v=-ibNde2KkM0.

2 Definición y objetivos del estudio de la dinámica de la web

Cada día la humanidad produce una cantidad cada vez mayor de información, aproximadamente 2.5 quintillones de bytes que son 25x byte, es decir, una barbaridad de datos. Además, el 90% de la información que dispone la humanidad ha sido producida estos dos últimos años.

¿Cómo hemos aumentado tanto la capacidad de generar datos? ¿De dónde obtiene toda esta información?

Prácticamente en todas partes; en este mundo tecnológico actual, se puede obtener información de cualquier cosa. Ya sea que estemos hablando de una red de sensores, de nuestra última foto subida al Instagram o del último mensaje escrito en Facebook. ¿Cómo podemos rastrear esa información ? A través de la dinámica de la web, es decir, las técnicas que permiten conocer cómo evoluciona el uso de la web, concoer su topología, su contenido y qué clases de modelos y técnicas estarán de acuerdo con la escala para este ritmo de crecimiento actual ((figura 1 ).

Realmente ha surgido una nueva necesidad de comprender y manejar la dinámica de la web para desarrollar nuevas técnicas que hagan que la web sea tratable.

Figura ilustrativa sobre buscadores — 1 Gráfico que nos muestra una estimación y pronóstico en la evolución de la cantidad de información global que circula por la red.[blogs.elpais.com 2014]

3 Características de la web

Si analizamos la historia reciente de la humanidad, en 1995 la cantidad de personas en el mundo que tenían acceso a Internet era prácticamente inexistente, pero en estos últimos 10 años la situación ha dado un giro debido a una eclosión de la red y un aumento exponencial de usuarios con nuevas necesidades. Según los datos en diciembre de 2010 el 30% de la población mundial, aproximadamente 2.000 millones de personas, tiene un acceso a Internet y, las proyecciones indican que este ascenso trepidante se disparará en muy pocos años debido a la irrupción de la Internet móvil y los Smartphones (actualmente se estima una cantidad de 1.038 millones de Smartphone con acceso a Internet en el mundo). Así, la cantidad de información publicada, visualizada o subida por los internautas en las aplicaciones más populares de la actualidad alcanza cifras simplemente impresionantes. Es más, se prevé que en los próximos años las cantidades actuales de información que estamos utilizando serán ridículas como podemos observar en la Figura 1 . En la primera parte del gráfico se puede ver un circulo donde compara la cantidad de información creada en el 2005 con la información que se prevé crear en 2020. El segundo gráfico nos muestra una evolución de la cantidad global de información y también la capacidad existente de almacenamiento disponible a nivel mundial.

Aunque la web sigue siendo un trabajo en progreso, las investigaciones más actuales están analizando las tendencias que caracterizan su evolución. A pesar de su relativa juventud, la Web que ha sido sumergida en predicciones sobre la dirección de su desarrollo futuro, así como el papel como medio de comunicación para obtener información en formato digital. A la luz de la persistente incertidumbre que asiste a la maduración de la Web, es útil examinar algunas de las principales tendencias actuales, tanto para marcar el estado actual de evolución de la Web como para informar a nuevas predicciones sobre su evolución.

El artículo de Trends in the Evolution of the Public Web enlace examina tres tendencias clave en el desarrollo de la Web pública que son :

Tamaño y el crecimiento
Internacionalización
Utilización de metadatos

3.1 Tamaño y crecimiento

El número de sitios web asciende en la actualidad a más de 1.000 millones y sigue aumentando a ritmo acelerado, según datos difundidos en tiempo real por el sitio Internet Live Stats.

Ahora bien, si analizamos su eficiencia no podremos afirmar que el valor de la información almacenada en ellos no crece tan velozmente. Shapiro y Varían han estimado recientemente que el texto HTML estático en la Web fue equivalente a cerca de 1.5 millones de libros. Compararon esta cifra con el número de volúmenes en la Universidad de California en Berkeley Library (8 millones), y, teniendo en cuenta que sólo una fracción de la Web de la información puede ser considerado “útil”, concluyó que “la Web no es tan impresionante como una fuente de información”.

Sin embargo, la evaluación de Shapiro no es capaz de analizar otras fuentes de información más dinámicas (como los vídeos) que pueden suponer excelentes fuentes de información. La web incluye recursos digitales de muchas variedades más allá de texto plano, a menudo se combinan y recombinan en los medios de información compleja de múltiples objetos que no son reconocidos en el estudio anterior.

Por otra parte, muchos analistas Web ahora reconocen la distinción entre la “superficie Web” y la “Web profunda". Si bien esta terminología sufre de diferentes tonos de significado en contextos diferente los podemos definir como:

Superficie Web: Porción de la Web que es accesible a través de las tecnologías tradicionales de rastreo basado en enlace a enlace transversal de contenidos Web.
Web profunda: Consiste en la información que es inaccesible para los rastreadores web basado en el enlace como:

páginas dinámicamente generadas
páginas particulares creadas en respuesta a una interacción entre el sitio y el usuario. Aunque una estimación fidedigna del tamaño de la Web profunda no está disponible, se cree que es grande y creciente.

La conclusión que podemos obtener de todos los estudios relacionados con la evolución del Web es que, aunque su tamaño es equivalente, o incluso supera, las colecciones de la biblioteca más grande, probablemente la cantidad de información seria bastante inferior. Estos mismos estudios también afirman que el crecimiento de Internet esta evolucionando exponencialmente y por lo tanto esta diferencia esta disminuyendo.

3.2 Distribución internacional y lenguaje.

Como su nombre indica, la World Wide Web es un recurso global de la información en el sentido de que cualquier persona, sin importar el país o idioma, es libre de hacer la información disponible en este espacio. Lo ideal sería, entonces, que el contenido de la Web se debe reflejar a la comunidad internacional en general, provenientes de fuentes en todo el mundo, y se expresa en una amplia gama de idiomas.

La realidad es un poco diversa. En este momento la gran mayoría de los sites están escritos en ingles y pertenecen a entidades, personas o organizaciones situadas en EE. UU. Esta tendencia esta cambiando a medida que expande el uso de Internet en nuevos países como China o la India. Actualemnte hay más usuario en China conectados que en EE. UU. o Europa y solamente están conectados el 47(% de la población. https://es.wikipedia.org/wiki/Anexo:Países_por_número_de_usuarios_de_Internet)

3.3 Uso de metadatos

Cuando almacenamos grandes cantidades de información en un espacio, esta tiene que estar organizada e indexada para facilitar la búsqueda y recuperación. En cambio, la Web en su principio no se ideo ningún tipo de estructura que permitiera esta organización. La búsqueda se hace usando “fuerza bruta” de métodos como el motor de búsqueda Google que emplea algoritmos relativamente sofisticados que clasificar los resultados de búsqueda basados en los patrones de vinculación y la popularidad.

Los bibliotecarios, que se enfrentan a estos problemas habitualmente, logran establecer una organización a través de la cuidadosa preparación y mantenimiento de los datos bibliográficos, es decir, la información descriptiva sobre los recursos en sus colecciones. De manera más general, esta información descriptiva se llama metadatos, o “datos sobre datos”. Imitando esta filosofía se ha generado un movimiento generado a potenciar el uso de metadatos en la Web, sobre todo a través de la Iniciativa de Metadatos Dublín Core ( https://es.wikipedia.org/wiki/Dublin_Core)

Los Metadatos para los recursos Web se implementan normalmente con la etiqueta META, que puede ser utilizado por los creadores para integrar una cantidad de información que se considere relevante para describir el recurso. La etiqueta META consiste en dos componentes principales:

NOMBRE, que identifica una pieza particular de metadatos (palabras clave, autor, etc).
CONTENIDO, lo que crea una instancia, o proporciona un valor para el elemento de metadatos identificados en el atributo NAME.

Utilizando los datos de las cinco encuestas web, fue posible examinar las tendencias en aumento en el uso de metadatos en la Web pública en los últimos cinco años. El objetivo del análisis era simplemente para detectar la presencia de cualquier forma de metadatos, en ejecución usando la etiqueta META, en los sitios web públicos. Respecto a los motivos de estos aumentos pueden ser a varios factores pero el principal es la llegada de los editores más sofisticados de HTML, algunas etiquetas META se crean y se rellenan de forma automática como parte de la plantilla de documento.

Una segunda característica de interés sobre el uso de metadatos en la Web es que, al parecer, no está cada vez más detallado. Si se asume que una etiqueta META es equivalente a un elemento de metadatos, o un pedazo de información descriptiva sobre el recurso Web, entonces es claro que, en promedio, las páginas Web que incluyen metadatos contienen alrededor de dos o tres elementos.

Uno de los aspectos desalentadores de las tendencias de uso de metadatos en la Web pública en los últimos cinco años es la aparente renuncia de los creadores de contenido para adoptar esquemas de metadatos formales que para describir los documentos. Por ejemplo, los metadatos Dublin Core aparecieron en sólo el 0,5 por ciento del público principal del sitio las páginas web en 1998, esa cifra aumentó casi imperceptiblemente al 0,7 por ciento en 2002. La gran mayoría de los metadatos suministrados en la Web pública es ad hoc en su creación, no estructurado por cualquier esquema de metadatos formales.

4 Ley de Zipf, “power laws” en la web

La ley de Zipf, llamada así por el profesor de lingüística de la Universidad de Harvard George Kingsley Zipf (1902-1950), es una curiosidad matemática que explica algunas de las dificultades que aparecen en las bibliotecas digitales.

Supongamos que hacemos una clasificación de las palabras que aparecen en la biblioteca, asignándole el número uno a la palabra más frecuente, el dos a la segunda más frecuente, etc. Por ejemplo, en la biblioteca Miguel de Cervantes, las 10 palabras mas frecuentes y sus frecuencias de aparición f(n) son las siguientes:

n	palabra	f(n)
1	de	5952871
2	que	4294496
3	y	3887331
4	la	3473934
5	en	2521954
6	el	2463429
7	a	2348470
8	los	1689770
9	se	1305932
10	no	1261456

La ley Zipf establece que el número de apariciones de una palabra es inversamente proporcional a su número de orden: donde C es una constante que se fija experimentalmente. Por ejemplo en la biblioteca Miguel de Cervantes se fijo en 10 millones obteniendo las siguientes aproximaciones:

n	palabra	f(n)	C/n
10	no	1261456	1000000
100	día	93619	100000
1000	pena	9837	10000
1000	francamente	841	100

Pese a tratarse de un resultado aproximado, una de las virtudes de la ley de Zipf es que explica lo difícil que es construir buenos diccionarios por dos motivos

Sea cual sea el tamaño de la biblioteca, la adición de nuevos documentos añade algunas palabras nuevas
Un razonamiento matemático simple nos dice que la biblioteca contiene del orden de C palabras distintas y que el número de palabras con frecuencia f es aproximadamente:

Por tanto, si construimos un diccionario que contiene todas las palabras de la biblioteca (esto es, con C entradas), aproximadamente la mitad de las palabras del diccionario (C/2) aparecen sólo una vez en la biblioteca: este es, en efecto, el resultado si hacemos f = 1 en la fórmula anterior.

5 Tamaño y tendencia de crecimiento de la web

El tamaño de la web la convierte en una fuente de información extremadamente importante, diversificada y en continua expansión. Aunque no puede decirse que toda la información contenida puede ser considerada como útil. En la figura 2 observamos como el crecimiento es continuo y avanza a medida que las tecnologías se hacen más accesibles hasta el 2003 donde se genera un estancamiento debido a que posiblemente aquellos que desean establecer una presencia en la Web probablemente ya lo han hecho.

Ilustración de Internet y buscadores — 2 Gráfico que nos muestra una estimación de la cantidad de web global.[http://fundacionorange.es/]

6 Web pública y web oculta

6.1 Definición de los Términos

La Web publica se utiliza para definir el espacio Web que puede ser alcanzado por un buscador generalista. Es decir, desde html estáticos hasta imágenes, vídeo, audio, archivos pdf, archivos comprimidos o ejecutables.

En otro sentido, la Web oculta ocupa todos aquellos datos que existen en la web pero quedan fuera de los buscadores tradicionales, ya sean estos generalistas o especializados. Entre los tipos de datos contenidos tenemos:

Información contenida en enormes bases de datos numéricas o textuales, exige gastar muchos recursos y resulta muy costoso para los buscadores almacenar en sus bases de datos este tipo de formatos:
Aquellos datos que se generen de forma dinámica en tiempo real ( páginas construidas con tecnologías Flash, ASP, etc.).
Bases de datos dinámicas
Bases de datos con contraseñas o autentificación.
Páginas sin conexión.
Material de archivo
Herramientas interactivas tales como diccionarios o calculadoras

6.2 Dimensiones

Según el estudio How much Information? 2003, realizado por Peter Lyman y Hal R. Varian de la School of Information Management and Systems de la Universidad de California, Berkeley, la cantidad de información de la Web navegable o visible es de 147 terabytes, mientras que la Web invisible es de 91.850 terabytes.

7 Idiomas en la web

Idealmente, el contenido de la Web debería reflejar toda la comunidad internacional, originándose de fuentes de todo el mundo y expresadas en un amplio rango de lenguas. La realidad es que, los principales responsables de este esfuerzo de crecimiento de Internet son Estados unidos, Alemania, China, Corea del Sur y Japón, estando la inmensa mayoría de esto sitios en inglés.

Aunque la supremacía del inglés en Internet es abrumadora, nos encontramos ante un medio que, casi por definición, ha de ser también multilingüe, y es muy común encontrarse con botones o marcas que nos permiten elegir el idioma en el queremos leer un texto. Casi la totalidad de los buscadores ofrece la opción de traducir la página que estamos viendo en el idioma que uno desea y afortunadamente existen potenes traductores gratuitos que pueden ser usados desde la red ( https://translate.google.es/?hl=ca).

¿Cuáles son los idiomas mas utilizados en Internet?Basándome en datos publicados por W3Techs ( https://w3techs.com/technologies/overview/content_language ), que es una plataforma dedicada a informar diariamente sobre la utilización de Internet en el mundo, brindando datos y estadísticas por países y regiones. Según los datos relevados a nivel mundial, el 36% de los internautas proviene de Asia (con 418 millones de usuarios), el 28% de Europa (con 322 millones de usuarios), el 20% de Norteamérica (con 233 millones de usuarios) y el 9% de Latinoamérica (con 110 millones de usuarios). El 7% restante se reparte entre Oceanía, Medio Oriente y África.

Los idiomas mencionados en la lista representan el 80 % de los idiomas de la red, ya que el 20 % (alrededor de unos 200 millones) utilizan otros idiomas no mencionados.

En cuanto al idioma Español es notable el crecimiento que el mercado hispano tuvo dentro de la Web. Se estima que solo el 25% de los hispanoparlantes tiene acceso a Internet y se cree que este número irá en ascenso.

Estos datos son sumamente interesantes para los Webmasters (creadores de páginas web) ya que sabrán a quiénes y en qué idioma orientar sus contenidos para llegar a un número mayor de personas. Los datos fueron publicados a finales de marzo de 2007. A continuación detallo una lista de los 10 idiomas que son mas utilizados en Internet detallando la cantidad de internautas que habla cada lengua.

Inglés 329 millones de usuarios.
Chino 159 millones de usuarios.
Español 89 millones de usuarios.
Japonés 86 millones de usuarios.
Alemán 59 millones de usuarios.
Francés 56 millones de usuarios.
Portugués 40 millones de usuarios.
Coreano 34 millones de usuarios.
Italiano 31 millones de usuarios.
Árabe 28 millones de usuarios.

8 Dominios en la web

Los nombres de dominio son la traducción para las personas de las direcciones IP, las cuales son útiles sólo para los ordenadores.

Así, por ejemplo, www.youtube.com es un nombre de dominio con ip 216.58.211.206 . Como se puede ver, los nombres de dominio son palabras separadas por puntos, en vez de números en el caso de las direcciones IP. Estas palabras pueden darnos idea del ordenador al que nos estamos refiriendo. Si se sabe un poco más sobre nombres de dominio, con sólo ver https://www.hacienda.gob.es/es-ES/Paginas/Home.aspx podremos concluir que es “Un site que pertenece al gobierno de España" por la terminación .gov (utilizada por los gobiernos) y además la terminación .es de España. Los dominios existentes son:

com: Empresas
edu: Instituciones de carácter educativo, mayormente universidades
org: Organizaciones no gubernamentales
gov: Entidades del gobierno
mil: Instalaciones militares
info: Organizaciones que ofrecen información
tv: Cadenas de televisión
es: España
fr: Francia
uk: Reino unido
it: Italia
jp: Japón

9 Estudios sobre la web española

Las principales conclusiones que se desprenden del estudio de la web española realizado son que:

Una gran cantidad de sitios no utilizan el dominio de primer nombre correspondiente al país .es, prefiriendo .com o .org (github.com, marca.com, as.com, etc)
Diversidad de la información. Existe una gran cantidad de información generada por Universidades y investigación, periódicos, páginas de ocio, etc.
Las propiedades estadísticas de la muestra son muy similares a las de otras muestras, con lo que se indica que la muestra puede ser usada para estudios que sean al menos parcialmente extrapolabas a la red global.
Un 1 % de las páginas de la web son enlaces a ficheros que no son HTML. Si bien parece un número pequeño, son unos 200000 documentos. Los formatos de texto plano y pdf son los más usados
La proporción de sitios que sólo constan de una página, sin ningún enlace, es cercana al 30 %

10 Áreas de investigación relacionadas

La dinámica de la web está directamente relacionada con las siguientes áreas de investigación, que ya hemos tratado a lo largo de todo el curso en los distintos trabajos realizados:

Minería de datos: Se puede decir que la minería de datos (DM. Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos. Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable. implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos. Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.
Teoría de grafos: En matemáticas y en ciencias de la computación, la teoría de grafos (también llamada teoría de las gráficas) estudia las propiedades de los grafos (también llamadas gráficas). Un grafo es un conjunto, no vacío, de objetos llamados vértices (o nodos) y una selección de pares de vértices, llamados aristas (edges en inglés) que pueden ser orientados o no. Típicamente, un grafo se representa mediante una serie de puntos (los vértices) conectados por líneas (las aristas).
Recuperación de la información: La Búsqueda y Recuperación de Información ( llamada en inglés Information Search and Retrieval) es la ciencia que se encarga de la búsqueda de información en

documentos electrónicos
colecciones documental digital
bases de datos relaciónales

11 Conferencias internacionales

Algunas de las conferencias internacionales que abordan el tema de la búsqueda web, indexación y métodos de indexación son las siguientes:

International World Wide Web Conference(IW3C2).
International journal of Computer Networks & Communications (IJCNC)
International Conference on Internet and Web Engineering
Interlink Web Design Conference
International Conference on Web Intelligence, Mining and Semantics
International Conference on Web-based Learning (ICWL 2010)
International Conference on Machine Learning (ICML97)