(Libertad Digital) La pelea comenzó el 8 de agosto cuando Tim Mayer, jefe de Yahoo Search, anunció en el blog de la compañía que tras la última actualización de sus bases de datos, su empresa tenía indexados 19.200 millones de páginas web, 1.600 millones de imágenes y cerca de 50 millones de ficheros de audio y video. Google, que anuncia en su portada que dispone de algo más de 8.000 millones de páginas, puso en duda las cifras dadas por Tim Mayer, alegando que no había notado recientemente diferencias significativas realizando diversas búsquedas de prueba en el buscador de Yahoo.
La disputa podría haber sido zanjada por un estudio independiente. Según informa InternetNews, Matthew Cheney and Mike Perry, dos investigadores del NCSA (el instituto de investigación donde nació el navegador web Mosaic), han puesto en duda las afirmaciones de Tim Mayer. Utilizando palabras inglesas en grupos de dos, estuvieron generando 10.000 búsquedas automáticas durante 18 horas en ambos buscadores. El estudio concluye que los resultados del buscador Yahoo son sólo un 37,4 por ciento los obtenidos por Google.
Jeremy Zawodny, responsable de Yahoo Search, ha respondido en su blog a los investigadores, asegurando que no se trata de un estudio científico serio y que que ha recibido más atención de la que merece por el hecho de aparecer en Slashdot. Zawodny asume que sus búsquedas son representativas pese a no haber dado ninguna razón al respecto. Cuando se trata de explicarse porqué los resultados que ofrece Google son mayores en número, Zawodny observa que son páginas inútiles que no tienen más que una lista interminable de palabras. Asegura que Yahoo también indexa esas páginas, pero las filtra para no ofrecer resultados pobres a los usuarios.
Danny Sullivan, editor de SearchEngineWatch, ha recordado que no hay forma de verificar ni las cifras de Yahoo ni las de Google, además de que ninguna de ellas es indicativa de la calidad de los resultados del buscador. Por ejemplo, los datos brutos no expresan la calidad de cada buscador para encontrar la aguja deseada en pajares tan inmensos. Los datos totales tampoco indican cuántos de los documentos encontrados están duplicados, o si los documentos sólo están indexados en parte y no enteros.
En consecuencia, Danny Sullivan ha reclamado a los principales actores de este mercado la creación y financiación de un instituto independiente que diseñe una forma estándar de medir la relevancia en los resultados de búsqueda.