Google indexa con tecnología OCR (Reconocedor de Caracteres Ópticos) contenidos de documentos PDF de textos escaneados.
La mayoría de los documentos con textos en formato PDF que hay en la WWW son generados a partir editores de texto, con lo que cualquiera (un usuario con un programa como 'Adobe Reader' o Evince, o el propio robot de Google) puede extraer de manera muy fácil los contenidos.
Pero un porcentaje de estos ficheros PDF son imágenes escaneadas de otros documentos, con lo que ya no podemos extraer el texto con nuestro lector PDF. Pero el robot de Google, gracias a su tecnología OCR propia (Reconocedor de Caracteres Ópticos) , ya es capaz de convertir estas imágenes en textos, e indexarlos para incorporarlos al buscador web.
|