COMUNICADO: ArchivistaBox 2008/IX: el primer reconocimiento de texto de código abierto con archivos PDF para búsqueda

Actualizado: domingo, 21 septiembre 2008 14:22

PFAFFHAUSEN, Suiza, September 21 /PRNewswire/ -- Con el lanzamiento de su ArchivistaBox 2008/IX, Archivista, una compañía suiza de software de código abierto, ha publicado el único software de reconocimiento de texto de código abierto mundial que crea archivos PDF con opción de búsqueda.

La mayoría del reconocimiento de texto actual o programas OCR (reconocimiento de caracteres ópticos) opera sólo en sistemas Windows y puede adquirirse a precios de unos 100 euros en adelante. Sin embargo, cuando tienen que procesarse miles o millones de páginas, se requieren costosas licencias por volumen que se basan en el precio por página escaneada.

ArchivistaBox es un sistema de gestión de documentos (DMS) web, que puede instalarse en cada equipo disponible comercialmente. Según el hardware utilizado, el volumen de páginas procesado puede variar entre varios miles a varios millones de páginas al día.

El lanzamiento de 2008/IX marca el lanzamiento del primer sistema de reconocimiento de texto de código abierto que es capaz de generar archivos PDF procedentes de páginas escaneadas con opción de búsqueda. Más de 20 idiomas están disponibles y la calidad de reconocimiento es comparable con la de los sistemas comerciales (>99 por ciento).

Los archivos PDF generados con ArchivistaBox se almacenan en una base de datos de Archivista y se indexan automáticamente, permitiendo la consulta de todo el documento completo. Los documentos escaneados pueden recuperarse con un navegador web en cualquier momento. Los datos sensibles pueden encriptarse antes de estar disponibles. Si es necesario, ArchivistaBox puede crear publicaciones en DVD completas.

El 100 % del código fuente utilizado en ArchivistaBox viene dentro de la licencia GPLv2. Los motores OCR de Tesseract (incluyendo reconocimiento de fractura/letra negra) y el puerto Linux de Cuneiform (licencia BSD) se utilizan para el reconocimiento de texto. El módulo hocr2pdf (consulta http://www.exactcode.de) se utiliza para generar archivos PDF con opciones de búsqueda.

ArchivistaBox 2008/IX CD (700 MByte) puede descargarse desde

https://sourceforge.net/projects/archivista/ o http://www.archivista.ch.

    
    Contacto de prensa:
    Urs Pfister,
    Archivista GmbH,
    Tel: +41-44-254-54-00,
    E-Mail: webmaster@archivista.ch

Contacto de prensa: Urs Pfister, Archivista GmbH, Tel: +41-44-254-54-00, E-Mail: webmaster@archivista.ch