Home / Ultimas Noticias
Archivo Noticias de la Ciencia y la
Tecnología.
Archivo Noticias del Espacio
Contacto
Suscripciones (público/email)
Boletín Noticias de la Ciencia y la
Tecnología
Boletín Noticias del Espacio
Boletín Noticias de la Ciencia y la
Tecnología Plus
Suscripciones (servicios a
medios)
Reproducción de contenidos en medios
comerciales
|
Recuerda:
suscríbete a nuestros boletines gratuitos y recibe cómoda y
semanalmente las noticias en tu dirección electrónica.
Biométrica
Arabe Digital
14 de
Enero de 2005.
El
árabe es una lengua que está recibiendo cada vez más atención por parte
del público y los estamentos gubernamentales. Su conocimiento tiene
implicaciones de seguridad nacional en algunos países, o de mera mejora
en la convivencia social entre sectores humanos. Un obstáculo para el
avance en este estudio es la falta de herramientas digitales que
permitan acceder a documentos en árabe en Internet. Expertos de la
University at Buffalo están intentando remediar esta situación.
Los científicos informáticos del Center for Unified Biometrics and
Sensors están desarrollando el primer programa de reconocimiento óptico
de caracteres para documentos escritos a mano o a máquina en árabe.
Gracias a este “soft”, será posible escanear digitalmente documentos en
esta lengua y buscar información específica, ya sea datos de
inteligencia o para otras aplicaciones, explica Venu Govindaraju,
principal investigador del proyecto.
El árabe tiene 235 millones de hablantes en el mundo, siendo el cuarto
más utilizado. Para los musulmanes es el lenguaje en el que están
escritos sus textos religiosos.
Si actualmente tuviéramos miles de documentos en árabe y quisiéramos
escanearlos en busca de palabras clave específicas para reducir su
número antes de su revisión manual, no podríamos hacerlo. El nuevo
software OCR ampliará el número de recursos y documentos escritos
accesibles, ayudando a recortar la separación digital existente entre
aquellos que hablan inglés y los que no, como puede verse en Internet.
Si no se desarrollan OCRs para lenguajes particulares, existe el temor
de que ciertos textos clásicos sean literalmente olvidados con el paso
del tiempo. La automatización de la interpretación del árabe escrito
tendrá muchos beneficios y diversas aplicaciones.
Pero el árabe es un lenguaje escrito difícil para la ciencia
informática. Los caracteres pueden tener diferentes formas si aparecen
al principio, en el medio o al final de una palabra. Además, la
separación entre palabras no queda siempre bien marcada, y las vocales
árabes se pronuncian pero a menudo no se escriben.
Un programa OCR entrena literalmente al ordenador a interpretar
correctamente las imágenes de un alfabeto en particular, basándose en
datos verificados previamente por humanos. Govindaraju ya había
participado en el desarrollo de un OCR capaz de interpretar direcciones
postales escritas a mano y en inglés, un avance que ayudó a otros
estudios de reconocimiento de escritura manual, un campo muy utilizado
hoy en día, por ejemplo en los asistentes digitales personales.
Información adicional en:
|