La Inteligencia Ambiental es una visión de un mundo en el que será posible acceder a cualquier fuente de información, desde cualquier lugar, en cualquier idioma, en cualquier instante de tiempo y por cualquier persona de forma adaptada a las condiciones, en su sentido más amplio, en que se encuentra esa persona. Asimismo, las personas podrán transmitir su propia información a los sistemas en las mismas condiciones. Este mundo puede concebirse como una gigantesca red distribuida formada por miles de sistemas embebidos interconectados, que rodea al usuario y que, con la colaboración de Sistemas de Información (conocimiento) complementarios, satisface sus necesidades de información, comunicación, navegación, y entretenimiento.
Bajo este concepto, se agrupan todas aquellas actividades de investigación y desarrollo destinadas a garantizar la interacción oral en euskara.
Sistemas avanzados de síntesis de voz
El objetivo final de los sistemas avanzados de síntesis de voz es obtener voces naturales capaces de expresar cualquier estilo, humor, acento u otra característica de las personas. Ejemplos de escenarios en los que se utilizan estas aplicaciones son la creación de caracteres virtuales que se expresan con un determinado acento o que hablan con una emoción concreta, la creación de una única voz corporativa capaz de hablar en muchos idiomas diferentes y la traducción voz-voz, donde la voz sintética traducida podría reproducir las características del hablante original. Otro aspecto importante a considerar es la lengua utilizada en el proceso de comunicación. Cada vez es más necesario el acceso multilingüe a distintos dispositivos y sistemas. Esto es especialmente relevante en áreas geográficas en donde hay más de una lengua oficial. Para conseguir estos objetivos, se desarrollarán nuevas técnicas para la generación de prosodia y la producción de voz en un entorno multilingüe.
Reconocimiento de voz
Los sistemas de reconocimiento de voz tratan de identificar los fonemas emitidos por el hablante. El conjunto de los fonemas identificados permitirá reconocer las palabras.
Sin embargo, la identificación de los fonemas es un proceso sumamente complicado, cuyos mecanismos no han sido claramente identificados. Por ello, se han creado una serie de técnicas, basadas en redes neuronales, en la percepción auditiva o en patrones, que permiten, de alguna forma, aprender a percibir y catalogar la voz.
Identificación biométrica mediante voz
En los últimos tiempos, ha crecido enormemente la popularidad de muchos sistemas que utilizan transacciones a larga distancia como la compra a través de Internet, las transacciones bancarias basadas en Web o el acceso restringido a áreas seguras de ordenadores remotos. Todos estos sistemas necesitan un sistema de autentificación que asegure la identidad del usuario. Muchos utilizan una autentificación basada en contraseñas, que pueden ser olvidadas o robadas. Actualmente, la mejor alternativa es la autentificación biométrica, ya que las características biométricas no pueden ser olvidadas ni robadas y son muy difíciles de imitar. La voz puede llegar a ser una de las características biométricas más utilizadas, ya que no es intrusiva. Además, la voz puede ser codificada y transmitida fácilmente a través de diferentes redes de comunicación.
En el contexto definido por los objetivos de ANHITZ, la investigación en el ámbito de las interfaces basadas en texto se centra en el desarrollo de sistemas inteligentes capaces de interpretar el significado de los contenidos en euskara y en sistemas de traducción automática entre idiomas.
Las aplicaciones de Tecnología Lingüística existentes hoy en día se clasifican de la siguiente manera:
Las interfaces de usuario son un bloque fundamental en la visión de Inteligencia Ambiental, ya que determinan la experiencia que va a tener la persona en relación con el entorno que le rodea.
Por otro lado, para que la interfaz también pueda comunicarse con el usuario a través de voz y gestos será necesario integrar en el sistema componentes capaces de simular este comportamiento humano, como son los asistentes virtuales antropomorfos, o avatares, y un sistema de síntesis de voz en euskara.
El diseño y desarrollo de una avatar tridimensional con capacidad de habla en euskara y capaz de reproducir gestos corporales en dispositivos de distintos tamaños y capacidades implica un importante estudio en las actuales técnicas de animación facial y corporal. Además, la animación de labios sincronizada con el sistema de síntesis de voz en euskara mejora en gran medida las interfaces de usuario que existen actualmente para esta lengua.
Las componentes de un sistema de lenguaje pueden estar embebidas en un gran número de las llamadas aplicaciones de conocimiento, es decir, productos y servicios que procesan la información utilizando algún tipo de inteligencia lingüística.
En la actualidad, existen diferentes sistemas que permiten una interacción bastante natural en lenguaje natural entre una persona y un dispositivo.
Interacción por medio de voz e imagen
Cada vez es más habitual encontrar programas que son capaces de comprender palabras o de generarlas.
La entrada mediante lenguaje oral a los ordenadores incluye diferentes tecnologías y aplicaciones como puede verse en la figura siguiente.
Interacción por medio de texto
La página de Computational Linguistics On-line demos (www.ifi.unizh.ch/CL/InteractiveCLtools/index.php) recoge 13 demos de aplicaciones en las que el usuario se comunica con un programa escribiendo de forma libre en inglés:
Hay que señalar especialmente el buscador de Internet ASKJeeves que incluso tiene una versión beta para español, y el sistema START (start.csail.mit.edu) que responde a millones de posibles preguntas en inglés sobre geografía, películas, arte, historia, personas, definiciones de diccionarios y muchos temas más. También cabe mencionar que el propio asistente de MSWord intenta entender las preguntas hechas por el usuario en lenguaje natural.
Tradicionalmente, la información requerida en los sistemas basados en el conocimiento se ha adquirido y gestionado manualmente en colaboración con expertos del área tratada con el alto coste que ello supone. En este contexto, durante la última década, se ha evidenciado la necesidad de automatizar estos procesos de la forma más rápida y precisa posible.
Extracción de información
A principios de los años 80, se comenzaron a utilizar los sistemas inteligentes basados en texto con el fin de obtener automáticamente la información deseada manipulando documentos. Estos documentos suelen ser bastante estructurados cuando se producen para un uso automatizado, por lo que el proceso de extracción de información a partir de ellos es bastante directo. Sin embargo, muchas otras veces los documentos han sido producidos para uso de las personas y no suelen tener una estructura explícita, sino que consisten en lenguaje natural no restringido, con lo que el proceso de extracción de información implica gran cantidad de conocimiento lingüístico. En contraste con las tareas de recuperación de información (RI), donde se recupera una lista de documentos potencialmente relevantes [Bae99], el contenido relevante de estos documentos ha de ser localizado y extraído del texto a partir de una consulta (tradicionalmente una lista de palabras clave).
Recuperación de la Información (RI) y Búsqueda de Respuestas (BR)
El ámbito de la Recuperación de la Información (RI, Information Retrieval, IR) aborda la tarea de procesar consultas y devolver documentos relevantes para dicha consulta (Baeza-Yates, Ribeiro-Neto, 1999). Hoy día, los motores de búsqueda son capaces de devolver eficientemente listas ordenadas de documentos.
En este contexto, ha suscitado notable interés la posibilidad de devolver, no ya documentos, sino respuestas concisas y precisas. Los sistemas de Búsqueda de Respuestas (BR, Question Answering, QA) plantean como objetivo la recuperación de información frente a la recuperación de documentos. Dichos sistemas tratan de localizar e identificar las respuestas a una pregunta (formulada en lenguaje natural), bien sea en la Web o en una colección local de documentos.
Extracción de información multilingüe y búsqueda de respuestas multilingüe
Los sistemas de EI MultiLingüe (Cross Lingual Information Retrieval, CLIR) y BR MultiLingüe (Cross Lingual Question Answering CLQA) tratan de recuperar información aunque las preguntas (o consultas) se formulen en un idioma y las respuestas se localicen en documentos escritos en otro idioma distinto.
Tecnologías de Web Semántica aplicadas a la recuperación y gestión de la información
Los avances tecnológicos y socio-económicos de los últimos años se han llevado a cabo dentro de un contexto en el que la gestión y el acceso a la información es un factor de éxito fundamental. Las tecnologías emergentes de Web Semántica (lenguajes y herramientas para la edición de Ontologías, motores de inferencia, servicios web semántica...) están aportando nuevas soluciones que faciliten la interoperabilidad inteligente entre dispositivos y permita mecanismos de interacción y de búsqueda con el usuario más avanzados que los sistemas tradicionales en los que el significado no es tenido en cuenta. Las bases de la Web Semántica son un formato de representación de la información (XML generalmente), un formato para el conocimiento (RDF, OWL), y un mecanismo de identificación y localización de entidades denominados URI.
La mayoría de los sistemas de traducción se han creado en Estados Unidos y Japón, pero en Europa también hay productos muy conocidos: Comprendium y T1 (Sail Labs), Personal Translator PT (Linguatec), iTranslator series (al principio Lernout & Hauspie, luego Mendez), Reverso (Softissimo). Para lenguas no tan grandes también se han desarrollado sistemas: PeTra (italiano e inglés), Al-Nakil (árabe, francés e inglés), Winger (danés, francés y español con inglés), PARS (ruso y ucraniano con inglés), o TranSmart (finlandés-inglés).
Sistemas de Traducción Automática en código abierto
Casi todo el software para traducción automática de nuestra "vida real", aunque esté disponible para usarlo sin coste alguno, es de código cerrado, no de código abierto. Se han realizado diferentes intentos para implementar sistemas de traducción automática de código abierto como GPLTrans (www.translator.cx), Traduki (traduki.sourceforge.net), OTELO (www.otelo.lu), Linguaphile (linguaphile.sourceforge.net) y más recientemente, la versión de código abierto de LOGOS, llamada OpenLogos, y OPENTRAD (www.opentrad.com) la cual inspira nuestro proyecto OpenMT.
Sistemas Híbridos de Traducción Automática
Tradicionalmente, los sistemas de traducción automática basados en reglas (RBMT) funcionan aplicando un conjunto de reglas lingüísticas en tres fases: análisis, transferencia y generación. Desde el final de los 80 existe mucho interés en explorar nuevas técnicas basadas en corpus: análisis estadístico de textos (alineamiento, etc.), EBMT, SMT y, hoy en día, en la investigación orientada hacia sistemas híbridos que combinan las reglas lingüísticas y los métodos basados en corpus.
EBMT y SMT son los modelos principales dentro de la traducción automática basada en corpus. Ambos necesitan un conjunto de oraciones alineadas con sus traducciones en otra lengua.
Memorias de Traducción
Las memorias de traducción tienen la posibilidad de guardar textos traducidos en una base de datos. Cuando se inicia una nueva traducción, el sistema busca rápidamente en la memoria. El sistema (si la búsqueda ha sido positiva) propone los fragmentos de texto encontrados, y seguidamente el traductor elige o retoca la traducción. En las memorias de traducción, es fundamental la gestión de corpus alineados, a los que se les da el nombre de bitextos.
Integración del reconocimiento de voz en los sistemas de traducción
En este ámbito, hay que mencionar dos proyectos importantes: C-STAR y Verbmobil. El centro de investigación japonés ATR, la universidad Carnegie-Mellon de los Estados Unidos y la universidad Karlsruhe de Alemania trabajan conjuntamente (dentro del consorcio C-STAR) para desarrollar un sistema de traducción vía telefónica para el inglés, el japonés y el alemán.




