Loquendo+-+Sintetizador+de+voz.


 * Introducción.**
 * 2 ¿Cómo surgió? Origen y desarrollo.**
 * 3 Aspectos técnicos.**
 * 3.1 Sintetizador de voz. **
 * 3.1.1 ¿Qué es la síntesis? **
 * 3.1.1.1 Tipos de sintetizadores. **
 * 3.1.1.2 Síntesis de sonido. **
 * 3.2 Reconocimiento de voz. **
 * 3.2.1 Descripción. **
 * 3.2.1.1 Áreas de estudio. **
 * 3.2.1.2 Reconocimiento de voz. **
 * 4 Productos ofertados. **
 * 5 Posibles aplicaciones. **
 * 5.1 Ayudas discapacitados. **
 * 5.2 Empresas. **
 * 6 Un pequeño y simple ejemplo. **
 * 7 Bibliografía. **


 * 1 Introducción**

Loquendo es un sintetizador de voz. Existe la posibilidad de utilizar múltiples voz como por ejemplo:
 * Jorge.
 * Carmen.
 * Leonor.
 * Carlos.
 * Sonia.
 * Diego.

De los cuales Jorge y Carlos son las voces más utilizadas en castellano. Jorque es más conocido en España y Carlos más conocido en América del Sur. Cada una es diferente y tienen una característica particular. Con las voces Loquendo se pueden:
 * realizar magníficas presentaciones,
 * editar vídeos para subirlos a Internet,
 * leer noticias,
 * programar el teléfono móvil para que pueda realizar operaciones a través de órdenes de voz

Para utilizarlo, simplemente lo que se necesita es comprar la voz pertinente y un editor como Text Aloud o Loquendo para empezar a trabajar con las voces. Figura 1: Text Aloud y Loquendo.

En YouTube se ha popularizado mucho y con mucha velocidad el uso de Loquendo para hace distintos vídeos como: con las voces de Loquendo u otras compañías como por ejemplo AT&T — una compañía estadounidense de telecomunicaciones que provee de servicios de voz, vídeo, datos, e Internet a negocios, clientes y agencias del gobierno. AT&T ha sido, en ocasiones, la compañía telefónica más grande del mundo, el operador de televisión por cable más grande de los Estados Unidos, y hasta fue clasificado como un monopolio—.
 * críticas,
 * tutoriales,
 * bromas telefónicas,
 * chistes,



Figura 2: Rótulo de la compañía at&t.



Figura 3: Ejemplos de videos en YouTube.

La voz de Jorge es la más popular de todas las que hay. Existen también muchos tipos de entonaciones que se le pueden dar a las distintas voces como por ejemplo:
 * Enfado.
 * Énfasis.
 * Tristeza.
 * Melancolía.

Además de poder realizar expresiones concretas de una manera distinta como por ejemplo para decir: ¡Cielo Santo! O bien, también se puede:
 * toser,
 * carraspear la garganta,
 * abuchear,
 * reír,
 * silbar


 * 2 ¿Cómo surgió? Origen y desarrollo. **

Loquendo fue, en sus inicios, un grupo de investigación creado a mediados de los años setenta por los administradores de IRI-STET (predecesora de Telecom Italia) dentro de los laboratorios de CSELT (Centro Studi E Laboratori Telecomunicazioni) en Turín antes de convertirse en una compañía en 2001. Los primeros vídeos encontrados de Loquendo en YouTube datan del 2006, en esa época se pensaba que Loquendo era una persona pero poco después se supo que solo era una compañía que distribuía voces sintéticas.


 * 3 Aspectos técnicos. **


 * 3.1 Sintetizador de voz. **


 * 3.1.1 ¿Qué es la síntesis?**

El término “sintetizar” se define en la R.A.E. como composición de un todo por la reunión de sus partes. El proceso de síntesis es, pues, un “ensamblaje creativo”, y es precisamente este aspecto artístico el que más frecuentemente se olvida en favor del concepto puramente técnico del término. Aunque un sintetizador es capaz de generar una variedad casi infinita de señales, su control y elección requiere siempre una cierta destreza e intervención humanas. La palabra “síntesis” suele utilizarse en dos únicos contextos principales: la creación de compuestos químicos y la producción de sonidos electrónicos. Existen, no obstante, muchos otros tipos diferentes de síntesis.


 * 3.1.1.1 Tipos de sintetizadores. **

Todos los sintetizadores son muy similares en su concepto. Las mayores diferencias se centran en sus formatos de salida y en la forma en que esas salidas se generan. Algunos ejemplos de sintetizadores serían los siguientes señalados:
 * Sintetizadores de textura: empleados en diseño gráfico.
 * Sintetizadores de vídeo: Para procesar señales de vídeo.
 * Sintetizadores de color: Integrados a menudo en espectáculos de luz y sonido.
 * Sintetizadores de voz: Cuyo uso más frecuente se centra en informática y telecomunicaciones.
 * Sintetizadores de palabras: También conocidos como “autores”.



Figura 4: Sintetizador de voz para ciegos.

Un sintetizador consta de dos bloques funcionales básicos:
 * Un interfaz de control, que engloba el conjunto de parámetros que definen el producto final.
 * Y un “motor de la síntesis” que interpreta los valores de los parámetros y genera la salida correspondiente.

En la mayoría de los casos existe una cierta abstracción entre el interfaz de control y el propio “motor de la síntesis”. Esto se debe a la gran complejidad del proceso de síntesis, que es necesario reducir mediante un modelo conceptual más simple. Ello permite al usuario del sintetizador manejarlo sin necesidad de un conocimiento detallado de su funcionamiento interno.


 * 3.1.1.2 Síntesis de sonido. **

La síntesis de sonido es el proceso de generación del propio sonido. Para esta creación es posible reutilizar sonidos ya existentes, procesándolos a continuación, o bien generar nuevos sonidos, tanto electrónica como mecánicamente. Pueden usarse para ello las matemáticas, la física o, incluso, la biología, combinando así arte y ciencia en una mezcla de destreza musical y experiencia técnica.

Los sonidos pueden ser simples o complejos, y son variados los métodos para su creación. La síntesis de sonido tiene una larga historia. El primer sintetizador podría haber sido un ancestro del homo sapiens agitando una pequeña rama hueca o quizás, aprendiendo a silbar. El acto de cantar, por ejemplo, emplea un sofisticado sintetizador.

El sintetizador de voz de Loquendo fue construido por recomendación de la Universidad de Padua, aplicando la técnica de los llamados difonos 1. Se creó el primer sintetizador de voz con gran claridad en 1975 conocido como MUSA —por sus siglas en inglés, MUltichannel Speaking Automaton)— que demostró lo que era posible con la tecnología de ese tiempo.

La evolución del prototipo, incrementando el número de difonos—alrededor de 1000—, el refinamiento de las herramientas de los análisis lingüísticos y la mejora del manejo de la forma de onda llevó a una carca mejorada de la voz sintética. Esto llevó a la creación del sintetizador de voz en un circuito integrado desarrollado internamente en CSELT2.



Figura 5: Logotipo de CSELT.

En los años noventa ELOQUENS emergió como un sintetizador de voz multi-plataforma para varios sistemas operativos incluyendo DOS, Windows, System 7 y Unix, además de para tarjetas telefónicas con muchos canales, como las utilizadas en las operadoras de teléfono para obtener la dirección y la identidad del suscripto de un número de teléfono.

A finales de los noventa la sintetización de voz tomó un nuevo camino, en vez de usar difonos se empezó a utilizar la selección y la concatenación de unidades acústicas de longitudes variable. Esto provocó en “ACTOR”—“La voz que parece humana“ que empezó

__//1 La unión de una constante y una vocal.//__

__//2 Centro Studi E Laboratori Telecomunicazioni.//__

a adquirir una gran audiencia debido al gran número de servicios telefónicos y aplicaciones creadas relacionadas con Loquendo. A principios del siglo XXI el sintetizador fue puesto a la venta como producto comercial, incluyendo un número de herramientas para editar la voz sintética con distintas emociones. Además se lanzó una biblioteca SW para que se pueda usar en varios productos, como móviles, navegadores, PDA, incluso, hasta grandes empresas telefónicas.

Loquendo posee una síntesis de voz natural, expresiva y sencilla disponible en más de 30 i diomas con más de 70 voces:


 * Árabe. Catalán. Alemán. Inglés Danés. Griego.
 * Australiano. Holandés. Italiano. Inglés Japonés.
 * Británico. Vasco. Portugués. Brasileño. Polaco.
 * Ruso. Finés. Francés de Canadá. Inglés de EEUU.

Es compatible con los principales sistemas operativos y estándares de voz, y está disponible en una amplia gama de configuraciones para cumplir los requisitos de cualquier aplicación. Utiliza tecnologías automatizadas de voz que mejora en gran medida la experiencia de autoservicio para el cliente. Y también proporciona flexibilidad para el diseñador de aplicaciones IVR. Las aplicaciones de autoservicio de voz ayudan a tener costos sin sacrificar la atención al cliente al reducir el tiempo de espera y duración de la llamada, lo que permite transacciones que rápidas y eficaces, garantizando así una experiencia positiva para el usuario. La implementación de tecnologías de voz permite a los agentes centrarse en las tareas especializadas así proporcionan un nivel superior de servicio que los clientes pueden necesitar.

Al utilizar el sintetizador de Loquendo nos topamos con múltiples ventajas:
 * 1) Podemos transformar en habla cualquier tipo de contenido, incluyendo los datos más dinámicos.
 * 2) Evitar las grabaciones de estudio, que son costosas y llevan mucho tiempo, reemplazando a los hablantes humanos cuando se creen mensajes.
 * 3) Reducir las barreras que dificultan la accesibilidad simplificando las interacciones con tecnología adaptada para los ancianos, los invidentes y las personas con visión limitada.
 * 4) Importantes ahorros en los costes.

En cuanto a las características encontramos:
 * 1) Conversación de texto en habla expresiva: se pueden añadir frases animadas como “¡Bienvenido!” o “¡Estupendo!” y sonidos de toses, risas o llantos para que los mensajes cobren vida.
 * 2) Glosarios de usuario: definir la pronunciación de los acrónimos, los nombres propios, las abreviaturas, etcétera, en función del contexto de aplicación.
 * 3) Controles de prosodia: modificar la velocidad y el tono del habla, la frecuencia y la duración de las pausas, etc.
 * 4) Compatibilidad con SSML: crear mensajes en SSML usando Loquendo—que comprueba automáticamente las etiquetas de los elementos y los atributos—o cualquier otro editor SSML.
 * 5) Compatibilidad con una mezcla de idiomas: las voces pueden pronunciar palabras en idiomas extranjeros sin perder su acento nativo.
 * 6) Herramientas: un conjunto de herramientas dinámicas para ajustar y optimizar la salida de la síntesis de voz que permite crear mensajes de la máxima calidad.


 * 3.2 Reconocimiento de voz **


 * 3.2.1 Descripción. **

El reconocimiento del habla es el proceso de traducir una señal acústica hablada en un mensaje lingüístico. Planteado de esta forma tan aparentemente simple, resulta ser un problema de una enrome complejidad. A la dificultad inherente al tratamiento de una señal ruidosa, fuertemente variable en duración y características de frecuencia, se une el problema añadido del proceso de lenguaje natural—en este caso hablado—que es uno de los ejemplos cásicos de problemas que desafían la tesis de Turing y, por tanto, son irresolubles desde el punto de vista computacional. Por ello, en la mayoría de las aplicaciones, la forma deseada del mensaje es una simple transcripción textual. Tal es el caso, por ejemplo, en los sistemas de dictado automático, en los cuales la exactitud de la transcripción es una especificación de vital importancia. En otros casos, como en los sistemas de acceso hablado a bases de datos, o de indexado por palabras clave en grabaciones de audio, la transcripción palabra a palabra es menos crítica y, por consiguiente, el problema es algo más sencillo.

No obstante, es obvio que los sistemas de reconocimiento de habla constituyen un ejemplo de problema en cuya solución están implicadas un conjunto de técnicas y disciplinas: proceso de señal, fonética, lingüística, reconocimiento de patrones, inteligencia artificial, etc.

La técnica habitual en el método científico de restringir las dimensiones del problema para hacerlo más abordable también se ha empleado en este campo con buenos resultados. Típicamente, estas restricciones se aplican al número de hablantes, tamaño del vocabulario, forma de pronunciación, etc. De esta forma la principal causa de la dificultad, la variabilidad, se puede disminuir y los sistemas así desarrollados pueden servir como plataforma para el estudio y desarrollo de sistemas más ambiciosos.

La arquitectura típica de uno de tales sistemas suele tener como primer componente un preprocesador de la señal hablada cuya misión es calcular una secuencia de vectores de características acústicas procesando las muestras de la señal en intervalos de tiempo sucesivos. El reconocimiento de una ocurrencia de una unidad fonética conlleva la trasformación de esa secuencia de vectores en el mensaje lingüístico asociado. Este proceso de reconocimiento suele estar restringido por un conjunto de modelos acústicos— que corresponden a las unidades básicas de habla—, por un lexicón que define el vocabulario del reconocedor en términos de estas unidades básicas y por un modelo del lenguaje que incorpora propiedades sintácticas en la secuencia de unidades reconocidas. Los modelos acústicos y, en algunos casos, los del lenguaje, son habitualmente “aprendidos” por el sistema partiendo de una serie de muestras representativas.



Figura 6: Arquitectura ideal de un sistema de diálogo.


 * 3.2.1.1 Áreas de estudio.**

Según el índice de temas propuesto por IEEE Transactions on Speech and Audio Processing, las áreas de estudio que se aplican a la voz humana comprenden:
 * Producción y percepción de voz: Tema que incluye entre otros, modelos y aplicaciones tanto de índole fisiológico, como orientados a los sistemas de transmisión y reconocimiento de voz.
 * Análisis de voz: Incluyendo análisis espectral y no espectral, medidas de distorsión y estudio de las características acústicas de la voz.
 * Síntesis de voz: Estudiando sistemas de traducción texto a fonema, análisis de texto, prosodia, técnicas de codificación de síntesis de voz, tipos de sintetizadores y su evaluación.
 * Codificación de voz: Comprende un área muy activa dedicada a la codificación de voz, para asegurar una transmisión robusta de gran fidelidad y menor pérdida de información posible, por medios electrónicos.
 * Mejora de la calidad de la señal hablada: Referente, entre otros, a temas de reducción de ruido y cancelación de eco.
 * Reconocimiento del habla: Es el tema más general que incluye temas como extracción de características, selección de unidad de reconocimiento, mejoras en sistemas de clasificación y sus comparaciones, técnicas de entrenamiento, localización de palabras, adaptación, y diseño y medida de prestaciones de sistemas de reconocimiento.
 * Modelado del lenguaje y comprensión del habla: Aquí se incluye también el diseño de sistemas de diálogo y traducción.
 * Reconocimiento de hablante y de lenguaje: En su doble faceta de reconocimiento y verificación de hablante, e identificación del idioma.
 * Diseño y compilación de bases de datos de voz: La construcción de cada base de datos de voz o „corpus‟ está siempre orientada a la tarea en la que se va a utilizar el sistema de reconocimiento, y de la estructuración y volumen de la información contenida en dicho „corpus‟ depende en gran medida la calidad del sistema. En este área se incluye la obtención de bases de datos normalizadas y metodologías homogéneas de evaluación de sistemas de RAH3.


 * 3.2.1.2 Reconocimiento de voz.**

Poco después de las investigaciones en síntesis de voz, Loquendo comenzó a investigar el reconocimiento de voz y al principio de los ochenta produjeron un primer prototipo capaz de reconocer diez dígitos y unos comando simples. Aplicando el modelo oculto de Márkov, en 1984, se llevó a cabo el desarrollo de un decodificador de voz que podía reconocer palabras conectadas y oraciones. Esto se llevó a cabo con la colaboración de ELSAG, otra compañía del grupo.



Figura 7: Logo de la compañía ELSAG.

Tradicionalmente, los métodos empleados en los sistemas de reconocimiento fueron el alineamiento dinámico temporal—DTW—y los modelos ocultos de Márkov—MOM—. Los primeros son un procedimiento para alinear y hacer corresponder pares de ocurrencias habladas con diferentes duraciones. Ello envuelve algunos conceptos derivados de la Programación Dinámica y, en definitiva, no son sino una variante de los métodos de “correspondencia de plantillas”. Los MOM, por el contrario, constituyen una técnica de correspondencia probabilística que es más robusta que el DTW frente a la variabilidad de la señal de habla y que parece más adecuada para abordar el problema de reconocimiento de discurso continuo.

La necesidad de producir reconocimiento de voz independiente para aplicaciones telefónicas llevó a la creación de bases de datos con grabaciones de cientos de personas distintas y en 1987, la primera gran base de datos, obtenida grabando a más de mil personas llamado por toda Italia.

Este material permitió el uso de los modelos de Márkov y usando un sofisticado algoritmo llevó al desarrollo de AURIS, el primer reconocedor de voz que podía “dar vuelta” en una variedad de dispositivos con procesadores de señales digitales.

//3 Reconocimiento automático del habla. //

En los años noventa una colaboración europea juntó a otras compañías y universidades de toda Europa para crear una base de datos de voz enorme, con voces de más de sesenta y cinco mil personas.

Este material, combinado con un nuevo acercamiento al modelo oculto de Márkov y a la red neuronal artificial, produjo FLEXUS el primer reconocedor de voz flexible, que permitía a varios servicios telefónicos usar reconocimiento de voz en sus interfaces humanas. Combinando FLEXUS y ACTOR en un mismo sistema surgió DIALOGOS, permitiendo la creación de servicios telefónicos de vanguardia. Las redes neuronales se han revelado como una herramienta eficaz y robusta para el proceso del lenguaje hablado. Los desarrollos anteriores, juntamente con los vertiginosos avances en la capacidad de proceso de los procesadores actuales, han posibilitado la aparición de sistemas comerciales de dictado automático, restringidos en número de hablantes y tamaño del vocabulario, eso sí, pero suficientemente potentes como para posibilitar su empleo en aplicaciones reales.

El nacimiento de **Loquendo** como una compañía llevó al desarrollo de muchos lenguajes y al estreno de reconocedor en la forma de un software de biblioteca, para la creación de varias aplicaciones telefónicas.


 * 4 Productos ofertados**

Loquendo ofrece a sus clientes la capacidad de interactuar con los servicios, tecnologías y dispositivos de la manera más natural posible únicamente utilizando la voz. Loquendo permite mejorar productos y servicios para lograr ahorros significativos en los negocios de los clientes.

En cuanto a productos que nos ofrece encontramos:
 * Solución para portal de voz y IVR: Tecnologías para darle voz a aplicaciones de Self-service.
 * Solución para automoción: La solución vocal para sistemas de navegación satelitales y aplicaciones telemáticas.
 * Solución móvil: Para crear rápidamente aplicaciones de voz para smartphone.
 * Solución para PC y Web: Para hacer más accesible y enriquecer la experiencia de la Web con la interactividad de la voz.
 * Loquendo ASR: Reconocedor automático del habla.
 * Loquendo TTS: Sintetizador de voz.
 * Loquendo Embedded TSS.
 * Loquendo Speech Suite (LSS).
 * Loquendo Embedded ASR.
 * VoxNauta.
 * Loquendo MRCP Server (LMS).

Entre los productos biométricos de voz tenemos:
 * Loquendo Voice Security Library (LVSL).
 * Loquendo Voice Investigation System (LVIS).
 * Loquendo Voice Speech System (LVSS).
 * Loquendo Voice Authentication System (LVAR).


 * 5 Posibles aplicaciones. **

A continuación vamos a exponer brevemente unas cuantas aplicaciones que podrían valerse de las posibilidades y de las características que ofrece Loquendo.


 * 5.1 Ayudas discapacitados.**

Una de las posibles aplicaciones que se nos ocurre está relacionada con las ayudas a los discapacitados. Entre ellas:
 * 1) Lector de documentos: Para aquellas personas que no pueden leer, bien porque sean completamente ciegas, bien porque tengan una discapacidad visual que les impida leer correctamente. Se podría tener en cuenta una aplicación para leer un documento—libros, noticias, páginas web, correo electronico,...—. De modo que el usuario puede beneficiarse de muchas cosas que antes no podía, o podía con dificultad.
 * 2) Escritor de documentos: Como antagonista del anterior podríamos tener también una aplicación para que el usuario redactase información y la aplicación la recibiese y almacenase. Permitiendo también comprobar que lo introducido ha sido correcto leyendo el propio documento.
 * 3) Búsqueda guiada en la Web: podríamos considerar una aplicación que guiase al usuario por internet. Partiendo de una entrada del usuario y siendo guiado por los distintos caminos que existen en Internet por la aplicación.


 * 5.2 Empresas.**

Agencia de viajes: Se podría considerar también la posibilidad de una aplicación donde el usuario pudiese recaudar información sobre un destino, disponiendo de hoteles, restaurantes, lugares más visitados, y poder realizar compra de billetes hacia un destino concreto ayudado por un asistente artificial.

Para realizar pedidos de en restaurantes: Una aplicación donde se consideran los platos que se desean, se inserta la dirección y se puede realizar un pedido de comida a domicilio sin que una persona esté al cargo de atender a los clientes.


 * 6 Un pequeño y simple ejemplo. **

A continuación presentamos un pequeño texto de ejemplo con que insertado en la página web de Loquendo nos envía un audio con el texto sintetizado. Hablado por Jorge4. En el únicamente queremos exponer que existen “items” específicos para darle más énfasis a la redacción—marcados en rojo—.

¡Hola! Soy Jorge, la voz sintética masculina de Loquendo. \item=Throat Estoy trabajando con JuanFran, Ramón y Luis en este trabajo.\item=Laugh \item=breath Seguro que Zoraida acaba contenta con el trabajo!! No me gustaría irme tan rápido... Voy a llorar \item=Cry \item=sniff. En fin, nos veremos pronto!! \item=Smack_02 Adiós!

__//4 El audio se ha subido adjunto al documento. //__


 * 6 Bibliografía.**

[1] http://www.nuance.es/empresas/solucion/soluciones-de-atencion-al-cliente/servicios-y-soluciones/soluciones-de-recepcion-de-llamadas/loquendo-small-business-bundle/interactive-tts-demo/index.htm

[2] http://es.wikipedia.org/wiki/Loquendo

[3] http://www.nuance.es/particulares/industria/dragon/accesibilidad/index.htm

[4] http://en.wikipedia.org/wiki/Loquendo

[5] http://archive.is/WfpRe

[6] http://www.taringa.net/posts/videos/12095735/Historia-del-Loquendo-dentro-de- Youtube.html

[7] http://es.wikipedia.org/wiki/AT%26T

[8] http://espanol.att.com/

[9] http://es.wikipedia.org/wiki/Conversor_texto-voz

[10] http://it.wikipedia.org/wiki/CSELT

[11] http://ieeexplore.ieee.org/Xplore/home.jsp

[12] http://es.wikipedia.org/wiki/Modelo_oculto_de_M%C3%A1rkov