Registro de colección universitaria

Sintetizador natural y emocional del español de México

Facultad de Ingeniería, UNAM, Portal de Datos Abiertos UNAM, Colecciones Universitarias

Licencia de uso

Procedencia del contenido

Entidad o dependencia

Facultad de Ingeniería, UNAM

Entidad o dependencia

Dirección General de Asuntos del Personal Académico

Acervo

Colecciones Universitarias Digitales

Repositorio

Portal de Datos Abiertos UNAM, Colecciones Universitarias

Contacto

Dirección General de Repositorios Universitarios. contacto@dgru.unam.mx

Cita

Dirección de Desarrollo Académico, Dirección General de Asuntos del Personal Académico (DGAPA). "Sintetizador natural y emocional del español de México", Proyectos Universitarios PAPIIT (PAPIIT). En "Portal de datos abiertos UNAM" (en línea), México, Universidad Nacional Autónoma de México.

Descripción del recurso

Título

Sintetizador natural y emocional del español de México

Colección

Proyectos Universitarios PAPIIT (PAPIIT)

Responsable

José Abel Herrera Camacho

Fecha

2011

Descripción

1. Sintetizador natural para el español._x000D_ _x000D_ La primera fase es hacer funcionar los sistemas Festival, HTS y Straight para el español hablado en México._x000D_ _x000D_ _x000D_ a. Sintetizador del español con base en Festival._x000D_ _x000D_ El sistema festival es uno de los más utilizados por la comunidad, junto con los sistemas MI Talk y CSTR Alves. Está liberada la versión 2.1 módulo clunits la cual se usará como base, se harán algunos cambios para su manejo en español y se rediseñarán otros que se consideren necesarios para su mejor funcionamiento. Festival cuenta con diversos módulos de generación de voz, utilizando para este caso el módulo Clunits, que es libre._x000D_ _x000D_ El sistema festival es un sistema concatenado de fonemas. Esta basado en el método mbrola. Existe un módulo de prosodia y otro de la estructura de lenguaje, en este último sobresalen elementos intrínsecos a una lengua como direcciones o abreviaciones._x000D_ _x000D_ El método clunits utiliza un árbol de decisiones generado por medio de un entrenamiento de HMM´s. Para cada fonema se extrae su contexto (sonidos circundantes, posición de la sílaba, posición de la palabra, entre otros) y a partir de esta información utiliza una serie de decisiones binarias. De acuerdo al entrenamiento efectuado, la versión de ese fonema que mejor se ajusta al contexto actual, tomándola de la grabación original y anexándola a la salida, además de modificarla previamente para que se ajuste mejor al contexto._x000D_ _x000D_ Para el proceso de entrenamiento de festival, se requiere contar con una selección grande de frases pre-grabadas (en este caso se utilizó aproximadamente 1 hora de grabación) y de las cuales se realice su transcripción, la cual debe realizarse para el español._x000D_ _x000D_ Adicionalmente a esto se requiere un conjunto de archivos en schema (el lenguaje de programación propio de festival, el cual es una variación de LISP) que indica a los módulos de entrenamiento y de generación de voz una lista de los fonemas que son utilizados para el lenguaje a sintetizar y la forma en que a partir de un texto dado se genera la lista de fonemas y el árbol contextual que será utilizado para seleccionar la grabación que se utiliza del fonema durante la síntesis._x000D_ _x000D_ Una vez obtenidos estos archivos se debe proceder al entrenamiento. Una vez terminado este entrenamiento se tiene completa la base de datos que será utilizada durante la síntesis. En el proceso de síntesis se genera la información contextual a partir de la frase a sintetizar y con esta información se va obteniendo la lista de parámetros a utilizar para cada fonema de acuerdo a los árboles de decisión generados. _x000D_ _x000D_ b. Sintetizador del español con base en HTS_x000D_ _x000D_ Este sistema parametriza tramas de voz a través: del espectro de voz, del tono y de la duración de estados, en un HMM, el sistema fue llamado HTS._x000D_ _x000D_ El espectro se caracteriza por coeficientes mfcc, y los coeficientes delta y delta-delta. El vector de tono está formado por el log del tono, su coeficiente delta y el delta-delta. Los tres parámetros se integran en un solo HMM. Los HMM se caracterizan por ser gaussianas mutiespacio (lo que fue original), de izquierda a derecha de 3 estados con gaussianas no correlacionadas. Los tres parámetros son agrupados independientemente con una técnica de árboles de decisión binarios contextuales. Los aspectos del contexto considerados son la identificación de fonemas, el énfasis del fonema y su localización._x000D_ _x000D_ El método HTS utiliza una lista de datos de contexto generada y optimizada de forma manual y se genera un árbol de decisiones binarias para elegir, de acuerdo al entrenamiento efectuado, la versión de cada fonema que mejor se ajusta al contexto actual._x000D_ _x000D_ Para el proceso de entrenamiento de HTS, se requiere contar con una selección grande de frases pre-grabadas (se sugiere utilizar aproximadamente 1 hora de grabación) y de las cuales se cuente con su transcripción, de la cual previamente se extrae la información de contexto y del archivo con el listado de datos a utilizar._x000D_ _x000D_ Debido a que HTS no cuenta con un método para generar la información contextual de los fonemas a partir de la transcripción, se debe utilizar festival, para generar esta información y poderla introducir al sistema. _x000D_ _x000D_ A diferencia del sistema generado con festival, no se utiliza la grabación original durante la síntesis. Esto introduce una ligera distorsión en la voz generada, pero se reducen notablemente los requerimientos de almacenamiento (50 a 100 veces menor que en el caso de festival) y procesamiento._x000D_ _x000D_ c. Sintetizador del español con base en straigth o hts-straight_x000D_ _x000D_ Este sistema se ha llamado hts-straight porque utiliza HMM´s como módulo de principal de codificación. A diferencia del sistema HTS, los parámetros que se introducen a los modelos de Markov son distintos. _x000D_ _x000D_ El sistema contiene tres componentes principales: f0, un análisis espectral y aperiódico, y la síntesis de voz. El sistema straight extrae la fO con un análisis llamado de punto fijo, se tienen dos etapas. Primero, se extrae f0 del entrenamiento del hablante en un intervalo de 40 a 600 Hz. De acuerdo al histograma obtenido, se establece un rango estimado sobre el cual la f0 existe. Entonces la f0 se extrae nuevamente en el rango estimado._x000D_ _x000D_ Con el objeto de remover la periodicidad de la señal, este sistema ejecuta un análisis espectral con el f0 adaptado y lo combina con una reconstrucción de la superficie espectral. Tiene que usar 40 coeficientes mfcc. Se extrae la energía relativa usando una medida aperiódica basada en el cociente de las envolventes de los espectros alto y bajo. Las medidas aperódicas se realizan en 5 bandas: 0 a 1 kHz, 1 a 2 kHz, 2 a 4 kHz, 4 a 6 kHz, y 6 a 8 kHz._x000D_ _x000D_ Otro aspecto novedoso es que straight diseña la señal de excitación como la suma pesada del tren de pulsos, la fase y ruido gaussiano. Ningún método anterior había utilizada la fase, que había sido descartada por Helmholtz desde el siglo decimonónico en la percepción de señales de audio._x000D_ Los coeficientes mfcc son convertidos a una escala espectral lineal para procesarlos en el dominio de Fourier._x000D_ _x000D_ El método HTS-STRAIGHT utiliza una lista de datos de contexto generada y optimizada de forma manual y se genera un árbol de decisiones binarias para elegir, de acuerdo al entrenamiento efectuado, la versión de cada fonema que mejor se ajusta al contexto actual._x000D_ _x000D_ Para el proceso de entrenamiento de HTS-STRAIGHT, se requiere, también, contar con una selección grande de frases pre-grabadas y su transcripción._x000D_ _x000D_ En el proceso de síntesis se genera la información contextual a partir de la frase a sintetizar y con esta información se va obteniendo la lista de parámetros a utilizar para cada fonema de acuerdo a los árboles de decisión generados._x000D_ _x000D_ 4. Diseño del sintetizador natural para el español._x000D_ _x000D_ De lo antes mencionado, en realidad se estarían usando los tres sistemas para constituir uno solo sistema, se han reconocido algunos módulos que pueden modificarse para mejorar el desempeño._x000D_ _x000D_ Se supone como hipótesis que el sistema straight nos arrojará mejores resultados. Se harán en lo particular, pruebas con fase no lineal, aplicada en sonidos sordos._x000D_ Se plantea mejorar al obtención de f0, con base en un método de 'frequency dynamic warping'. _x000D_ _x000D_ 5. Módulo de emociones al sintetizador._x000D_ _x000D_ El sintetizador natural se ampliará en el segundo año a un sintetizador natural y emocional, introduciendo un módulo para esto. El módulo estaría basado en el método straigth. A continuación se describe como se haría._x000D_ _x000D_ A partir de una voz base se debe generar un proceso de reentrenamiento emocional para cada una de las 4 emociones definidas hasta hoy (alegría, enojo, tristeza y neutral):_x000D_ _x000D_ En el proceso de síntesis se genera la información contextual a partir de la frase a sintetizar y con esta información se va obteniendo la lista de parámetros a utilizar para cada fonema de acuerdo a los árboles de decisión generados. Esta información se alimenta a un modulo en matlab que genera la señal sintetica a partir del espectro enviado._x000D_ _x000D_ En el caso de straight, los requerimientos de almacenamiento y procesamiento son mucho mayores, lo cual podemos disminuir diseñando VQ's.

Tema

Procesamiento de señales; Ingenierías

Identificador global

http://datosabiertos.unam.mx/DGAPA:PAPIIT:IT116811

Enlaces

Texto completo

No entro en nada

No entro en nada 2

Sintetizador natural y emocional del español de México

Licencia de uso

Procedencia del contenido

Cita

Descripción del recurso

Enlaces