dor_id: 1502044

506.#.#.a: Público

650.#.4.x: Ingenierías

336.#.#.b: other

336.#.#.3: Registro de colección de proyectos

336.#.#.a: Registro de colección universitaria

351.#.#.b: Proyectos Universitarios PAPIIT (PAPIIT)

351.#.#.a: Colecciones Universitarias Digitales

harvesting_group: ColeccionesUniversitarias

270.1.#.p: Dirección General de Repositorios Universitarios. contacto@dgru.unam.mx

590.#.#.c: Otro

270.#.#.d: MX

270.1.#.d: México

590.#.#.b: Concentrador

883.#.#.u: https://datosabiertos.unam.mx/

883.#.#.a: Portal de Datos Abiertos UNAM, Colecciones Universitarias

590.#.#.a: Administración central

883.#.#.1: http://www.ccud.unam.mx/

883.#.#.q: Dirección General de Repositorios Universitarios

850.#.#.a: Universidad Nacional Autónoma de México

856.4.0.u: http://datosabiertos.unam.mx/DGAPA:PAPIIT:IT116811

100.1.#.a: José Abel Herrera Camacho

524.#.#.a: Dirección de Desarrollo Académico, Dirección General de Asuntos del Personal Académico (DGAPA). "Sintetizador natural y emocional del español de México", Proyectos Universitarios PAPIIT (PAPIIT). En "Portal de datos abiertos UNAM" (en línea), México, Universidad Nacional Autónoma de México.

720.#.#.a: José Abel Herrera Camacho

245.1.0.a: Sintetizador natural y emocional del español de México

502.#.#.c: Universidad Nacional Autónoma de México

561.1.#.a: Facultad de Ingeniería, UNAM

264.#.0.c: 2011

264.#.1.c: 2011

307.#.#.a: 2019-05-23 18:40:21.491

653.#.#.a: Procesamiento de señales; Ingenierías

506.1.#.a: La titularidad de los derechos patrimoniales de este recurso digital pertenece a la Universidad Nacional Autónoma de México. Su uso se rige por una licencia Creative Commons BY 4.0 Internacional, https://creativecommons.org/licenses/by/4.0/legalcode.es, fecha de asignación de la licencia 2011, para un uso diferente consultar al responsable jurídico del repositorio por medio de contacto@dgru.unam.mx

041.#.7.h: spa

500.#.#.a: 1. Sintetizador natural para el español._x000D_ _x000D_ La primera fase es hacer funcionar los sistemas Festival, HTS y Straight para el español hablado en México._x000D_ _x000D_ _x000D_ a. Sintetizador del español con base en Festival._x000D_ _x000D_ El sistema festival es uno de los más utilizados por la comunidad, junto con los sistemas MI Talk y CSTR Alves. Está liberada la versión 2.1 módulo clunits la cual se usará como base, se harán algunos cambios para su manejo en español y se rediseñarán otros que se consideren necesarios para su mejor funcionamiento. Festival cuenta con diversos módulos de generación de voz, utilizando para este caso el módulo Clunits, que es libre._x000D_ _x000D_ El sistema festival es un sistema concatenado de fonemas. Esta basado en el método mbrola. Existe un módulo de prosodia y otro de la estructura de lenguaje, en este último sobresalen elementos intrínsecos a una lengua como direcciones o abreviaciones._x000D_ _x000D_ El método clunits utiliza un árbol de decisiones generado por medio de un entrenamiento de HMM´s. Para cada fonema se extrae su contexto (sonidos circundantes, posición de la sílaba, posición de la palabra, entre otros) y a partir de esta información utiliza una serie de decisiones binarias. De acuerdo al entrenamiento efectuado, la versión de ese fonema que mejor se ajusta al contexto actual, tomándola de la grabación original y anexándola a la salida, además de modificarla previamente para que se ajuste mejor al contexto._x000D_ _x000D_ Para el proceso de entrenamiento de festival, se requiere contar con una selección grande de frases pre-grabadas (en este caso se utilizó aproximadamente 1 hora de grabación) y de las cuales se realice su transcripción, la cual debe realizarse para el español._x000D_ _x000D_ Adicionalmente a esto se requiere un conjunto de archivos en schema (el lenguaje de programación propio de festival, el cual es una variación de LISP) que indica a los módulos de entrenamiento y de generación de voz una lista de los fonemas que son utilizados para el lenguaje a sintetizar y la forma en que a partir de un texto dado se genera la lista de fonemas y el árbol contextual que será utilizado para seleccionar la grabación que se utiliza del fonema durante la síntesis._x000D_ _x000D_ Una vez obtenidos estos archivos se debe proceder al entrenamiento. Una vez terminado este entrenamiento se tiene completa la base de datos que será utilizada durante la síntesis. En el proceso de síntesis se genera la información contextual a partir de la frase a sintetizar y con esta información se va obteniendo la lista de parámetros a utilizar para cada fonema de acuerdo a los árboles de decisión generados. _x000D_ _x000D_ b. Sintetizador del español con base en HTS_x000D_ _x000D_ Este sistema parametriza tramas de voz a través: del espectro de voz, del tono y de la duración de estados, en un HMM, el sistema fue llamado HTS._x000D_ _x000D_ El espectro se caracteriza por coeficientes mfcc, y los coeficientes delta y delta-delta. El vector de tono está formado por el log del tono, su coeficiente delta y el delta-delta. Los tres parámetros se integran en un solo HMM. Los HMM se caracterizan por ser gaussianas mutiespacio (lo que fue original), de izquierda a derecha de 3 estados con gaussianas no correlacionadas. Los tres parámetros son agrupados independientemente con una técnica de árboles de decisión binarios contextuales. Los aspectos del contexto considerados son la identificación de fonemas, el énfasis del fonema y su localización._x000D_ _x000D_ El método HTS utiliza una lista de datos de contexto generada y optimizada de forma manual y se genera un árbol de decisiones binarias para elegir, de acuerdo al entrenamiento efectuado, la versión de cada fonema que mejor se ajusta al contexto actual._x000D_ _x000D_ Para el proceso de entrenamiento de HTS, se requiere contar con una selección grande de frases pre-grabadas (se sugiere utilizar aproximadamente 1 hora de grabación) y de las cuales se cuente con su transcripción, de la cual previamente se extrae la información de contexto y del archivo con el listado de datos a utilizar._x000D_ _x000D_ Debido a que HTS no cuenta con un método para generar la información contextual de los fonemas a partir de la transcripción, se debe utilizar festival, para generar esta información y poderla introducir al sistema. _x000D_ _x000D_ A diferencia del sistema generado con festival, no se utiliza la grabación original durante la síntesis. Esto introduce una ligera distorsión en la voz generada, pero se reducen notablemente los requerimientos de almacenamiento (50 a 100 veces menor que en el caso de festival) y procesamiento._x000D_ _x000D_ c. Sintetizador del español con base en straigth o hts-straight_x000D_ _x000D_ Este sistema se ha llamado hts-straight porque utiliza HMM´s como módulo de principal de codificación. A diferencia del sistema HTS, los parámetros que se introducen a los modelos de Markov son distintos. _x000D_ _x000D_ El sistema contiene tres componentes principales: f0, un análisis espectral y aperiódico, y la síntesis de voz. El sistema straight extrae la fO con un análisis llamado de punto fijo, se tienen dos etapas. Primero, se extrae f0 del entrenamiento del hablante en un intervalo de 40 a 600 Hz. De acuerdo al histograma obtenido, se establece un rango estimado sobre el cual la f0 existe. Entonces la f0 se extrae nuevamente en el rango estimado._x000D_ _x000D_ Con el objeto de remover la periodicidad de la señal, este sistema ejecuta un análisis espectral con el f0 adaptado y lo combina con una reconstrucción de la superficie espectral. Tiene que usar 40 coeficientes mfcc. Se extrae la energía relativa usando una medida aperiódica basada en el cociente de las envolventes de los espectros alto y bajo. Las medidas aperódicas se realizan en 5 bandas: 0 a 1 kHz, 1 a 2 kHz, 2 a 4 kHz, 4 a 6 kHz, y 6 a 8 kHz._x000D_ _x000D_ Otro aspecto novedoso es que straight diseña la señal de excitación como la suma pesada del tren de pulsos, la fase y ruido gaussiano. Ningún método anterior había utilizada la fase, que había sido descartada por Helmholtz desde el siglo decimonónico en la percepción de señales de audio._x000D_ Los coeficientes mfcc son convertidos a una escala espectral lineal para procesarlos en el dominio de Fourier._x000D_ _x000D_ El método HTS-STRAIGHT utiliza una lista de datos de contexto generada y optimizada de forma manual y se genera un árbol de decisiones binarias para elegir, de acuerdo al entrenamiento efectuado, la versión de cada fonema que mejor se ajusta al contexto actual._x000D_ _x000D_ Para el proceso de entrenamiento de HTS-STRAIGHT, se requiere, también, contar con una selección grande de frases pre-grabadas y su transcripción._x000D_ _x000D_ En el proceso de síntesis se genera la información contextual a partir de la frase a sintetizar y con esta información se va obteniendo la lista de parámetros a utilizar para cada fonema de acuerdo a los árboles de decisión generados._x000D_ _x000D_ 4. Diseño del sintetizador natural para el español._x000D_ _x000D_ De lo antes mencionado, en realidad se estarían usando los tres sistemas para constituir uno solo sistema, se han reconocido algunos módulos que pueden modificarse para mejorar el desempeño._x000D_ _x000D_ Se supone como hipótesis que el sistema straight nos arrojará mejores resultados. Se harán en lo particular, pruebas con fase no lineal, aplicada en sonidos sordos._x000D_ Se plantea mejorar al obtención de f0, con base en un método de 'frequency dynamic warping'. _x000D_ _x000D_ 5. Módulo de emociones al sintetizador._x000D_ _x000D_ El sintetizador natural se ampliará en el segundo año a un sintetizador natural y emocional, introduciendo un módulo para esto. El módulo estaría basado en el método straigth. A continuación se describe como se haría._x000D_ _x000D_ A partir de una voz base se debe generar un proceso de reentrenamiento emocional para cada una de las 4 emociones definidas hasta hoy (alegría, enojo, tristeza y neutral):_x000D_ _x000D_ En el proceso de síntesis se genera la información contextual a partir de la frase a sintetizar y con esta información se va obteniendo la lista de parámetros a utilizar para cada fonema de acuerdo a los árboles de decisión generados. Esta información se alimenta a un modulo en matlab que genera la señal sintetica a partir del espectro enviado._x000D_ _x000D_ En el caso de straight, los requerimientos de almacenamiento y procesamiento son mucho mayores, lo cual podemos disminuir diseñando VQ's.

046.#.#.j: 2019-11-14 12:26:40.706

264.#.1.b: Dirección General de Asuntos del Personal Académico

handle: 00cffd7896ba2455

harvesting_date: 2019-11-14 12:26:40.706

856.#.0.q: text/html

last_modified: 2019-11-22 00:00:00

license_url: https://creativecommons.org/licenses/by/4.0/legalcode.es

license_type: by

No entro en nada

No entro en nada 2

Registro de colección universitaria

Sintetizador natural y emocional del español de México

Facultad de Ingeniería, UNAM, Portal de Datos Abiertos UNAM, Colecciones Universitarias

Licencia de uso

Procedencia del contenido

Entidad o dependencia
Facultad de Ingeniería, UNAM
Entidad o dependencia
Dirección General de Asuntos del Personal Académico
Acervo
Colecciones Universitarias Digitales
Repositorio
Contacto
Dirección General de Repositorios Universitarios. contacto@dgru.unam.mx

Cita

Dirección de Desarrollo Académico, Dirección General de Asuntos del Personal Académico (DGAPA). "Sintetizador natural y emocional del español de México", Proyectos Universitarios PAPIIT (PAPIIT). En "Portal de datos abiertos UNAM" (en línea), México, Universidad Nacional Autónoma de México.

Descripción del recurso

Título
Sintetizador natural y emocional del español de México
Colección
Proyectos Universitarios PAPIIT (PAPIIT)
Responsable
José Abel Herrera Camacho
Fecha
2011
Descripción
1. Sintetizador natural para el español._x000D_ _x000D_ La primera fase es hacer funcionar los sistemas Festival, HTS y Straight para el español hablado en México._x000D_ _x000D_ _x000D_ a. Sintetizador del español con base en Festival._x000D_ _x000D_ El sistema festival es uno de los más utilizados por la comunidad, junto con los sistemas MI Talk y CSTR Alves. Está liberada la versión 2.1 módulo clunits la cual se usará como base, se harán algunos cambios para su manejo en español y se rediseñarán otros que se consideren necesarios para su mejor funcionamiento. Festival cuenta con diversos módulos de generación de voz, utilizando para este caso el módulo Clunits, que es libre._x000D_ _x000D_ El sistema festival es un sistema concatenado de fonemas. Esta basado en el método mbrola. Existe un módulo de prosodia y otro de la estructura de lenguaje, en este último sobresalen elementos intrínsecos a una lengua como direcciones o abreviaciones._x000D_ _x000D_ El método clunits utiliza un árbol de decisiones generado por medio de un entrenamiento de HMM´s. Para cada fonema se extrae su contexto (sonidos circundantes, posición de la sílaba, posición de la palabra, entre otros) y a partir de esta información utiliza una serie de decisiones binarias. De acuerdo al entrenamiento efectuado, la versión de ese fonema que mejor se ajusta al contexto actual, tomándola de la grabación original y anexándola a la salida, además de modificarla previamente para que se ajuste mejor al contexto._x000D_ _x000D_ Para el proceso de entrenamiento de festival, se requiere contar con una selección grande de frases pre-grabadas (en este caso se utilizó aproximadamente 1 hora de grabación) y de las cuales se realice su transcripción, la cual debe realizarse para el español._x000D_ _x000D_ Adicionalmente a esto se requiere un conjunto de archivos en schema (el lenguaje de programación propio de festival, el cual es una variación de LISP) que indica a los módulos de entrenamiento y de generación de voz una lista de los fonemas que son utilizados para el lenguaje a sintetizar y la forma en que a partir de un texto dado se genera la lista de fonemas y el árbol contextual que será utilizado para seleccionar la grabación que se utiliza del fonema durante la síntesis._x000D_ _x000D_ Una vez obtenidos estos archivos se debe proceder al entrenamiento. Una vez terminado este entrenamiento se tiene completa la base de datos que será utilizada durante la síntesis. En el proceso de síntesis se genera la información contextual a partir de la frase a sintetizar y con esta información se va obteniendo la lista de parámetros a utilizar para cada fonema de acuerdo a los árboles de decisión generados. _x000D_ _x000D_ b. Sintetizador del español con base en HTS_x000D_ _x000D_ Este sistema parametriza tramas de voz a través: del espectro de voz, del tono y de la duración de estados, en un HMM, el sistema fue llamado HTS._x000D_ _x000D_ El espectro se caracteriza por coeficientes mfcc, y los coeficientes delta y delta-delta. El vector de tono está formado por el log del tono, su coeficiente delta y el delta-delta. Los tres parámetros se integran en un solo HMM. Los HMM se caracterizan por ser gaussianas mutiespacio (lo que fue original), de izquierda a derecha de 3 estados con gaussianas no correlacionadas. Los tres parámetros son agrupados independientemente con una técnica de árboles de decisión binarios contextuales. Los aspectos del contexto considerados son la identificación de fonemas, el énfasis del fonema y su localización._x000D_ _x000D_ El método HTS utiliza una lista de datos de contexto generada y optimizada de forma manual y se genera un árbol de decisiones binarias para elegir, de acuerdo al entrenamiento efectuado, la versión de cada fonema que mejor se ajusta al contexto actual._x000D_ _x000D_ Para el proceso de entrenamiento de HTS, se requiere contar con una selección grande de frases pre-grabadas (se sugiere utilizar aproximadamente 1 hora de grabación) y de las cuales se cuente con su transcripción, de la cual previamente se extrae la información de contexto y del archivo con el listado de datos a utilizar._x000D_ _x000D_ Debido a que HTS no cuenta con un método para generar la información contextual de los fonemas a partir de la transcripción, se debe utilizar festival, para generar esta información y poderla introducir al sistema. _x000D_ _x000D_ A diferencia del sistema generado con festival, no se utiliza la grabación original durante la síntesis. Esto introduce una ligera distorsión en la voz generada, pero se reducen notablemente los requerimientos de almacenamiento (50 a 100 veces menor que en el caso de festival) y procesamiento._x000D_ _x000D_ c. Sintetizador del español con base en straigth o hts-straight_x000D_ _x000D_ Este sistema se ha llamado hts-straight porque utiliza HMM´s como módulo de principal de codificación. A diferencia del sistema HTS, los parámetros que se introducen a los modelos de Markov son distintos. _x000D_ _x000D_ El sistema contiene tres componentes principales: f0, un análisis espectral y aperiódico, y la síntesis de voz. El sistema straight extrae la fO con un análisis llamado de punto fijo, se tienen dos etapas. Primero, se extrae f0 del entrenamiento del hablante en un intervalo de 40 a 600 Hz. De acuerdo al histograma obtenido, se establece un rango estimado sobre el cual la f0 existe. Entonces la f0 se extrae nuevamente en el rango estimado._x000D_ _x000D_ Con el objeto de remover la periodicidad de la señal, este sistema ejecuta un análisis espectral con el f0 adaptado y lo combina con una reconstrucción de la superficie espectral. Tiene que usar 40 coeficientes mfcc. Se extrae la energía relativa usando una medida aperiódica basada en el cociente de las envolventes de los espectros alto y bajo. Las medidas aperódicas se realizan en 5 bandas: 0 a 1 kHz, 1 a 2 kHz, 2 a 4 kHz, 4 a 6 kHz, y 6 a 8 kHz._x000D_ _x000D_ Otro aspecto novedoso es que straight diseña la señal de excitación como la suma pesada del tren de pulsos, la fase y ruido gaussiano. Ningún método anterior había utilizada la fase, que había sido descartada por Helmholtz desde el siglo decimonónico en la percepción de señales de audio._x000D_ Los coeficientes mfcc son convertidos a una escala espectral lineal para procesarlos en el dominio de Fourier._x000D_ _x000D_ El método HTS-STRAIGHT utiliza una lista de datos de contexto generada y optimizada de forma manual y se genera un árbol de decisiones binarias para elegir, de acuerdo al entrenamiento efectuado, la versión de cada fonema que mejor se ajusta al contexto actual._x000D_ _x000D_ Para el proceso de entrenamiento de HTS-STRAIGHT, se requiere, también, contar con una selección grande de frases pre-grabadas y su transcripción._x000D_ _x000D_ En el proceso de síntesis se genera la información contextual a partir de la frase a sintetizar y con esta información se va obteniendo la lista de parámetros a utilizar para cada fonema de acuerdo a los árboles de decisión generados._x000D_ _x000D_ 4. Diseño del sintetizador natural para el español._x000D_ _x000D_ De lo antes mencionado, en realidad se estarían usando los tres sistemas para constituir uno solo sistema, se han reconocido algunos módulos que pueden modificarse para mejorar el desempeño._x000D_ _x000D_ Se supone como hipótesis que el sistema straight nos arrojará mejores resultados. Se harán en lo particular, pruebas con fase no lineal, aplicada en sonidos sordos._x000D_ Se plantea mejorar al obtención de f0, con base en un método de 'frequency dynamic warping'. _x000D_ _x000D_ 5. Módulo de emociones al sintetizador._x000D_ _x000D_ El sintetizador natural se ampliará en el segundo año a un sintetizador natural y emocional, introduciendo un módulo para esto. El módulo estaría basado en el método straigth. A continuación se describe como se haría._x000D_ _x000D_ A partir de una voz base se debe generar un proceso de reentrenamiento emocional para cada una de las 4 emociones definidas hasta hoy (alegría, enojo, tristeza y neutral):_x000D_ _x000D_ En el proceso de síntesis se genera la información contextual a partir de la frase a sintetizar y con esta información se va obteniendo la lista de parámetros a utilizar para cada fonema de acuerdo a los árboles de decisión generados. Esta información se alimenta a un modulo en matlab que genera la señal sintetica a partir del espectro enviado._x000D_ _x000D_ En el caso de straight, los requerimientos de almacenamiento y procesamiento son mucho mayores, lo cual podemos disminuir diseñando VQ's.
Tema
Procesamiento de señales; Ingenierías
Identificador global
http://datosabiertos.unam.mx/DGAPA:PAPIIT:IT116811

Enlaces