Common Voice Spontaneous Speech 2.0 - Michoacán Mazahua

Description

A collection of spontaneous spoken phrases in Michoacán Mazahua.

Specifics

Licensing

CC0 1.0 Universal

https://creativecommons.org/publicdomain/zero/1.0/legalcode

Considerations

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

Jñatjo — Michoacán Mazahua (`mmc`)

Esta ficha técnica corresponde a la versión 2.0 del conjunto de datos Spontaneous Speech (habla espontánea) de Mozilla Common Voice para Michoacán Mazahua (mmc). El conjunto de datos contiene 871 representando 12 horas de grabaciones (12 horas validadas) de 12 hablantes.

Idioma

La variante de Michoacán de mazahua o ‘Jñatjo’ es hablada en el norte Michoacán, México. Las tenencias donde se habla esta variante son Crescencio Morales, Boca de la Cañada, Rincón de San Mateo, El Tigre, La Barranca, La Dieta, La Fundición, Macho de Agua y Río de Guadalupe. Pertenece a la familia lingüística otomangue, subrama otopameana-central. Los datos obtenidos para este corpus de datos provienen de la tenencia de Crescencio Morales, ubicado en el municipio de Zitácuaro.

Partición de datos para modelado

Partición	Cuenta
Train	565
Test	187
Dev	134

Transcripciones

Preguntas: 195
Duración total: 11:20:35 [h:m:s]
Longitud promedio de transcripción (en carácteres): 328
Duración promedio: 46.88[s]
Duración validada: 40835.592[s]
Horas totales: 11.34[h]
Horas validas: 11.34[h]

Sistema de escritura

El Mazahua de Michoacán se escribe utilizando alfabeto latino. Ha habido múltiples propuestas de alfabeto para el Mazahua y sus dos variantes, la del Estado de México (Jñajtro) y la de Michoacán (Jñatjo), las cuales no toman en cuenta los tonos de las palabras habiendo mucha confusión durante la escritura, los tonos de la lengua son sistémicos ya que pueden contrastar funciones gramaticales (posesión, demostrativos, definitud, tiempo, aspecto y modo) y determinar el significado de las palabras

Por ejemplo:

‘kjǚjnü’ metate – ‘kjǜjnü’ maíz
‘‘ë̀dyi’ llevar animales – ‘ ‘ë̂dyi’ medir

Tabla de símbolos

Para esta propuesta de alfabeto, se retomará el sugerido por la Universidad Intercultural del Estado de México expuesto en la tesis de Gloria Vargas Bernal (2013). Se tiene la visión de hacerlo más específico en el caso de los tonos.

Consonantes El Mazahua de Michoacán posee un inventario consonántico de 51 segmentos fonológicos. Hay oclusivas, implosivas, fricativas, africadas, nasales, aproximantes, laterales, vibrantes y glotales. También en estos segmentos hay realización de articulaciones secundarias como: glotalización, preaspiración, aspiración, labialización, prenasalización. En la propuesta de alfabeto para esta variante, los sonidos labializados [w] se consideran como una realización de la vocal cerrada [u], obteniendo 47 grafías.

Consonantes simples b, m, t, s, z, ts, ch, n, l, r, rr, x, zh, ñ, y, k, g, j, ‘ (salto glotal)

Articulaciones secundarias

Glotalización: b’, p’, t’, d’, s’, ts’, ch’, s’, dy, k’
Preaspiración: jm, jn, jñ, jdy
Aspiración : pj, tj, sj, tsj, chj, kj
Labialización: En esta articulación secundaria, se hace énfasis en el uso de la consonante seguido de una vocal cerrada ‘u’. ku, ngu
Prenasalización: mb, nd, ndz, ndzh, ng, ngu

Vocales El mazahua tiene inventario de 15 vocales: 9 orales y 6 nasales.

Vocales orales Se usa diéresis en la vocal para indicar la abertura. Los símbolos en corchetes corresponden a los sonidos presentes en Alfabeto Fonético Internacional (AFI).

a = [a]
ä = [ə]
e = [e]
ë = [ɛ]
i = [i]
o = [o]
ö = [ɔ]
u = [u]
ü = [ɨ]

Vocales nasales Se usa diacrítico macron en la vocal para indicar nasalidad.

ā = [ã]
ē = [ẽ]
ī = [ ĩ ]
ō = [õ]
ū = [ũ]
ǖ = [ ɨ̃ ]

En Unicode, “ǖ” tiene código 01D6 en minúscula y 01D5 en mayúscula.

Tonos (diacríticos en Unicode) El mazahua posee cuatro tonos: alto, bajo, ascendente y descendente. Los diacríticos se escriben encima de la primera vocal.

Tono alto: [ ́ ], 02CB
Tono bajo: [ ̀ ], 02CB
Tono descendente: [ ̂ ], 02C6
Tono ascendente: [ ̌ ], 02C6

Ejemplo:

ndzíncho – nueve
jmū̀ru – huevo
pjâd'ül – caballo
jyö̌rga – lagartija

Ejemplos

Preguntas

A continuación se muestra una selección aleatoria de las preguntas usadas en el corpus.

Pjéko mbéka dyà gá jóʼo kʼa kʼôkútsʼu?
Jânge gá jnū̌tji yó xë́dyi?
Pjéko gí sôʼna koyája cultura o koyája jñátjo?
Pjéko rá sôʼo rá tsʼáji kʼa rá sígido rá jñátji jñátjo yó tǐʼi kʼo kʼa gí të́ʼë kʼa rá ñátji jñátjo?
Ná bes 'i já píts'iji?

Respuestas

A continuación se muestra una selección aleatoria de respuestas transcritas del corpus.

O má sé'e yá gá jók'ò ró kjǔgü k'e má ró sä́jä k'a Bṓndo 'ângo rí b'ǘ'ü jña ngá mí xìs'i, dyá mí pâra rá jñá'a nú ñângistjya jé k'o yó të́'ë dyà mi né'e rá núkji e mí xíts'i yá mí pâraji rék'o rí jñá'a pjéko rí mā̀mā. Ná angézeji 'àt'a k'e já ró xôrü nú ñângistjya
Yó xë́dyi m'a dyá jó'tiji nést'a'ò rí pà'tü m'adyà rí pà'tü ná jó'o rá m'ǒs'üji
Nuzgó k'o rí s'ô'n'a k'o 'náño jñá'a, gó 'náño të́'ë, à 'náño ñǐñi, rí nú'u nójo jângo gá jñáji angezeji nuts'k'ó rí né'e rá xôrü jângo gá jñá'a angezeji nuk'a kjâ'a má gó mí ná së̌zhi ngék'o dyá rá dyá rí xôrü ngék'o ts'íjk'e, ts'íjk'e rá xôrü jângon... ts'i jñá'a k'o 'náño jñá'a ngéjnu gó yó të́'ë, k'o 'náño ñá'a jñá'a, ná zògü gá ñáji, ná zògü xíji yó jñá'a, k'o ñá'a angezeji
Yó tǐ'i k'o k'a í të́'ë dyà sô'o rá ñáji nú jñátjo, nú má rá né'e rá ángezeji rá ñájii k'o yó t'á'má pjë́chiji rá jíchiji 'u máji yó rá jyòd'ü ték'o pjë́chib'e rá ñá'a nú jñátjò rá jñū́s'i kja skuǎma, rá dyépe rá ñáji, rá ñáji ngék'o rá xôrüji sàk'ü
Nuts'k'ó píts'iji 'ó pândaji kja ndéje ngéko rí súdye

Posprocesamiento recomendado

El sistema de escritura propuesto para esta variante de mazahua queda abierto a futuras modificaciones y comentarios.

Campos

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

client_id - UUID hasheado de cierto usuario
audio_id - id numérico para archivo de audio
audio_file - nombre del archivo de audio
duration_ms - duración del audio en milisegundo
prompt_id - id numérico para el prompt
prompt - pregunta para el usuario
transcription - transcripción de la respuesta al audio
votes - número de personas quiene aprobaron cierta transcripción
age - edad de los hablantes1
gender - genero de los hablantes1
language - nombre de la lengua
split - para el modelado de datos, indica a qué subconjunto de datos pertenece este clip
char_per_sec - cuántos caracteres de transcripción por segundo de audio.
quality_tags - una evaluación automatizada del par transcripción-audio, separadas por |
- transcription-length - caracteres por segundo inferior a 3 caracteres por segundo
- speech-rate - tasa de caracteres por segundo superior a 30 caracteres por segundo
- short-audio - duración del audio inferior a 2 segundos
- long-audio - duración del audio superior a 30 segundos

¡Participa!

Enlaces comunitarios

Traductores de Common Voice en Pontoon

Contribuir

Agradecimientos

Colectivo 'Jñatjo Ndixu', Santa Martha del Sur, Coyoacán, Ciudad de México.
Maestros Silverio Benítez García y Orlando Blanco y alumna María del Carmen de Jesús Guzmán, integrantes de Puntos de Innovación, Libertad, Arte, Educación y Saberes (PILARES), Ciudad de México.
Coordinaciones de Posgrado y Licenciatura de la Universidad Autónoma Metropolitana, Unidad Iztapalapa. Gracias por todo el apoyo recibido y por habernos brindado el Laboratorio de Lingüística (D110) para llevar a cabo nuestras grabaciones.
Mtro. Edgar Alberto Madrid Servin, coordinador y docente de la Licenciatura en Lingüística y Dr. Lucio Armando Mora-Bustos, docente e investigador de Lingüística, ambos de la Universidad Autónoma Metropolitana, Unidad Iztapalapa. Estamos totalmente agradecidos por su orientación y comentarios.

Autores de la ficha técnica

Rosario de Fátima Álvarez García <fatimaalvarezgr96@gmail.com>
Juan Castro Gallardo <jcgallardho@gmail.com>
Lorena Abigail Benítez Cruz <abigailbenitez66@gmail.com>

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2