License:
CC0-1.0
Steward:
Common VoiceTask: ASR
Release Date: 12/5/2025
Format: MP3
Size: 225.51 MB
Share
A collection of spontaneous spoken phrases in Michoacán Mazahua.
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
mmc)Esta ficha técnica corresponde a la versión 2.0 del conjunto de datos Spontaneous Speech (habla espontánea) de Mozilla Common Voice para Michoacán Mazahua (mmc). El conjunto de datos contiene 871 representando 12 horas de grabaciones (12 horas validadas) de 12 hablantes.
La variante de Michoacán de mazahua o ‘Jñatjo’ es hablada en el norte Michoacán, México. Las tenencias donde se habla esta variante son Crescencio Morales, Boca de la Cañada, Rincón de San Mateo, El Tigre, La Barranca, La Dieta, La Fundición, Macho de Agua y Río de Guadalupe. Pertenece a la familia lingüística otomangue, subrama otopameana-central. Los datos obtenidos para este corpus de datos provienen de la tenencia de Crescencio Morales, ubicado en el municipio de Zitácuaro.
| Partición | Cuenta |
|---|---|
| Train | 565 |
| Test | 187 |
| Dev | 134 |
Preguntas: 195
Duración total: 11:20:35 [h:m:s]
Longitud promedio de transcripción (en carácteres): 328
Duración promedio: 46.88[s]
Duración validada: 40835.592[s]
Horas totales: 11.34[h]
Horas validas: 11.34[h]
El Mazahua de Michoacán se escribe utilizando alfabeto latino. Ha habido múltiples propuestas de alfabeto para el Mazahua y sus dos variantes, la del Estado de México (Jñajtro) y la de Michoacán (Jñatjo), las cuales no toman en cuenta los tonos de las palabras habiendo mucha confusión durante la escritura, los tonos de la lengua son sistémicos ya que pueden contrastar funciones gramaticales (posesión, demostrativos, definitud, tiempo, aspecto y modo) y determinar el significado de las palabras
Por ejemplo:
‘kjǚjnü’ metate – ‘kjǜjnü’ maíz
‘‘ë̀dyi’ llevar animales – ‘ ‘ë̂dyi’ medir
Para esta propuesta de alfabeto, se retomará el sugerido por la Universidad Intercultural del Estado de México expuesto en la tesis de Gloria Vargas Bernal (2013). Se tiene la visión de hacerlo más específico en el caso de los tonos.
Consonantes El Mazahua de Michoacán posee un inventario consonántico de 51 segmentos fonológicos. Hay oclusivas, implosivas, fricativas, africadas, nasales, aproximantes, laterales, vibrantes y glotales. También en estos segmentos hay realización de articulaciones secundarias como: glotalización, preaspiración, aspiración, labialización, prenasalización. En la propuesta de alfabeto para esta variante, los sonidos labializados [w] se consideran como una realización de la vocal cerrada [u], obteniendo 47 grafías.
Consonantes simples b, m, t, s, z, ts, ch, n, l, r, rr, x, zh, ñ, y, k, g, j, ‘ (salto glotal)
Articulaciones secundarias
Glotalización: b’, p’, t’, d’, s’, ts’, ch’, s’, dy, k’
Preaspiración: jm, jn, jñ, jdy
Aspiración : pj, tj, sj, tsj, chj, kj
Labialización: En esta articulación secundaria, se hace énfasis en el uso de la consonante seguido de una vocal cerrada ‘u’. ku, ngu
Prenasalización: mb, nd, ndz, ndzh, ng, ngu
Vocales El mazahua tiene inventario de 15 vocales: 9 orales y 6 nasales.
Vocales orales Se usa diéresis en la vocal para indicar la abertura. Los símbolos en corchetes corresponden a los sonidos presentes en Alfabeto Fonético Internacional (AFI).
a = [a]
ä = [ə]
e = [e]
ë = [ɛ]
i = [i]
o = [o]
ö = [ɔ]
u = [u]
ü = [ɨ]
Vocales nasales Se usa diacrítico macron en la vocal para indicar nasalidad.
ā = [ã]
ē = [ẽ]
ī = [ ĩ ]
ō = [õ]
ū = [ũ]
ǖ = [ ɨ̃ ]
En Unicode, “ǖ” tiene código 01D6 en minúscula y 01D5 en mayúscula.
Tonos (diacríticos en Unicode) El mazahua posee cuatro tonos: alto, bajo, ascendente y descendente. Los diacríticos se escriben encima de la primera vocal.
Tono alto: [ ́ ], 02CB
Tono bajo: [ ̀ ], 02CB
Tono descendente: [ ̂ ], 02C6
Tono ascendente: [ ̌ ], 02C6
Ejemplo:
ndzíncho – nueve
jmū̀ru – huevo
pjâd'ül – caballo
jyö̌rga – lagartija
A continuación se muestra una selección aleatoria de las preguntas usadas en el corpus.
Pjéko mbéka dyà gá jóʼo kʼa kʼôkútsʼu?
Jânge gá jnū̌tji yó xë́dyi?
Pjéko gí sôʼna koyája cultura o koyája jñátjo?
Pjéko rá sôʼo rá tsʼáji kʼa rá sígido rá jñátji jñátjo yó tǐʼi kʼo kʼa gí të́ʼë kʼa rá ñátji jñátjo?
Ná bes 'i já píts'iji?
A continuación se muestra una selección aleatoria de respuestas transcritas del corpus.
O má sé'e yá gá jók'ò ró kjǔgü k'e má ró sä́jä k'a Bṓndo 'ângo rí b'ǘ'ü jña ngá mí xìs'i, dyá mí pâra rá jñá'a nú ñângistjya jé k'o yó të́'ë dyà mi né'e rá núkji e mí xíts'i yá mí pâraji rék'o rí jñá'a pjéko rí mā̀mā. Ná angézeji 'àt'a k'e já ró xôrü nú ñângistjya
Yó xë́dyi m'a dyá jó'tiji nést'a'ò rí pà'tü m'adyà rí pà'tü ná jó'o rá m'ǒs'üji
Nuzgó k'o rí s'ô'n'a k'o 'náño jñá'a, gó 'náño të́'ë, à 'náño ñǐñi, rí nú'u nójo jângo gá jñáji angezeji nuts'k'ó rí né'e rá xôrü jângo gá jñá'a angezeji nuk'a kjâ'a má gó mí ná së̌zhi ngék'o dyá rá dyá rí xôrü ngék'o ts'íjk'e, ts'íjk'e rá xôrü jângon... ts'i jñá'a k'o 'náño jñá'a ngéjnu gó yó të́'ë, k'o 'náño ñá'a jñá'a, ná zògü gá ñáji, ná zògü xíji yó jñá'a, k'o ñá'a angezeji
Yó tǐ'i k'o k'a í të́'ë dyà sô'o rá ñáji nú jñátjo, nú má rá né'e rá ángezeji rá ñájii k'o yó t'á'má pjë́chiji rá jíchiji 'u máji yó rá jyòd'ü ték'o pjë́chib'e rá ñá'a nú jñátjò rá jñū́s'i kja skuǎma, rá dyépe rá ñáji, rá ñáji ngék'o rá xôrüji sàk'ü
Nuts'k'ó píts'iji 'ó pândaji kja ndéje ngéko rí súdye
El sistema de escritura propuesto para esta variante de mazahua queda abierto a futuras modificaciones y comentarios.
Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:
client_id - UUID hasheado de cierto usuario
audio_id - id numérico para archivo de audio
audio_file - nombre del archivo de audio
duration_ms - duración del audio en milisegundo
prompt_id - id numérico para el prompt
prompt - pregunta para el usuario
transcription - transcripción de la respuesta al audio
votes - número de personas quiene aprobaron cierta transcripción
age - edad de los hablantes1
gender - genero de los hablantes1
language - nombre de la lengua
split - para el modelado de datos, indica a qué subconjunto de datos pertenece este clip
char_per_sec - cuántos caracteres de transcripción por segundo de audio.
quality_tags - una evaluación automatizada del par transcripción-audio, separadas por |
transcription-length - caracteres por segundo inferior a 3 caracteres por segundo
speech-rate - tasa de caracteres por segundo superior a 30 caracteres por segundo
short-audio - duración del audio inferior a 2 segundos
long-audio - duración del audio superior a 30 segundos
Colectivo 'Jñatjo Ndixu', Santa Martha del Sur, Coyoacán, Ciudad de México.
Maestros Silverio Benítez García y Orlando Blanco y alumna María del Carmen de Jesús Guzmán, integrantes de Puntos de Innovación, Libertad, Arte, Educación y Saberes (PILARES), Ciudad de México.
Coordinaciones de Posgrado y Licenciatura de la Universidad Autónoma Metropolitana, Unidad Iztapalapa. Gracias por todo el apoyo recibido y por habernos brindado el Laboratorio de Lingüística (D110) para llevar a cabo nuestras grabaciones.
Mtro. Edgar Alberto Madrid Servin, coordinador y docente de la Licenciatura en Lingüística y Dr. Lucio Armando Mora-Bustos, docente e investigador de Lingüística, ambos de la Universidad Autónoma Metropolitana, Unidad Iztapalapa. Estamos totalmente agradecidos por su orientación y comentarios.
Rosario de Fátima Álvarez García <fatimaalvarezgr96@gmail.com>
Juan Castro Gallardo <jcgallardho@gmail.com>
Lorena Abigail Benítez Cruz <abigailbenitez66@gmail.com>
Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.
Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2