License:
CC0-1.0
Steward:
Common VoiceTask: ASR
Release Date: 12/5/2025
Format: MP3
Size: 231.89 MB
Share
A collection of scripted spoken phrases in Yaqui.
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
Esta ficha técnica corresponde a la versión 24.0 del conjunto de datos de voz guiada de Mozilla Common Voice para Yaqui (yaq). El conjunto de datos contiene 7771 clips reprentando 11.46 horas de grabaciones (10.21 horas validadas) de 5 hablantes.
El yaqui pertenece a la familia yutoazteca, junto con el tarahumara, el guarijío y el mayo forman el grupo taracahita. Yaqui es el exónimo para este idioma, el cual es nombrado jiak noki por sus hablantes nativos, quienes se reconocen como yoemem. INEGI (2020) menciona que, en México, existen 19,376 hablantes, distribuidos en Los Ocho Pueblos: Cócorit, Bácum, Tórim, Vícam, Pótam, Ráhum, Huíribis y Belem. Cabe mencionar que, existen comunidades yoemem en Arizona, E.E.U.U.
Sólo se trabajo con la variante del yaqui de México.
El conjunto de datos incluye la siguiente distribución de edad y género.
Información de género autodeclarada, el porcentaje se refiere al número de clips anotados con este género.
| Género | Porcentaje |
|---|---|
| Undefined | 36.0% |
| Female Feminine | 64.0% |
Información de edad autodeclarada, el porcentaje se refiere al número de clips anotados con este rango de edad.
| Rango de edad | Porcentaje |
|---|---|
| Twenties | 36.0% |
| Thirties | 27.0% |
| Fourties | 36.0% |
El corpus se formó de historias de vida de varios hablantes, que no son los que grabaron, así como de las frases y oraciones de la interfaz pontoon de Mozilla. Fueron 10 horas de audio grabadas en common voice con tres hablantes de la misma variante. La media de las oraciones era de 7-8 segundos, había oraciones más extensas y otras más cortas.
El corpus se formó de textos que ya han sido recopilados con anterioridad por otros autores, por lo tanto, se apoyan de la norma de escritura de jiak noki del INALI
a, e, i, o, u, aa, ee, ii, oo, uu, b, bw, ch, j, k, l, m, n, p, r, s, t, w, y, ´
A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus. Ian empo naateka jekaaniammea ne taʼane. Ien lautipo ne woi takaa ama woj mamni ama wepulem ne wasukte. Into ien lautipo topolta ne suua umuʼu jiak bwiapo nasuku. Bwe ne kaa luʼutiʼiʼa into ne bwiata kaabeta nenkiʼiʼa. Jinimpo lula bea ne ¡e... kaa yoʼowemmeu a etejobaeka ea!
Muestras automáticas aleatorias
¡mmm! nim chiʼila into waate jamuchim, waate yoem... waate jiak jamuchim nau orita yaakanimme.
Waka lutuʼuriata kaa junuen machika juni witwittima taʼaka yoʼotula ti jiuna.
Bweta nuento, nuen nuensu neu joiwakamme ne jijineo.
Aman beate jita puppuan itom teaʼu.
¿A bweʼe?
Estrada Fernández, Z., Carlón Flores, A., & GUTIERREZ ESTRADA, M. R. (2018). JEKA ANIATA JIAPSI: JIAK JAMUTTA ETEJOI. VIDA DE JEKA ANIA/HISTORIA DE UNA MUJER YAQUI. Estrada Fernández, Z., Encinas Silva, M. C., Valenzuela Buitimea, C., & Cruz Bejiponte, M. (2021). Jiak noki lutu’uria into tenkui etejoi: Historias sobre la cultura y sueños en lengua yaqui. Guerrero, L. (2019). Don Fermín, una historia de vida yaqui. Tlalocan, 24, 227-323.
| Dominio | Cuenta |
|---|---|
| Undefined | 7771 |
Se buscó bibliografía de textos de especialistas (citados anteriormente) que tuvieran texto escrito en jiak noki, después se separó, cada uno de los tres textos consultados, en oraciones y frases en un archivo de excel, se procedió con la normalización y posteriormente lo subieron a common voice.
Ana Patricia Peña Valenzuela xiapsi@gmail.com Sergio Isaí Hernández Martínez sergioisai@hotmail.com Eusebia Valenzuela Flores eusebiachebi@gmail.com Tomás Armando González Donman@gmail.com Natalia Ozuna Cupiz cmyaq1@gmail.com
@article{guerrero2019don, title={Don Ferm{'\i}n, una historia de vida yaqui}, author={Guerrero, Lili{'a}n}, journal={Tlalocan}, volume={24}, pages={227--323}, year={2019} } @article{estrada2021jiak, title={Jiak noki lutu’uria into tenkui etejoi: Historias sobre la cultura y sue{~n}os en lengua yaqui}, author={Estrada Fern{'a}ndez, Zarina and Encinas Silva, Manuel Carlos and Valenzuela Buitimea, Crescencio and Cruz Bejiponte, Melquiades}, year={2021} } @book{estrada2018jeka, title={JEKA ANIATA JIAPSI: JIAK JAMUTTA ETEJOI. VIDA DE JEKA ANIA/HISTORIA DE UNA MUJER YAQUI}, author={Estrada Fern{'a}ndez, Zarina and Carl{'o}n Flores, Anabela and GUTIERREZ ESTRADA, MARIA REBECA and others}, year={2018} }
Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.