License:
CC0-1.0
Steward:
Common VoiceTask: ASR
Release Date: 12/5/2025
Format: MP3
Size: 231.87 MB
Share
A collection of scripted spoken phrases in Central Puebla Nahuatl.
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
Esta ficha técnica corresponde a la versión 24.0 del conjunto de datos de voz guiada de Mozilla Common Voice para Central Puebla Nahuatl (ncx). El conjunto de datos contiene 9509 clips reprentando 11.77 horas de grabaciones (10.69 horas validadas) de 41 hablantes.
Náhuatl que se utiliza mayormente en el Centro de Veracruz y Valle de Tehuacán y alrededores, además de ser entendible en Oaxaca (norte), Morelos, Tlaxcala, Estado de México y Ciudad de México.
El conjunto de datos incluye la siguiente distribución de edad y género.
Información de género autodeclarada, el porcentaje se refiere al número de clips anotados con este género.
| Género | Porcentaje |
|---|---|
| Undefined | 61.0% |
| Male Masculine | 1.0% |
| Female Feminine | 38.0% |
Información de edad autodeclarada, el porcentaje se refiere al número de clips anotados con este rango de edad.
| Rango de edad | Porcentaje |
|---|---|
| Undefined | 4.0% |
| Twenties | 15.0% |
| Thirties | 63.0% |
| Fourties | 17.0% |
Frases más bien cortas, de tres a cinco palabras en su mayoría y sacadas de contextos de socialización comunes.
Escritura práctica, utilizando la pauta propuesta por el Instituto Lingüístico de Verano.
a b ch e f g i j k l m n o p r s t tl ts u x y
A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus. Nolti. ¿Ken nanmoestikatej? Tsinokej. ¿Kenijki nanmoyestikatej? Yope kiaui, nikeleuia se kafentsi. Yopejki kiaui, nikeleuia se kafentsi. Nimitstlasojkamatilia, moxochimauitsotsin.
Muestras automáticas aleatorias
Kuali, momauitsotsin
Panpa ne amo nechyolkokoa nimotemakas mopatka.
¿Tikmati tiajkuis?
¿Nin chikiuitl non moaxka?
¿Kanin mochan?
Ne noneuian Ketsaltsin, saiktlami astatl Tetlikuiti Tlasemanki onpa Chiaualpan
| Dominio | Cuenta |
|---|---|
| Undefined | 2832 |
| Finance | 212 |
| Healthcare | 212 |
| Language Fundamentals | 2047 |
| Media Entertainment | 4700 |
Se siguieron pautas comunes de lenguaje cotidiano y representativo.
Luis Samuel Santiago Melchor: lssm8676969@gmail.com
Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.