Common Voice Scripted Speech 24.0 - Teutila Cuicatec
License:
CC0-1.0
Steward:
Common Voice
Task: ASR
Release Date: 12/5/2025
Format: MP3
Size: 209.52 MB
Description
A collection of scripted spoken phrases in Teutila Cuicatec.
Specifics
Considerations
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset
Processes
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
Metadata
[Dbaku] — Teutila Cuicatec (cut)
Esta ficha técnica corresponde a la versión 24.0 del conjunto de datos de voz guiada de Mozilla Common Voice para Teutila Cuicatec (cut). El conjunto de datos contiene 5616 clips reprentando 10.34 horas de grabaciones (10.09 horas validadas) de 15 hablantes.
Idioma
De acuerdo al Catálogo de las Lenguas Indígenas Nacionales (2009), del Instituto Nacional de las Lenguas Indígenas (INALI), el kuikateko es una lengua originaria que pertenece a la agrupación de la familia oto-mangue, esta familia lingüística es la más grande del país y las lenguas oto-mangues se hablan desde el estado de San Luis Potosí, hasta el estado de Oaxaca. El kuikateko o dbaku, con el que se trabajó para la grabación de voz de habla leída, es de acuerdo al INALI, de la variante centro, se habla en la comunidad de Santa María Tlalixtac o Nñia Teko, municipio número 438 del estado de Oaxaca, el cual se ubica en la región Cañada o también conocida como Sierra de los Hermanos Flores Magón.
Variantes
Variante centro
Información demográfica
El conjunto de datos incluye la siguiente distribución de edad y género.
Género
Información de género autodeclarada, el porcentaje se refiere al número de clips anotados con este género.
| Género | Porcentaje |
|---|---|
| Undefined | 32.0% |
| Female Feminine | 68.0% |
Edad
Información de edad autodeclarada, el porcentaje se refiere al número de clips anotados con este rango de edad.
| Rango de edad | Porcentaje |
|---|---|
| Undefined | 25.0% |
| Thirties | 42.0% |
| Fourties | 17.0% |
| Fifties | 16.0% |
Corpus de texto
Se capturaron frases relacionados a temas de carácter general, sólo algunas frases forman parte de una breve traducción del Quijote de la Mancha.
Sistema de escritura
La escritura que se utilizó es la misma que se usa para el escribir en español, con la diferencia de que se agregaron más de un acento en algunas palabras, ya que la lengua dbaku se caracteriza por ser una lengua tonal.
Tabla de símbolos
Se utilizó una propuesta de alfabeto que aún no está plenamente difundido en el interior de la comunidad, ya que existen otras propuestas de alfabeto.
Muestra
A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus. Diidin bee chet beʼe chete. Nkueene kaʼa chet beʼe lin. Nas iyndes eʼenne, kuendogde kuendogde ka'a. Deʼes smiñanne: am ndogndeche. Mane, ¿deʼe iydinne nmiñu?.
Muestras automáticas aleatorias
Ndetes am keʼes dittu kee inñan a maʼa inniiya iynunaya.
Ndano ndi ama yaase nwe iyndikchinno.
Nminñunne ndi achinnutu, kabiane a tama ubi.
Addenos kugbi ndokoya aʼmaʼya dbenoya.
Tndubekuen dkaya cheʼe ndi tama bia sdukchi.
Fuentes
Dominios textuales
| Dominio | Cuenta |
|---|---|
| Undefined | 5616 |
Procesamiento
Postprocesamiento recomendado
Enlaces comunitarios
Discusiones
Contribuir
Autores de la ficha técnica
Adalberta Robles Avendaño adaavendano4@gmail.com
Criterios de citación
No
Financiamiento
Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.
Licencia
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.
