Common Voice Scripted Speech 23.0 - Central Puebla Nahuatl

Locale: ncx

Size: 89.74 MB

Task: ASR

Format: MP3

License: CC-0


[nauatl, nawatl, mexikano] — Central Puebla Nahuatl (ncx)

Esta ficha técnica corresponde a la versión 23.0 del conjunto de datos de voz guiada de Mozilla Common Voice para Central Puebla Nahuatl (ncx). El conjunto de datos contiene 12 horas de grabaciones (11 horas validadas) de 41 hablantes.

Idioma

Náhuatl que se utiliza mayormente en el Centro de Veracruz y Valle de Tehuacán y alrededores, además de ser entendible en Oaxaca (norte), Morelos, Tlaxcala, Estado de México y Ciudad de México.

Información demográfica

El conjunto de datos incluye la siguiente distribución de edad y género.

Género

Información de género autodeclarada, frecuencia se refiere al número de clips anotados con este género.

Edad

Información de edad autodeclarada, frecuencia se refiere al número de clips anotados con este rango de edad.

Corpus de texto

Frases más bien cortas, de tres a cinco palabras en su mayoría y sacadas de contextos de socialización comunes.

Sistema de escritura

Escritura práctica, utilizando la pauta propuesta por el Instituto Lingüístico de Verano.

Tabla de símbolos

a b ch e f g i j k l m n o p r s t tl ts u x y

Muestra

A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus. Nolti. ¿Ken nanmoestikatej? Tsinokej. ¿Kenijki nanmoyestikatej? Yope kiaui, nikeleuia se kafentsi. Yopejki kiaui, nikeleuia se kafentsi. Nimitstlasojkamatilia, moxochimauitsotsin.

Fuentes

Ne noneuian Ketsaltsin, saiktlami astatl Tetlikuiti Tlasemanki onpa Chiaualpan

Dominios textuales

General, Medios y Entretenimiento

Procesamiento

Se siguieron pautas comunes de lenguaje cotidiano y representativo.

Autores de la ficha técnica

Luis Samuel Santiago Melchor: lssm8676969@gmail.com

Financiamiento

Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.