Common Voice Scripted Speech 23.0 - Seri
Locale: sei
Size: 80.69 MB
Task: ASR
Format: MP3
License: CC-0
{{NATIVE_NAME}} — {{ENGLISH_NAME}} ({{LOCALE}})
Esta ficha técnica corresponde a la versión 23.0 del conjunto de datos de voz guiada de Mozilla Common Voice para {{ENGLISH_NAME}} ({{LOCALE}}).
Idioma
El idioma seri, conocida como cmiique iitom [kw̃ĩˈkiitom] en el idioma mismo, se habla a lo largo del Golfo de California en el estado mexicano de Sonora. Desde 1970, el pueblo seri vive en un ejido decretado por el presidente mexicano, que incluye dos pueblos, Socaaix (Punta Chueca) y Haxöl Iihom (Desemboque). Hoy en día hay alrededor de 900 hablantes del idioma.
El seri es una lengua aislada, aunque claramente ha tenido una larga historia de contacto y préstamo con otras lenguas indígenas de la región del desierto de Sonora. El seri se caracteriza por patrones morfologicos con núcleo marcado. Su sintaxis muestra orden núcleo final, lo que se observa, por ejemplo, en el orden básico de palabra SOV. Los pronombres se omiten con frecuencia y la lengua hace un uso extensivo del encadenamiento de cláusulas. En lugar de adposiciones, la lengua utiliza sustantivos relacionales que están poseídos por el nominal que modifica. Su fonología no destaca mucho, pero la lengua permite grupos consonánticos complejos y muestra ensordecimiento consonántico y vocálico.
Variantes
No hay diferencias dialectales significativas en las dos comunidades donde se habla seri.
Información demográfica
El conjunto de datos incluye la siguiente distribución de edad y género.
Género
Información de género autodeclarada, frecuencia se refiere al número de clips anotados con este género.
Edad
Información de edad autodeclarada, frecuencia se refiere al número de clips anotados con este rango de edad.
Sistema de escritura
El sistema de escritura del idioma seri se desarrolló en la década de 1950 y se ajusta lo más posible a la ortografía española, en particular al uso de la c y la qu para el fonema /k/, y el uso del acento para marcar el énfasis en posiciones no estándar. Consta de 23 letras y dos dígrafos, y se atiene estrechamente al inventario de fonemas.
Tabla de símbolos
a, aa, c, cö, e, ee, f, h, i, ii, j, jö, l, ḻ, m, n, o, oo, p, qu, r, s, t, x, xö, y, z
Muestra
A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.
Xicaquiziil coi pácataj x, canoaa com cösiizcam aha. Zimjöc oo caafp iha. Hatee scoos aha. Zixquisiil quih ata quih hacx iteesxo, haaco cop ipac cöyoozquim. Ziix coqueht tiquij quiix in toc cömilj.
Fuentes
Moser, Mary Beck, & Marlett, Stephen A. (Eds.). (2010). Comcáac quih yaza quih hant ihíip hac: cmiique iitom, cocsar iitom, maricáana iitom. Plaza y Valdes.
Dominios textuales
Las oraciones son uniformemente oraciones de ejemplo de diccionario, aunque algunas de ellas provienen de textos orales.
Licencia
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.