Saltar al contenido
Uno o dos de tus gestos, el más reciente libro de cuentos de Jorge Gómez Jiménez, editor de Letralia

Se incorporan 21 millones de nuevas formas ortográficas al Corpes XXI

lunes 15 de febrero de 2021
¡Compártelo en tus redes!
Corpus del Español del Siglo XXI, Corpes XXI
La versión 0.93 del Corpes XXI incorpora más de 316.000 documentos.

El Corpus del Español del Siglo XXI, Corpes XXI, que desarrolla la Real Academia Española en colaboración con la Asociación de Academias de la Lengua Española (Asale), crece en su actualización 0.93 con la incorporación de 21 millones de nuevas formas ortográficas y más de 316.000 documentos.

Más de cuatro millones y medio de las formas incorporadas en esta actualización son transcripciones de textos orales (programas de radio y televisión, entrevistas en medios de comunicación, YouTube y otras fuentes). Algunos archivos ofrecen el sonido alineado correspondiente a la transcripción; en otros es posible la descarga del archivo de audio, además de la visualización del video, de acuerdo con la procedencia del texto fuente.

Por lo que respecta al bloque de ficción (novelas, guiones de cine, relatos, obras de teatro), las formas del Corpes sobrepasan los 93 millones, mientras que las contenidas en textos de libros de no ficción y en publicaciones periódicas (ciencias sociales, salud, política, artes, tecnología) se acercan a los 238 millones.

Los textos procedentes de libros suponen casi 166 millones de formas y las publicaciones periódicas están representadas con unos 158 millones. Seis millones y medio más provienen de blogs, entrevistas digitales, redes sociales y miscelánea.

En cuanto a la distribución temporal, aumenta el número de textos producidos entre 2016 y 2020, con algo más de 42 millones de formas en esta versión. Por lustros, el mayor peso en esta versión, todavía provisional, recae en el segmento 2006-2010, con más de 107 millones de formas; más de 100 millones corresponden a formas producidas entre 2001 y 2005; y, de 2011 a 2015, alcanza casi 82 millones de formas.

El equilibrio previsto entre España y América (30%-70%) se mantiene: las formas correspondientes a textos generados en España suponen algo más del 30% y los de América superan los 217 millones de formas. Además, el Corpes contiene textos procedentes de Filipinas y Guinea Ecuatorial.

El Corpes XXI es un corpus de referencia. En lingüística, un corpus es un conjunto lo más extenso y ordenado posible de textos. Los corpus son empleados habitualmente para conocer el contexto y las propiedades de las palabras, expresiones y construcciones a partir de los usos reales registrados. Dado el tamaño que poseen, los corpus tienen que estar en formato electrónico.

Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia. En el caso del español actual, el corpus debe contener textos de todos los tipos y también de todos los países que constituyen el mundo hispánico.

La primera versión del Corpes XXI se presentó en el VI Congreso Internacional de la Lengua Española (Panamá, octubre de 2013) y desde diciembre de 2013 es posible realizar consultas en la herramienta a través de una aplicación específica que permite recuperar los casos relacionados con una palabra, una expresión o una categoría o subcategoría gramatical, contenidos en el corpus. En la primera fase del proyecto, finalizada en diciembre de 2014, se incorporaron textos producidos entre 2001 y 2012.

En abril de 2015 se publicó la versión 0.8 con dos grandes novedades: la posibilidad de la recuperación del sonido alineado con textos orales y la consulta por categoría gramatical. En noviembre del mismo año, la 0.82 con más de 215 millones de formas. La versión 0.83 se publicó en junio de 2016 con un incremento de unos diez millones sobre la anterior. En julio de 2018, la versión 0.9 llegó a los 276 millones y la 0.91 se publicó en diciembre del mismo año con unos 286 millones de formas. Ya en 2020, en mayo, se publicó la versión 0.92, con algo más de 312 millones de formas.

Fuente: RAE
Letralia