CODEA+2015 (Corpus de Documentos Españoles Anteriores a 1800), FFI2012-33646

De Textos Hispánicos
Saltar a: navegación, buscar
  CODEA+ 2015 (Corpus de Documentos Españoles Anteriores a 1800). FFI2012-33646
  Entidad financiadora: Ministerio de Economía y Competitividad
  Entidades participantes: UAH
  Duración: 2013/2016
  Investigador responsable: Pedro Sánchez-Prieto Borja
  Número de investigadores: 11
  Cuantía: 47.970 euros


El “Corpus de Documentos Españoles Anteriores a 1700” (CODEA 2011) recogió 1500 piezas de diferentes archivos expresamente preparadas en doble presentación (transcripción paleográfica, presentación crítica, y con una muestra de 63 facsímiles del Archivo Municipal de Toledo). Este corpus ha sido profusamente utilizado en la investigación por los historiadores de la lengua, pues ha venido a cubrir un hueco en la documentación diacrónica del español.

Este proyecto, realizado en los años 2013 a 2016, para el que se obtuvo una ayuda del MINECO, tuvo por objeto el desarrollo del corpus para llevarlo al estadio CODEA+ 2015, mediante un salto conceptual importante en las siguientes líneas de actuación: (1) ampliación significativa del número de documentos (1000 más) tanto en (a) lo cronológico como (b) lo geográfico y (c) lo diastrático, de manera que se logró un gran avance en cuanto a la representatividad respecto de las variedades internas del español; (2) incorporación de un sistema complejo de navegación, búsquedas y herramientas novedosas de análisis y (3) elaboración de estudios que propusieron y aplicaron una novedosa metodología cualitativa y cuantitativa de examen de los textos.

Un avance significativo fue la ampliación a 1800 del límite temporal, de modo que CODEA+ 2015 abarca textos archivísticos desde la época de orígenes (s. XI) al s. XVIII inclusive, lo que no tiene paralelo en corpus documentales en ninguna lengua. Se incorporaron piezas de nuevos archivos (entre ellos los de Toledo: Municipal, de la Catedral y del Convento de San Clemente, sorprendentemente desconocidos). Otra innovación importante fue la ampliación del espacio geográfico de origen de los textos, al incluir documentos de las comunidades bilingües (Galicia, Cataluña, Valencia, más el País Vasco), que habían quedado excluidas en CODEA 2011. Se incorporaron también piezas de las provincias peor representadas hasta ese momento en el corpus, como Ciudad Real, Albacete y Cuenca, y las andaluzas. El espectro social se amplió con diversos materiales, como expedientes de la inquisición o epistolarios femeninos.

Se desarrolló igualmente la navegación compleja en el corpus mediante la combinación de diversos parámetros; a los ya existentes en la fase anterior se añadieron los de autoría femenina, tipo documental, tipo de letra, materia escriptoria y medidas. Los resultados de las búsquedas se ofrecen en el nuevo proyecto de manera más detallada y variada que anteriormente, (a) como listado, (b) como tablas y gráficos y (c) como mapa que muestre el reparto geográfico de los elementos buscados.

Igualmente, se llevaron a cabo estudios sobre diversos aspectos del corpus, de la paleografía a la sintaxis y léxico, como parte imprescindible para el desarrollo de las herramientas de búsqueda y recursos de análisis citados. Se incorporaron técnicas cuantitativas de la escriptometría y dialectometría, como medio para comprender los procesos históricos del español. También se trabajó en datación automática de documentos sin fecha. La datación automática de documentos sin fecha (véase Metodología) es un trabajo extraordinariamente novedoso, pues permite situar mejor en el tiempo los procesos de cambio lingüístico, y además puede emplearse para calibrar si un documento es original o copia con cierta distancia temporal, e incluso si se trata de una falsificación.

Tras esta fase de ampliación y desarrollo, CODEA+ 2015 sigue siendo un corpus primario, ampliable, citable por su fiabilidad, de acceso libre e inmediato, gratuito, avalado por diversas instituciones y fuente obligada para estudios sobre todo lingüísticos, pero también paleográficos, históricos e incluso antropológicos y de historia de las mentalidades. Dado que nuestro Grupo de Investigación lidera la Red CHARTA, este proyecto contribuirá a posicionar mejor la investigación española sobre corpus en el panorama internacional, pues CODEA+ 2015 puede servir de modelo para otros corpus históricos en español u otras lenguas.

Pinchar para acceder a la web de CODEA+ 2015: http://corpuscodea.es/.