Diferencia entre revisiones de «CODEA+2015 (Corpus de Documentos Españoles Anteriores a 1800)»

De Textos Hispánicos
Saltar a: navegación, buscar
(Descripción proyecto CODEA+2015)
Línea 1: Línea 1:
 +
CODEA+2015 (Corpus de Documentos Españoles Anteriores a 1700). FFI2012-33646
 +
Entidad financiadora: Ministerio de Economía y Competitividad.
 +
Entidades participantes: UAH.
 +
Investigador responsable: Pedro Sánchez-Prieto Borja.
 +
Número de investigadores:
 +
Cuantía: 47.970 €
 +
 +
 
El “Corpus de Documentos Españoles Anteriores a 1700” (en su estado actual, CODEA 2011 http://www.textoshispanicos.es) contiene 1502 piezas de diferentes archivos expresamente preparadas en doble presentación (transcripción paleográfica, presentación crítica, y con una muestra de 63 facsímiles del Archivo Municipal de Toledo). Está siendo profusamente utilizado en la investigación por los historiadores de la lengua, pues ha venido a cubrir un hueco en la documentación diacrónica del español.
 
El “Corpus de Documentos Españoles Anteriores a 1700” (en su estado actual, CODEA 2011 http://www.textoshispanicos.es) contiene 1502 piezas de diferentes archivos expresamente preparadas en doble presentación (transcripción paleográfica, presentación crítica, y con una muestra de 63 facsímiles del Archivo Municipal de Toledo). Está siendo profusamente utilizado en la investigación por los historiadores de la lengua, pues ha venido a cubrir un hueco en la documentación diacrónica del español.
 
El proyecto actual para el que se solicita esta ayuda tiene por objeto el desarrollo del corpus no como una segunda fase, sino para llevarlo al estadio CODEA+ 2015, mediante un salto conceptual importante en las siguientes líneas de actuación: (1) ampliación significativa del número de documentos (1000 más) tanto en (a) lo cronológico como (b) lo geográfico y (c) lo diastrático, de manera que se logre un enorme avance en cuanto a la representatividad respecto de las variedades internas del español; (2) incorporación de un sistema complejo de navegación, búsquedas y herramientas novedosas de análisis y (3) elaboración de estudios que propongan y apliquen una novedosa metodología cualitativa y cuantitativa de examen de los textos.
 
El proyecto actual para el que se solicita esta ayuda tiene por objeto el desarrollo del corpus no como una segunda fase, sino para llevarlo al estadio CODEA+ 2015, mediante un salto conceptual importante en las siguientes líneas de actuación: (1) ampliación significativa del número de documentos (1000 más) tanto en (a) lo cronológico como (b) lo geográfico y (c) lo diastrático, de manera que se logre un enorme avance en cuanto a la representatividad respecto de las variedades internas del español; (2) incorporación de un sistema complejo de navegación, búsquedas y herramientas novedosas de análisis y (3) elaboración de estudios que propongan y apliquen una novedosa metodología cualitativa y cuantitativa de examen de los textos.
 
Un avance significativo es la ampliación a 1800 del límite temporal, de modo que CODEA+ 2015 abarque textos archivísticos desde la época de orígenes (s. XI) al s. XVIII inclusive, lo que no tiene paralelo en corpus documentales en ninguna lengua. Se incorporarán piezas de nuevos archivos (relevantes serán las de los de Toledo: Municipal, de la Catedral y del Convento de San Clemente, sorprendentemente desconocidas). Otra innovación importante consistirá en la ampliación del espacio geográfico de origen de los textos, al incluir documentos de las comunidades bilingües (Galicia, Cataluña, Valencia, más el País Vasco), que quedaron excluidas en CODEA 2011. Se incorporarán también piezas de las provincias peor representadas hasta ahora en el corpus, como Ciudad Real, Albacete y Cuenca, y las andaluzas. El espectro social se ampliará con expedientes de la inquisición y epistolarios femeninos, entre otros.
 
Un avance significativo es la ampliación a 1800 del límite temporal, de modo que CODEA+ 2015 abarque textos archivísticos desde la época de orígenes (s. XI) al s. XVIII inclusive, lo que no tiene paralelo en corpus documentales en ninguna lengua. Se incorporarán piezas de nuevos archivos (relevantes serán las de los de Toledo: Municipal, de la Catedral y del Convento de San Clemente, sorprendentemente desconocidas). Otra innovación importante consistirá en la ampliación del espacio geográfico de origen de los textos, al incluir documentos de las comunidades bilingües (Galicia, Cataluña, Valencia, más el País Vasco), que quedaron excluidas en CODEA 2011. Se incorporarán también piezas de las provincias peor representadas hasta ahora en el corpus, como Ciudad Real, Albacete y Cuenca, y las andaluzas. El espectro social se ampliará con expedientes de la inquisición y epistolarios femeninos, entre otros.
 
Está prevista la navegación compleja en el corpus mediante la combinación de diversos parámetros; a los actuales se añadirán los de autor hombre/mujer, tipo documental, tipo de letra, materia escriptoria y medidas. Se llevará a cabo la lematización de los textos y se diseñará un buscador por lemas, formas, frecuencias y colocaciones. Los resultados de las búsquedas se ofrecerán (a) como listado, (b) como tablas y gráficos y (c) como mapa que muestre el reparto geográfico de los elementos buscados.
 
Está prevista la navegación compleja en el corpus mediante la combinación de diversos parámetros; a los actuales se añadirán los de autor hombre/mujer, tipo documental, tipo de letra, materia escriptoria y medidas. Se llevará a cabo la lematización de los textos y se diseñará un buscador por lemas, formas, frecuencias y colocaciones. Los resultados de las búsquedas se ofrecerán (a) como listado, (b) como tablas y gráficos y (c) como mapa que muestre el reparto geográfico de los elementos buscados.
Llevaremos a cabo estudios sobre diversos aspectos del corpus, de la paleografía a la sintaxis y léxico, como parte imprescindible para el desrrollo de las herramientas de búsqueda y recursos de análisis citados. Se incorporarán técnicas cuantitativas de la escriptometría y dialectometría, como medio para comprender los procesos históricos del español. También se trabajará en datación automática de documentos sin fecha. La datación automática de documentos sin fecha (véase Metodología) es un trabajo extraordinariamente novedoso, pues permitirá situar mejor en el tiempo los procesos de cambio lingüístico, y además servirá para calibrar si un documento es original o copia con cierta distancia temproal, e incluso si se trata de una falsificación.
+
Llevaremos a cabo estudios sobre diversos aspectos del corpus, de la paleografía a la sintaxis y léxico, como parte imprescindible para el desarrollo de las herramientas de búsqueda y recursos de análisis citados. Se incorporarán técnicas cuantitativas de la escriptometría y dialectometría, como medio para comprender los procesos históricos del español. También se trabajará en datación automática de documentos sin fecha. La datación automática de documentos sin fecha (véase Metodología) es un trabajo extraordinariamente novedoso, pues permitirá situar mejor en el tiempo los procesos de cambio lingüístico, y además servirá para calibrar si un documento es original o copia con cierta distancia temproal, e incluso si se trata de una falsificación.
 
Se pretende pues que CODEA+ 2015 sea un corpus primario, ampliable, citable por su fiabilidad, de acceso libre e inmediato, gratuito, avalado por diversas instituciones y fuente obligada para estudios sobre todo lingüísticos, pero también paleográficos, históricos e incluso antropológicos y de historia de las mentalidades.
 
Se pretende pues que CODEA+ 2015 sea un corpus primario, ampliable, citable por su fiabilidad, de acceso libre e inmediato, gratuito, avalado por diversas instituciones y fuente obligada para estudios sobre todo lingüísticos, pero también paleográficos, históricos e incluso antropológicos y de historia de las mentalidades.
 
Dado que nuestro Grupo de Investigación lidera la Red CHARTA, este proyecto contribuirá a posicionar mejor la investigación española sobre corpus en el panorama internacional, pues CODEA+ 2015 puede servir de modelo para otros corpus históricos en español u otras lenguas.
 
Dado que nuestro Grupo de Investigación lidera la Red CHARTA, este proyecto contribuirá a posicionar mejor la investigación española sobre corpus en el panorama internacional, pues CODEA+ 2015 puede servir de modelo para otros corpus históricos en español u otras lenguas.

Revisión de 13:31 23 abr 2015

CODEA+2015 (Corpus de Documentos Españoles Anteriores a 1700). FFI2012-33646 Entidad financiadora: Ministerio de Economía y Competitividad. Entidades participantes: UAH. Investigador responsable: Pedro Sánchez-Prieto Borja. Número de investigadores: Cuantía: 47.970 €


El “Corpus de Documentos Españoles Anteriores a 1700” (en su estado actual, CODEA 2011 http://www.textoshispanicos.es) contiene 1502 piezas de diferentes archivos expresamente preparadas en doble presentación (transcripción paleográfica, presentación crítica, y con una muestra de 63 facsímiles del Archivo Municipal de Toledo). Está siendo profusamente utilizado en la investigación por los historiadores de la lengua, pues ha venido a cubrir un hueco en la documentación diacrónica del español. El proyecto actual para el que se solicita esta ayuda tiene por objeto el desarrollo del corpus no como una segunda fase, sino para llevarlo al estadio CODEA+ 2015, mediante un salto conceptual importante en las siguientes líneas de actuación: (1) ampliación significativa del número de documentos (1000 más) tanto en (a) lo cronológico como (b) lo geográfico y (c) lo diastrático, de manera que se logre un enorme avance en cuanto a la representatividad respecto de las variedades internas del español; (2) incorporación de un sistema complejo de navegación, búsquedas y herramientas novedosas de análisis y (3) elaboración de estudios que propongan y apliquen una novedosa metodología cualitativa y cuantitativa de examen de los textos. Un avance significativo es la ampliación a 1800 del límite temporal, de modo que CODEA+ 2015 abarque textos archivísticos desde la época de orígenes (s. XI) al s. XVIII inclusive, lo que no tiene paralelo en corpus documentales en ninguna lengua. Se incorporarán piezas de nuevos archivos (relevantes serán las de los de Toledo: Municipal, de la Catedral y del Convento de San Clemente, sorprendentemente desconocidas). Otra innovación importante consistirá en la ampliación del espacio geográfico de origen de los textos, al incluir documentos de las comunidades bilingües (Galicia, Cataluña, Valencia, más el País Vasco), que quedaron excluidas en CODEA 2011. Se incorporarán también piezas de las provincias peor representadas hasta ahora en el corpus, como Ciudad Real, Albacete y Cuenca, y las andaluzas. El espectro social se ampliará con expedientes de la inquisición y epistolarios femeninos, entre otros. Está prevista la navegación compleja en el corpus mediante la combinación de diversos parámetros; a los actuales se añadirán los de autor hombre/mujer, tipo documental, tipo de letra, materia escriptoria y medidas. Se llevará a cabo la lematización de los textos y se diseñará un buscador por lemas, formas, frecuencias y colocaciones. Los resultados de las búsquedas se ofrecerán (a) como listado, (b) como tablas y gráficos y (c) como mapa que muestre el reparto geográfico de los elementos buscados. Llevaremos a cabo estudios sobre diversos aspectos del corpus, de la paleografía a la sintaxis y léxico, como parte imprescindible para el desarrollo de las herramientas de búsqueda y recursos de análisis citados. Se incorporarán técnicas cuantitativas de la escriptometría y dialectometría, como medio para comprender los procesos históricos del español. También se trabajará en datación automática de documentos sin fecha. La datación automática de documentos sin fecha (véase Metodología) es un trabajo extraordinariamente novedoso, pues permitirá situar mejor en el tiempo los procesos de cambio lingüístico, y además servirá para calibrar si un documento es original o copia con cierta distancia temproal, e incluso si se trata de una falsificación. Se pretende pues que CODEA+ 2015 sea un corpus primario, ampliable, citable por su fiabilidad, de acceso libre e inmediato, gratuito, avalado por diversas instituciones y fuente obligada para estudios sobre todo lingüísticos, pero también paleográficos, históricos e incluso antropológicos y de historia de las mentalidades. Dado que nuestro Grupo de Investigación lidera la Red CHARTA, este proyecto contribuirá a posicionar mejor la investigación española sobre corpus en el panorama internacional, pues CODEA+ 2015 puede servir de modelo para otros corpus históricos en español u otras lenguas.