Corpus de documentos españoles anteriores a 1900 (CODEA+ 2020), FFI2017-82770-P

De Textos Hispánicos
Revisión de 00:23 27 nov 2019 por Psprieto (Discusión | contribuciones) (Página creada con «Los objetivos del proyecto son, entre otros: La '''transcripción de 1500 nuevos documentos'''. De ellos, unos 750 corresponderán al siglo XIX (250 de emisoras femeninas;...»)

(dif) ← Revisión anterior | Revisión actual (dif) | Revisión siguiente → (dif)
Saltar a: navegación, buscar

Los objetivos del proyecto son, entre otros:

La transcripción de 1500 nuevos documentos. De ellos, unos 750 corresponderán al siglo XIX (250 de emisoras femeninas; 250 de emisores de niveles socioeducacionales medios y bajos) y los 750 restantes servirán para completar lagunas espacio-temporales entre los siglos XII y XVIII, así como para mejorar la representación de escriptores de nivel socioeducacional bajo y medio y de mujeres en estos siglos. El corpus amplía así su límite temporal de 1800 (actual CODEA+ 2015) a 1900 (próximo CODEA+ 2020).

Lematización del corpus y categorización del léxico en 100 materias. Será posible navegar desde las materias (lo más general y abstracto) hacia la familia léxica, el lema, las formas críticas y paleográficas, y de manera inversa de la forma paleográfica a la materia. Se podrá consultar el corpus por cualquiera de estas categorías: por forma paleográfica, forma crítica, lema, familia léxica y materia. P. ej.: co<m>probaua, comprobava, comprobar, probar, ‘conocimiento’.

Localización automática de documentos que carezcan de data tópica. También se asignará datación conjetural a los documentos no datados, logro ya alcanzado en la etapa anterior gracias a una colaboración con la universidad de Tokio (Kawasaki 2014).

Mejores posibilidades de filtrado por diferentes parámetros. Por ejemplo, un usuario podría seleccionar todos los documentos escritos por mujeres en el siglo XVIII, eliminar los correspondientes a determinada escriptora y realizar la búsqueda sobre los restantes.

Versión en audio de parte de los documentos del corpus.