CHARTA 3.0

De Textos Hispánicos
Saltar a: navegación, buscar

El proyecto CHARTA 3.0 tiene como objetivo principal la implementación técnica del Corpus CHARTA (Corpus Hispánico y Americano en la Red: Textos Antiguos), de acuerdo con los estándares de la Web semántica o Web 3.0. El Corpus CHARTA (http://corpuscharta.es) ofrece una edición múltiple (transcripción paleográfica, presentación crítica y facsímil) de más de 2.000 textos archivísticos en español de los siglos XII al XIX y es un referente nacional e internacional en el ámbito de la lingüística de corpus y de las humanidades digitales. Sin embargo, este archivo digital aún no está anotado lingüísticamente ni lematizado, por lo que no representa todavía un corpus altamente productivo para el estudio de la historia del español, al no permitir la búsqueda por lemas ni por categorías morfológicas. Por otra parte, la codificación de los textos no se ha actualizado de acuerdo con las prácticas actuales en el campo de las humanidades digitales, a través de un lenguaje de marcado estandarizado como XML-TEI, lo que permitiría interconectar las diferentes presentaciones de cada texto (paleográfica, semipaleográfica, regularizada, crítica, modernizada, etc.) y desarrollar una interfaz de búsqueda más avanzada que permitiese ampliar y refinar las búsquedas de cualquier elemento etiquetado, bien sea por documento (información extralingüística), por discurso (información tipológica y de contenido) o por texto (información lingüística); en este último caso, además, se activaría la búsqueda de acuerdo con los diferentes niveles editoriales definidos en el corpus (forma original, forma normalizada, clase de palabra, lema, etc.). Existe en la actualidad una solución técnica altamente satisfactoria, ya testada con éxito en corpus históricos peninsulares, que permite reunir en un único soporte XML tanto el corpus anotado y lematizado como la propia edición digital de los documentos. Se trata de la plataforma interactiva TEITOK (http://teitok.org), desarrollada por Maarten Jansen en 2012 para el proyecto P.S. Post Scriptum, financiado por el Consejo Europeo de Investigación (2012-17). Así pues, el principal objetivo de este proyecto es ejecutar la migración del actual corpus CHARTA al sistema TEITOK, propiciando así la indispensable implicación del corpus en los dominios semánticos y ontológicos de la Web 3.0.