O Portal de Corpora Paralelos de Simplificação disponibiliza, via uma aplicação web, corpora e subcorpora (textos e suas subpartes) simplificados, produzidos semi-automaticamente por um usuário experiente que fez uso do Editor de Anotação de Simplificação, também criado no projeto PorSimples. Esse editor salva as simplificações e todas as informações deste processo numa base de dados, possibilitando tipos variados de buscas para futuros estudos estatísticos e produção automatizada de textos simplificados. As funções projetadas para o Portal são:
1) Disponibilização de corpora e subcorpora (textos, sentenças, palavras e/ou partículas) para download;
2) Busca e acesso de corpora e subcorpora que tenham sofrido algum tipo de operação de simplificação, dentre as 11 definidas no PorSimples: sem simplificação, reescrita simples, reescrita forte, reescrita em ordem sujeito-verbo-objeto, mudança de voz, inversão de ordem da sentença, divisão de sentença, união de sentenças, remoção de sentença, remoção parcial de sentença e substituição léxica;
3) Busca e acesso de corpora e subcorpora que contenham alguma forma de construção sintática, dentre os 5 construtores tratados no PorSimples: apostos, orações relativas, orações coordenadas, orações subordinadas e orações na voz passiva;
4) Busca e acesso de conhecimento como:
Página inicial
O portal
4.1) dicionário de palavras simples;
4.2) marcadores discursivos e suas sugestões de substituição, quando forem ambíguos ou longos;
4.3) dicionário de palavras complexas;
4.4) dicionário de pares de palavras original - substituídas via operações de reescrita simples e forte;
4.2) marcadores discursivos e suas sugestões de substituição, quando forem ambíguos ou longos;
4.3) dicionário de palavras complexas;
4.4) dicionário de pares de palavras original - substituídas via operações de reescrita simples e forte;
5) Busca e acesso de corpora e subcorpora pelo seu tipo de simplificação: original - sem simplificação, simplificado natural e simplificado forte;
6) Acesso ao alinhamento entre os textos dos subcorpora;
7) Acesso aos 8 arquivos XCES de cada texto cru (dados primários) de um corpora:
6) Acesso ao alinhamento entre os textos dos subcorpora;
7) Acesso aos 8 arquivos XCES de cada texto cru (dados primários) de um corpora:
- Arquivo de cabeçalho em formato XCES;
- Marcação standoff da estrutura lógica do documento;
- Marcação standoff das fronteiras de sentença;
- Marcação standoff referente aos tokens (palavras);
- Marcação referente às características morfossintáticas dos tokens;
- Marcação referente às características sintáticas da sentença;
- Marcação referente ao alinhamento de sentenças entre textos;
- Marcação referente às simplificações de cada sentença.
- Marcação standoff da estrutura lógica do documento;
- Marcação standoff das fronteiras de sentença;
- Marcação standoff referente aos tokens (palavras);
- Marcação referente às características morfossintáticas dos tokens;
- Marcação referente às características sintáticas da sentença;
- Marcação referente ao alinhamento de sentenças entre textos;
- Marcação referente às simplificações de cada sentença.