Sobre

O projeto visa, por meio de um trabalho conjunto de especialistas em estudos da linguagem, linguística computacional e ciências da computação, desenvolver e implementar um portal integrado de corpora de escrita com funcionalidades de uso de caráter inovador, a fim de potencializar os recursos e a capacidade instalada do Programa de Pós-graduação em Estudos Linguísticos da Faculdade de Letras da UFMG com o objetivo de dar visibilidade nacional e internacional a resultados de pesquisas realizadas no âmbito do Programa.

Pautada num planejamento estratégico que contempla desenvolvimento científico e tecnológico, formação de recursos humanos e intercâmbio interinstitucional, a proposta consolida os percursos de três Laboratórios associados da FALE/UFMG através da integração de seus bancos de dados, realizada com o suporte de especialistas do NILC/USP, LALIC/UFSCar e em interação com especialistas em corpora de grupos consolidados em nível nacional e Internacional.

Os produtos terão fundamental contribuição na consolidação do Programa enquanto centro de excelência no Estado de Minas Gerais e no Brasil, servindo como referência para outros centros de pesquisa nacionais e internacionais.

Os laboratórios

O objetivo central do projeto e-Labore: Laboratório Eletrônico de Oralidade e Escrita é o de coletar, cadastrar e disponibilizar para a comunidade científica um banco de dados de material escrito por crianças de 6 a 12 anos. Tal faixa etária engloba o período da aquisição/aprendizado da escrita, passando pela fixação e utilização do código escrito, e culminando no uso da escrita na pré-adolescência.

O Laboratório Experimental de Tradução - LETRA - iniciou suas atividades em 2000, na FALE-UFMG. O objetivo é desenvolver pesquisas empírico-experimentais sobre o processo tradutório, visando investigar aspectos do conhecimento experto em tradução. Os projetos desenvolvidos utilizam tecnologias de coleta e análise de dados que possibilitam mapear perfis de tradutores diferenciados, caracterizados pelo seu ritmo cognitivo, seu desempenho relativo à resolução de problemas e sua produção textual. Os resultados das pesquisas informam propostas de formação de tradutores e modelagem computacional do conhecimento experto em tradução.

O Laboratório de Variação Linguística (LAVAL) hospeda dois tipos de corpus: um corpus de língua falada e um corpus de língua escrita, de natureza diacrônica. O Corpus de Dados Orais do Dialeto Mineiro, compilado para o estudo da modalidade oral do dialeto mineiro, é um corpus formado de entrevistas sociolinguísticas. Os arquivos de texto são transcrições, em ortografia usual, da fala de entrevistador e entrevistado, de acordo com um conjunto de normas (Normas de Transcrição do LAVAL). As entrevistas são agrupadas com base no local de nascimento do entrevistado, o que leva à identificação de subcorpora. Entre as possibilidades de análise que o corpus e suas ferramentas permitem estão: (1) calcular frequência; (2) identificar padrões de concordância de cada item; (3) identificar função sintática dos itens; e (3) acompanhar as transcrições com áudio. Complementa esse corpus um corpus menor, o Corpus de Dados Escritos do Dialeto Mineiro, formado de cartas pessoais e oficiais, bilhetes, anúncios de jornais dos séculos 18-19, e documentos eclesiásticos produzidos em Minas. Esse acervo possui cerca de quinze mil palavras.

O desenvolvimento

O Núcleo Interinstitucional de Linguística Computacional foi criado em 1993 para promover projetos de pesquisa e desenvolvimento em Linguística Computacional e Processamento de Língua Natural. Foi originalmente concebido por cientistas do Departamento de Ciência da Computação e Instituto de Física da Universidade de São Paulo (USP) em São Carlos, mas agora inclui cientistas da computação, linguistas e pesquisadores de várias universidades e centros de pesquisa, como a Universidade Federal de São Carlos (UFSCar), Universidade Estadual de São Paulo (UNESP) e Universidade Estadual de Maringá (UEM), entre outros.

Os projetos do NILC incluem estudos fundamentais sobre o processamento computacional das línguas naturais e da construção de recursos, ferramentas e aplicações, bem como parceria com a indústria para troca de conhecimento e tecnologia. O grupo desenvolve pesquisas principalmente nas seguintes áreas: tradução automática, sumarização de texto, a simplificação do texto, ferramentas de assistência à leitura e escrita, léxicos/dicionários e criação de corpora, linguística de corpus, análise e ferramentas de parsing para diferentes níveis linguísticos (part of speech, sintaxe , semântica e do discurso), avaliação automática, terminologia computacional, processamento de voz, e aplicação de técnicas de aprendizado de máquina para processamento de linguagem natural, entre vários outros.

O Laboratório de Linguística e Inteligência Computacional (LALIC) situado no Departamento de Computação da UFSCar é um laboratório de pesquisa integrante do Núcleo Interinstitucional de Linguística Computacional (NILC). O LALIC é um grupo certificado do CNPq que desenvolve pesquisas científicas nas áreas de Linguística Computacional e Inteligência Computacional como: tradução automática, paráfrases, expressões multipalavra e outros.

Apoio

Agradeçemos a todos que contribuíram com esse projeto.