CETENFolha

Linguateca
O CETENFolha (Corpus de Extractos de Textos Electrónicos NILC/Folha de S. Paulo) é um corpus de cerca de 24 milhões de palavras em português brasileiro, criado pelo projecto Processamento computacional do português (projecto que deu origem à Linguateca) com base nos textos do jornal Folha de S. Paulo que fazem parte do corpus NILC/São Carlos, compilado pelo Núcleo Interinstitucional de Lingüística Computacional (NILC).

Neste momento, a versão 1.0 do CETENFolha está disponível em duas versões (com e sem anotação gramatical), das seguintes formas


Última actualização: 10 de Setembro de 2007.
Perguntas, comentários e sugestões