É um projecto de colaboração entre a Linguateca e o projecto VISL, usando texto jornalístico português e brasileiro (dos corpora CETEMPúblico e CETENFolha), anotado automaticamente pelo PALAVRAS (Bick 2000).
A parte revista da Floresta, a que chamamos o Bosque, está acessível nos seguintes formatos:
A disponibilização do Bosque também é feita, nos formatos Penn Treebank e TIGER, em XML, pelo pólo de Braga da Linguateca: página da Floresta em Braga.
A versão 7.3 do Bosque foi usada na avaliação conjunta CoNLL-X em 2006 de análise sintática dependencial multilingue (ConLL-X shared task on multilingual dependency parsing), veja-se o Bosque-CoNLL que foi usado para essa avaliação (os nossos agradecimentos a Sabine Buchholz por ter preparado os dados).
A parte não revista da Floresta, a que chamamos a Floresta Virgem, e que é composta pelo primeiro milhão de palavras do CETEMPúblico e do CETENFolha analisado automaticamente, também é disponibilizada pelo nosso projecto:
Além disso, é possível interrogar a Floresta através
Veja a página da documentação e a página anterior, com historial e descrição detalhada da forma de criar a Floresta e dos participantes.