Projecto Floresta Sintá(c)tica

logo temporário da FS

Information in English


Este projecto tem como objectivo criar um "treebank" -- a que chamamos Floresta Sintá(c)tica -- para a língua portuguesa, ou seja, um conjunto de itens sintacticamente analisados, publicamente disponível, que permita que todos os interessados na análise do português possam utilizá-lo tendo em conta diferentes fins/objectivos.

É um projecto de colaboração entre a Linguateca e o projecto VISL, usando texto jornalístico português e brasileiro (dos corpora CETEMPúblico e CETENFolha), anotado automaticamente pelo PALAVRAS (Bick 2000).

A parte revista da Floresta, a que chamamos o Bosque, está acessível nos seguintes formatos:

A disponibilização do Bosque também é feita, nos formatos Penn Treebank e TIGER, em XML, pelo pólo de Braga da Linguateca: página da Floresta em Braga.

A versão 7.3 do Bosque foi usada na avaliação conjunta CoNLL-X em 2006 de análise sintática dependencial multilingue (ConLL-X shared task on multilingual dependency parsing), veja-se o Bosque-CoNLL que foi usado para essa avaliação (os nossos agradecimentos a Sabine Buchholz por ter preparado os dados).

A parte não revista da Floresta, a que chamamos a Floresta Virgem, e que é composta pelo primeiro milhão de palavras do CETEMPúblico e do CETENFolha analisado automaticamente, também é disponibilizada pelo nosso projecto:

Além disso, é possível interrogar a Floresta através

Veja a página da documentação e a página anterior, com historial e descrição detalhada da forma de criar a Floresta e dos participantes.


Versão actual do Bosque: versão 7.4, de 22 de Dezembro de 2005. 9.431 árvores revistas, correspondendo a 1962 extractos, 9.368 frases distintas, 215.003 unidades, aprox. 184.773 palavras
Última actualização: 27 de Setembro de 2006.
Comentários, sugestões e perguntas sobre a Floresta Sintá(c)tica