Informação pormenorizada sobre os corpora

Projecto AC/DC, Linguateca


Esta página fornece a informação necessária para que os utilizadores do nosso serviço o possam utilizar como instrumento válido de teste de hipóteses científicas.

Além de apontar para a informação original fornecida pelos compiladores e de apresentar uma contabilização sumária de todos os corpora em forma de tabela, descreve as várias opções tomadas na codificação dos corpora no ambiente escolhido, o Corpus Workbench do IMS da Universidade de Estugarda (IMS-CWB), cf. o manual disponível na rede. Sem que estas opções sejam explicitadas, não é possível compreender os resultados quantitativos ou comparar com vários trabalhos sobre os mesmos corpora.

Nota: Para cada corpus, além da versão fornecida pelos seus autores, indicamos a versão correspondente à codificação executada por nós no ambiente IMS-CWB, de forma a ser possível comparar dados obtidos em alturas diferentes, através da identificação exacta da versão do corpus utilizada. A numeração das versões é feita independentemente, o que quer dizer que uma mudança no corpus não faz com que a contagem da versão da sua codificação volte a 1.0.


Identificação sumária

Informação original fornecida pelos compiladores de corpora, acessível na Internet ou publicada. Apenas os identificadores foram atribuídos por nós. Todos os corpora foram ou serão anotados pelo analisador sintáctico de Eckhard Bick, Bick (1996; 1997; 1998). Veja-se a página de anotação para mais informações sobre essa anotação.

Contabilização básica dos corpora

Esta contabilização vai sendo actualizada sempre que houver criação de novas versões.

Corpus Nº de frases Nº de parágrafos Nº de palavras (formas) Nº de palavras (tipos) Nº de elementos

NATURA

225646

79448

5730035

166816

7256679

ENPCPUB

4371

1690

72244

12886

89864

MINHO

53062

41479

1595195

67639

2083752

ECI-EBR

45539

12118

654539

60193

891666

ECI-EE

780

340

24425

4075

30157

SAOCARLOS

1964150

827363

32091996

433030

41372943

FRASESPP

594

594

15017

5092

19340

FRASESPB

651

648

17736

6001

22486

CETEMPUBLICOPRMI

39632

13469

997695

68138

1198015

ANCIB

37845

19098

881967

62738

1208685

CLASSLPPE

74690

36236

1158765

70322

1874628

DIACLAV

210366

24439

5933808

119626

7404515

AVANTE

204116

103966

5964533

121113

7569252

AMOSTRA

4965

4904

90109

17101

124836

CONE

38444

23208

725844

41999

1072534

MUSEUDAPESSOA

24053

15442

313927

20289

455642

CONDIV

150563

69192

2451046

70026

3363961

CETEMPUBLICO

7.082.094

2.571.735

191.687.833

999.059

229.038.019

Tabela actualizada a 27 de Fevereiro de 2006.

A divisão em frases é obtida automaticamente na maior parte dos casos. Elementos classificados como títulos, legendas, etc. não são considerados frases para efeitos desta contagem. Os parágrafos (geralmente curtos) sem pontuação final são marcados como frases, do tipo fragmento.

Contabilização mais fina sobre os corpora

Todos os corpora foram processados de forma a serem codificados no Corpus WorkBench do Institut fur Maschinelle Sprachverarbeitung da Universidade de Stuttgart (IMS CWB), o que significa que foram previamente transformados no formato seguinte: um token por linha, cada atributo estrutural por linha. Para mais informações sobre este ambiente, consulte-se Christ et al. (1999) ou Santos e Ranchhod (1999).

A maior parte dos corpora requereu tratamento específico e opções dedicadas, que serão mencionadas na descrição de cada caso.

Como opções gerais, temos:

Os dados quantitativos que apresentamos abaixo dividem-se em três grupos: A categoria "pontuação" inclui todos os tokens que contenham sinais de pontuação e que não tenham sido considerados como abreviaturas (incluindo portanto números do tipo "3.876.210", abreviaturas com mais de um ponto como "S.O.S." ou "E.U.A", assim como erros de codificação ainda não depurados, como "primeiro-ministro.").

Corpus Natura-Público

Descrição da fonte

O corpus Natura-Público é um corpus de texto, distribuído em ficheiros de texto, gzipados, sem outra anotação que não as mudanças de linha a indicar novo parágrafo. A versão que serviu de base para a presente distribuição continha uma quantidade de caracteres espúrios, além de apresentar alguns parágrafos (correspondentes a notícias) repetidos. Esses dois problemas foram resolvidos, o que não foi o caso das seguintes características: Alguns parágrafos encontravam-se todos em minúsculas. Além disso, faltavam vários espaços ou hífens entre as palavras, levando a que fosse comum encontrar casos como "encontrase" no texto.

Dados quantitativos

Corpus NATURA Número de formasNúmero de tipos
Unidades 7256679175015
Total de palavras 5730035166816
Palavras em minúscula 485469089885
Palavras com inicial maiúscula67655846334
Palavras todas em maiúsculas 438785301
Números 654912084
Palavras com números56181445
Palavras mistas118715243
Pontuação9163898199

Observações

Visto que este corpus é constituído pelos primeiros dois parágrafos das notícias do Público em 1991, 1992, 1993 e 1994, não há informação sobre secções do jornal, como títulos ou tipo de notícia. A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé.

Marcadores estruturais: s, p e marca.

Versão

Versão 1.0 do corpus; Versão 2.9 (4 de Setembro de 2002) da sua codificação.

Corpus ENPCPUB (parte disponível do ENPCPORT)

Descrição da fonte

Apenas recebemos autorização para dar acesso a uma pequena parte do corpus ENPC, nomeadamente extractos dos textos (identificação do ENPC):
JB1PP
Barnes, Julian. Amor & C.a, Quetzal Editores, Lisboa, 1994. Tradução de Helena Cardoso. Título original: Talking It Over.
BC1
Chatwin, Bruce. Utz, Quetzal Editores, Lisboa, 1991. Tradução de José Luís Luna. Título original: Utz.
AH1
Hailey, Arthur. Remédio Amargo, Distribuidora Record, Rio de Janeiro, s/d. Tradução de A.B.P. de Lemos. Título original: Strong Medicine.
JH1
Heller, Joseph. Imaginem que. Difusão Cultural, Lisboa, 1991. Tradução de Cristina Rodriguez. Título original: Picture This.
NG1
Gordimer, Nadine. A história do meu filho, Editora Siciliano, São Paulo, 1992. Tradução de Geraldo Galvão Ferraz. Título original: My Son's Story.
O corpus ENPCPORT (do qual o ENPCPUB é a parte para cuja disponibilização obtivemos autorização) encontrava-se codificado em SGML, apenas com ligeiras alterações em relação à codificação sugerida pelo TEI (Text Encoding Initiative).

Cada obra (extracto) encontrava-se em ficheiro separado, com frases e parágrafos identificados e numerados, e anotada a sua correspondência com o texto original (alinhamento).

Dados quantitativos

Corpus ENPCPUB Número de formasNúmero de tipos
Unidades 8986412907
Total de palavras 7224412886
Palavras em minúscula 5760910245
Palavras com inicial maiúscula70401665
Palavras todas em maiúsculas 7450
Números 13678
Palavras com números11
Palavras mistas129
Pontuação547621

Observações

Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".

Utilizámos como marcadores estruturais texto, parte, capitulo, p e s.

A partir da versão 2.0 adicionámos o atributo estrutural variante, que pode ter os valores "bras" ou "lus".

Versão

Versão 1.0 do corpus; Versão 2.0 (6 de Maio de 2003) da sua codificação.

Corpus Natura-Diário do Minho

Descrição da fonte

Este corpus (correspondente à versão 3 diariodoMinho.3.cor) contém notícias do jornal regional português "Diário do Minho". Contém notícias completas, separadas em edições e marcadas pela data, e encontravam-se assinalados, numa codificação de tipo XML, títulos, assinaturas e legendas, além de conter "markup" de parágrafos e de formatação, esta última retirada do corpus final.

Segundo natura.di.uminho.pt, o corpus original é assim descrito:
Uma série de edições do Diário do Minho. Não aparecem neste corpus os textos de desporto e alguns de publicidade por dificuldades com os formatos. Todos os outros textos aparecem completos. Os artigos aqui apresentados contêm algumas gralhas (correspondem à versão antes da revisão de provas).

Dados quantitativos

Corpus MINHO Número de formasNúmero de tipos
Unidades 208376172021
Total de palavras 173847569856
Palavras em minúscula 128257738902
Palavras com inicial maiúscula24883217375
Palavras todas em maiúsculas 150882192
Números 203971203
Palavras com números2561313
Palavras mistas1701633
Pontuação1203292165

Observações

Tentámos retirar artigos que continham apenas publicidade, resolução de palavras cruzadas ou de desafios de futebol, assim como evitar artigos repetidos.

A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé. A partir da versão 3.0, introduzimos a anotação li para assinalar listas.

Marcadores estruturais: p, s, assinatura, legenda, subtitulo, titulo, art, marca e li.

Versão

Versão 3.1 do corpus; Versão 4.0 (21 de Fevereiro de 2006) da sua codificação.

Corpus ECI-EBR

Descrição da fonte

A iniciativa ECI (European Corpus Initiative) deu origem, para a língua portuguesa, a dois corpora distintos: o primeiro, aqui chamado ECI-EBR (visto que provém do corpus Borba-Ramsey), é uma selecção de excertos de obras brasileiras, contendo pelo menos discurso literário, didáctico e oral cuidado (discursos políticos), correspondente a pouco mais de 700 mil palavras, codificado em SGML muito leve (além do cabeçalho, apenas continha marcas de parágrafos).

Dados quantitativos

Corpus ECI-EBR Número de formasNúmero de tipos
Unidades 8916660590
Total de palavras 65453942140
Palavras em minúscula 56891542140
Palavras com inicial maiúscula7341312220
Palavras todas em maiúsculas 19750
Números 1873473
Palavras com números4439
Palavras mistas856383
Pontuação121810397

Observações

A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé.

Marcadores estruturais: s, p e marca.

Versão

Versão 1.0 do corpus; Versão 4.0 (21 de Fevereiro de 2006) da sua codificação.

Corpus ECI-EE

Descrição da fonte

A iniciativa ECI deu origem, para a língua portuguesa, a dois corpora distintos: o segundo, o anúncio do programa comunitário ESPRIT, aqui chamado ECI-EE, usa uma codificação SGML leve, com parágrafos e secções/artigos numerados, o que produziu alguns problemas em relação à separação de notas de rodapé (apenas indicadas graficamente por linhas iniciadas por tabuladores, e que tiveram de ser reconstituídas e colocadas após o parágrafo respectivo). A norma neste caso seguida é a portuguesa, ao invés do corpus anterior, seguindo a norma brasileira.

Dados quantitativos

Corpus ECI-EE Número de formasNúmero de tipos
Unidades 301574287
Total de palavras 244254075
Palavras em minúscula 216993326
Palavras com inicial maiúscula1526359
Palavras todas em maiúsculas 435106
Números 21577
Palavras com números22
Palavras mistas2816
Pontuação3293212

Observações

Marcadores estruturais: s, p, titulo, nota, marca.

Alterámos a posição das notas de rodapé, do meio do parágrafo para imediatamente a seguir ao parágrafo onde lhes era feita referência, mas mantivemos a informação dessa mesma posição no atributo marca, com o número igual ao número da nota correspondente.
<marca num=3> <nota num=3>

Versão

Versão 1.1 do corpus; Versão 2.0 (21 de Fevereiro de 2006) da sua codificação.

Corpus NILC/São Carlos

Descrição da fonte

O corpus NILC do Núcleo Interinstitucional de Lingüística Computacional, sediado no Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo em São Carlos, contendo textos brasileiros do registo jornalístico, didáctico, epistolar e redacções de alunos, encontrava-se em vários ficheiros em formato de texto, numa estrutura de directorias indicando a fonte.

Dados quantitativos

Corpus SAOCARLOS Número de formasNúmero de tipos
Unidades 41372943457556
Total de palavras 32091996433030
Palavras em minúscula 23217976158261
Palavras com inicial maiúscula4595495127721
Palavras todas em maiúsculas 46497422996
Números 4271862978
Palavras com números385684379
Palavras mistas983449267
Pontuação241550524522

Observações

Marcadores estruturais: s, p, texto, t (anteriormente à versão 4.0, estava marcado como titulo), subtitulo, assinatura, e para os textos da folha de São Paulo, a partir da versão 4.0, a (autor), artigo, caixa, situacao, li (elemento de lista).

As primeiras linhas de cada ficheiro foram classificadas como títulos. Como subtítulos foram identificadas linhas sem pontuação final todas em maiúsculas. No caso das cartas comerciais, também a assinatura da carta foi marcada separadamente.

Cada texto tem como identificação o nome do ficheiro de que provém, o que dá alguma indicação sobre o tipo de texto. Prevê-se para breve uma reorganização desses identificadores segundo os novos critérios em desenvolvimento pelos compiladores do corpus.

A nova versão foi criada após a detecção de alguns textos repetidos. Possíveis alterações em relação ao conteúdo dos textos que constituem o corpus são previsíveis.

O atributo classe, correspondendo ao tipo de texto, foi adicionado na versão 3.0. A sua distribuição, correspondendo à versão 7.1, é a seguinte:

TipoDescriçãoTamanho
DI texto didáctico 423.893
ENC enciclopédia 283.838
ENS ensaio 2.177.193
EP texto epistolar 3.338
JO.* jornalístico 29.462.874
JOCF jornalístico só CETENFolha 29.462.874
JO jornalístico sem CETENFolha 29.462.874
LE texto legal 1.083.200
LI literário 919.628
RE revista 153.454

O tamanho, na tabela anterior, é medido pelo número de unidades do corpus com a classificação indicada.

A partir da versão 5.0, a parte do Folha de São Paulo (correspondente ao CETENFolha, de texto de 1994, e a algumas edições de 1996) está dividida em extractos identificados pela secção, semestre, número de extracto, e número de parágrafo no CETENFolha, por exemplo: Cotidiano-94a-61755-2 .

A partir da versão 7.1, é possível seleccionar apenas o CETENFolha, no corpus SAOCARLOS, usando para isso a restrição [classe="JOCF"]. Dois exemplos (usando a restrição de forma diferente):

Versão

Versão 2.0 do corpus sem Folha, incluindo o CETENFolha 1.0 (antes de baralhar) de 4 de Setembro de 2002 e o Folhazinha-2.1 de 27 de Abril de 2002; Versão 7.1 (29 de Agosto de 2003) da sua codificação.

Corpus FrasesPP anotado

Descrição da fonte

O corpus FrasesPP anotado é um conjunto de frases em português de Portugal compiladas para o teste de uma gramática computacional, desenvolvido no Grupo Científico IBM-INESC (depois Grupo de Linguagem Natural do INESC) de 1990 a 1992, a que se associaram automaticamente etiquetas marcando a categoria gramatical A, N, V, VPP, PF, PONT e CL, depois revistas manualmente nos casos em que as palavras obtiveram mais do que uma categoria. Encontrava-se em texto simples e em formato Latex.

Dados quantitativos

Corpus FRASESPP Número de formasNúmero de tipos
Unidades 193405157
Total de palavras 150175092
Palavras em minúscula 134974236
Palavras com inicial maiúscula1087568
Palavras todas em maiúsculas 96
Números 10052
Palavras com números22
Palavras mistas228
Pontuação194765

Observações

Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo.

Marcadores estruturais: s, p.

Os valores da anotação encontram-se no atributo pos.

Versão

Versão 1.3 do corpus; Versão 2.0 (25 de Fevereiro de 2006) da sua codificação.

Corpus FrasesPB

Descrição da fonte

O corpus FrasesPB, corpus de frases em português brasileiro, foi criado pelo nosso projecto no SINTEF, de forma a obter um sósia do corpus FrasesPP. Tendo como única compiladora Signe Oksefjell, a recolha de frases foi feita exclusivamente na rede (WWW).

Dados quantitativos

Corpus FRASESPB Número de formasNúmero de tipos
Unidades 224866024
Total de palavras 164166001
Palavras em minúscula 164165264
Palavras com inicial maiúscula1052525
Palavras todas em maiúsculas 1515
Números 4937
Palavras com números
Palavras mistas2318
Pontuação215223

Observações

Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo. Em dois casos, contudo, o algoritmo separador de frases ainda conseguiu detectar unidades mais pequenas, dando origem pois a dois parágrafos com duas frases cada.

Marcadores estruturais: s, p.

Versão

Versão 1.1 do corpus; Versão 2.0 (21 de Fevereiro de 2006) da sua codificação.

Corpus CETEMPUBLICOPRMI

Descrição da fonte

O corpus CETEMPúblico está documentado em http://acdc.linguateca.pt/cetempublico/.

O primeiro milhão de palavras (aproximadamente) que o constitui foi objecto de uma revisão aturada de forma a servir de matéria base para um "treebank" do português, a Floresta Sintáctica, seguindo outros critérios de definição de frase <s> e incluindo o marcador <sic> nos casos não julgados de interesse para esse efeito. Informação sobre os novos critérios de separação de frases, sobre a introdução da marca <sic> e sobre o processo de revisão encontram-se respectivamente em Afonso et al. (2001a); Afonso et al. (2001b) e Santos (2001).

Dados quantitativos

Corpus CETEMPUBLICOPRMI Número de formasNúmero de tipos
Unidades 119801568784
Total de palavras 99769568138
Palavras em minúscula 75701337765
Palavras com inicial maiúscula12277119250
Palavras todas em maiúsculas 74221539
Números 8655777
Palavras com números1146522
Palavras mistas1452960
Pontuação68106637

Observações

Marcadores estruturais: ext [identificador do extracto, com informação sobre secção e semestre], s [frase] t [título ou subtítulo] a [identificação do autor] li [elemento de lista] marca e sic [elemento a não analisar].

Versão

Versão 1.0 do corpus; versão 1.4 (18 de Abril de 2002) da sua codificação.

Corpus ANCIB

Descrição da fonte

O corpus ANCIB foi criado a partir de uma série de ficheiros contendo as mensagens em português enviadas para a lista do mesmo nome (da Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação, http://www.alternex.com.br/~aldoibct/, gerida por Aldo Barreto, que gentilmente nos concedeu autorização para a criação deste corpus) entre 4 de Julho de 1998 e 9 de Janeiro de 2006, num total de 624 mensagens em formato Eudora, sendo o resto em formato Outlook, totalizando 2436 mensagens cuja língua foi identificada como portuguesa.

Dados quantitativos

Corpus ANCIB Número de formasNúmero de tipos
Unidades 1.208.68569.639
Total de palavras 881.96762.738
Palavras em minúscula 647.63530.484
Palavras com inicial maiúscula158.08317.401
Palavras todas em maiúsculas 33.2736.207
Números 15.0131.104
Palavras com números1.657546
Palavras mistas5.0811.987
Pontuação150.2146.896

Observações

A parte inicial do corpus foi criado a partir do formato mbx do programa de correio Eudora; a seguinte a partir do formato Outlook.

Embora tenham sido excluídas as mensagens totalmente (ou quase) noutros idiomas, foram mantidas mensagens parcialmente noutras línguas, pelo que o corpus contém uma quantidade reduzida de texto em inglês e castelhano. Note-se que, devido ao afinamento da detecção de língua, algumas mensagens contidas nas versões anteriores foram removidas.

Foram removidas, na medida do possível, as assinaturas automáticas das mensagens, um processo que foi sendo igualmente melhorado ao longo das diversas versões do corpus.

Foram transformados alguns caracteres ['A==>À, e'==>é, etc].

O corpus está dividido em mensagens separadas, marcadas pelo atributo mens, com informação da data <mens dt=...> . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem para a lista). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

A partir da versão 1.3, o corpus tem o atributo cita que indica referência a uma mensagem anterior, citada no corpo da mensagem e indicada pelo sinal ">" no início de linha.

Versão

Versão 1.7 do corpus; Versão 4.0 (22 de Março de 2006) da sua codificação.

Corpus Clássicos da Literatura Portuguesa da Porto Editora

Descrição da fonte

O corpus Clássicos da Língua Portuguesa foi-nos gentilmente cedido pela Porto Editora, exclusivamente para pesquisa através da Internet. Contém as seguintes obras: O corpus engloba, de momento, 6 peças de teatro, 7 obras de poesia e 13 obras em prosa.

Dados quantitativos

Corpus CLASSLPPE Número de formasNúmero de tipos
Unidades 187209170495
Total de palavras 118742270362
Palavras em minúscula 99629447849
Palavras com inicial maiúscula1294069829
Palavras todas em maiúsculas 2848487
Números 285116
Palavras com números33
Palavras mistas733460
Pontuação220665132

Observações

O corpus foi criado a partir da versão texto das obras da Biblioteca Digital da Porto Editora (o URL da Biblioteca Digital é http://www.portoeditora.pt/bdigital/).

Alguns dos ficheiros de texto utilizados como base para este corpus foram manipulados manualmente para inserir determinados marcadores. No entanto, na grande maioria dos casos, os marcadores foram inseridos automaticamente.

Utilizámos como marcadores estruturais para todas as obras obra (que contém o código interno da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, data (a data da obra, quando assinalada no texto), nota, titulo, marca e u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra).

As obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

As obras de poesia têm os seguintes marcadores estruturais adicionais: dedicatoria, poema, div [parte de um poema, assinalada graficamente por números romanos], e [estrofe] e v [verso].

As obras de teatro têm os seguintes marcadores estruturais adicionais: fala, personagem e indic (indicação de cena); além disso, as obras de Gil Vicente utilizam o marcador v [verso], enquanto as restantes utilizam o marcador s [frase].

Os códigos de obras usados neste corpus (os valores referem-se ao número de tokens na versão 1.7), correspondendo ao atributo posicional obra, são os seguintes:

AAAuto da Alma4,099
ABIAuto da Barca do Inferno5,767
AIAuto da Índia3,243
APAmor de Perdição57,600
BoboO Bobo62,452
CIO Cárcere e interrogatório510
CamCamões28,564
EPEurico o Presbítero66,558
FC1Folhas Caídas I5,932
FC2Folhas Caídas II3,714
FCMOs Fidalgos da Casa Mourisca168,021
FIPFarsa de Inês Pereira6,987
FLSFrei Luís de Sousa22,593
GAMGuerras do Alecrim e Manjerona27,865
HCA Harpa do Crente19,222
MCA Morgadinha dos Canaviais177,409
MMMaria Moisés24,348
MaiasOs Maias263,614
OMOdes Modernas21,214
PRPrimaveras Românticas15,568
PSRAs Pupilas do Senhor Reitor114,884
PoePoesias6,652
QAA Queda de um Anjo58,462
SSAPSermão de Santo António aos Peixes14,048
UFIUma Família Inglesa146,642
VMTViagens na minha terra81,794

Os códigos de autores, correspondendo ao atributo posicional autor, são os seguintes:

AFC António Feliciano de Castilho6,652
AG Almeida Garrett142,597
AH Alexandre Herculano148,232
AJS António José da Silva27,895
AQ Antero de Quental36,782
CCB Camilo Castelo Branco140486
EQ Eça de Queirós263,614
GV Gil Vicente20,096
JD Júlio Dinis606,946
PAV Pe. António Vieira14,558

Finalmente, o atributo classe pode tomar um dos três valores

classetamanho
poesia100,866
prosa1236,332
teatro70,554

Versão

Versão 1.2 do corpus; Versão 1.8 (28 de Fevereiro de 2006) da sua codificação.

Corpus CETEMPúblico

Descrição da fonte

Este corpus tem uma página a ele dedicada em http://acdc.linguateca.pt/cetempublico/informacoes.html.

Dados quantitativos

Corpus CETEMPUBLICO Número de formasNúmero de tipos
Unidades 2290380191033041
Total de palavras 191687833999059
Palavras em minúscula 143870805270068
Palavras com inicial maiúscula23625899308193
Palavras todas em maiúsculas 141680530776
Números 170883510099
Palavras com números21405716687
Palavras mistas17852558418
Pontuação1306515133982

Observações

Marcadores estruturais: ext [identificador do extracto, com informação sobre secção e semestre], s [frase] t [título ou subtítulo] a [identificação do autor] li [elemento de lista] marca.

Além da palavra, o corpus tem mais dois atributos posicionais, sem [semestre em que o texto foi escrito ou enviado para o jornal]:

semestretamanho
91a 7450010
91b 14314547
92a 15398940
92b 11570880
93a 15316597
93b 12217030
94a 15448795
94b 14936750
95a 16719480
95b 15755620
96a 12001909
96b 11691067
97a 9956177
97b 9995637
98a 12974842
98b 9004702

e sec [classificação da secção a que o texto pertencia]. Veja-se a discussão em Rocha & Santos (2000) sobre a forma da sua atribuição.

secçãotamanho
clt 31425669
clt-soc 6661193
com 942713
des 22620366
eco 18047330
nd 27194578
opi 3529008
pol 39716815
soc 54615311

Versão

Versão 1.7 do corpus, versão 1.7 (7 de Agosto de 2001) da sua codificação.

Corpus DiaCLAV

Descrição da fonte

O Corpus DiaCLAV é composto dum total de aproximadamente 6,7 milhões de palavras, retiradas de 12.801 artigos da edições online de diversos jornais diários regionais do centro de Portugal, nomeadamente o Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário.

Os jornais em questão pertencem ao mesmo grupo editorial, o Grupo Editorial Adriano Lucas, pelo que alguns artigos neste corpus contem textos semelhantes, embora não haja casos de artigos exactamente iguais. Os artigos em questão, que correspondem ao período de 13 de Junho de 1999 a 18 de Setembro de 2000, não representam a totalidade do texto dos jornais nesse período, mas apenas o texto disponibilizado na edição on-line.

Agradecemos à direcção do Grupo Editorial Adriano Lucas a autorização gentilmente concedida para a criação deste corpus.

Dados quantitativos

Corpus DIACLAV Número de formasNúmero de tipos
Unidades 7404515125353
Total de palavras 5933808119626
Palavras em minúscula 488737157893
Palavras com inicial maiúscula82632827765
Palavras todas em maiúsculas 461053459
Números 557771378
Palavras com números5248993
Palavras mistas4180516349
Pontuação9384255727

Observações

O corpus contém as etiquetas <art> (artigo), <a> (autor), <t> (titulo), <p> (parágrafo) e <s> (frase). Cada parágrafo tem a identificação do jornal e da notícia além do número do parágrafo dentro da notícia. Por exemplo: DA-N0623-1 representa o primeiro parágrafo da notícia N0623 do Diário de Aveiro. O número de identificação da notícia é o o da edição electrónica do jornal.

Versão

Versão 3.1 do corpus, de 23 de Fevereiro de 2006, e versão 2.0 (24 de Fevereiro de 2002) da sua codificação.

Corpus Avante!

Descrição da fonte

O corpus AVANTE contêm cerca de 6 milhões de palavras, extraídas da versão na rede do semanário «Avante!», orgão oficial do Partido Comunista Português (http://www.pcp.pt/avante/), contendo um total de 8.515 artigos de 207 edições do dito jornal, de Abril de 1997 até Fevereiro de 2002.

Estamos gratos à direcção do «Avante!», em especial ao seu director José Casanova, pela autorização gentilmente cedida para a elaboração deste corpus.

Dados quantitativos

Corpus AVANTE Número de formasNúmero de tipos
Unidades 7569252127086
Total de palavras 5964533121113
Palavras em minúscula 506735268532
Palavras com inicial maiúscula65888229435
Palavras todas em maiúsculas 787213149
Números 544051678
Palavras com números738304
Palavras mistas89973347
Pontuação8293535973

Observações

O corpus contem as etiquetas art (artigo), t (título), p (parágrafo), s (frase) e li (elemento de uma lista); os artigos não estão datadas, sendo apenas indicado o número da edição, através da indicação <art ed= id=> .

Versão

Versão do corpus de 10 de Março de 2006 e versão 2.0 (14 de Março de 2006) da sua codificação.

Corpus AmostRA-NILC

Descrição da fonte

O corpus AmostRA-NILC (Corpus Amostra Rachel Aires - NILC) foi criado no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC, para avaliar e comparar o desempenho de etiquetadores para o português brasileiro, (cf. Aires 2000)

Citando (secção 4.1.1)

" Para compor nosso corpus de treinamento e teste selecionamos textos do corpora do Nilc pertencentes a três gêneros: didático, jornalístico e literário. Um dos objetivos deste trabalho é avaliar os etiquetadores por gêneros. A escolha destes três gêneros foi feita para se abranger em particular:

1. textos simples, isto é, aqueles que seguem uma estrutura formal fixa, por exemplo a escrita técnica (didáticos);

2. textos mais próximos da linguagem viva (jornalístico);

3. textos com estrutura livre, isto é, com formas menos comuns como ordem inversa por exemplo, (literários).

(...) Além dos gêneros de texto que farão parte do corpus, temos também que decidir se serão ou não mantidos títulos, frases entre parênteses e resumos nos textos. No nosso caso não mantivemos os títulos, mas mantivemos os textos entre parênteses e não precisamos nos preocupar com resumos, que não apareciam nos textos escolhidos.

(...) em 20 de julho de 2000, obtivemos a última versão do nosso corpus de treinamento e teste contendo 104.962 palavras, que foi utilizada em todos os experimentos descritos neste trabalho. (...)

Tabela 1 - Corpus de treinamento e teste

Tipo de Corpus Tamanho do corpus

D – Didático 16.255 palavras

J – Jornalístico 56.653 palavras

L – Literário 32.054 palavras

(fim de citação)

Dados quantitativos

Corpus AmostRA-NILC Número de formasNúmero de tipos
Unidades 12465517183
Total de palavras 9844417152
Palavras em minúscula 7831913524
Palavras com inicial maiúscula87082406
Palavras todas em maiúsculas 2312
Números 913191
Palavras com números6943
Palavras mistas4530
Pontuação655331

Versão

Versão do corpus de 7 de Agosto de 2003 e versão 2.0 (24 de Fevereiro de 2006) da sua codificação.

Corpus CoNE

Descrição da fonte

O corpus CoNE (Correio Não Endereçado) foi criado usando mensagens em português não endereçadas, recebidas por elementos da equipa da Linguateca entre 10 de Agosto de 2001 e 25 de Julho de 2003.

Dados quantitativos

Corpus CoNE Número de formasNúmero de tipos
Unidades 107253448000
Total de palavras 72584441999
Palavras em minúscula 47102618433
Palavras com inicial maiúscula15574912065
Palavras todas em maiúsculas 468825690
Números 15701797
Palavras com números3550623
Palavras mistas79931611
Pontuação1425325998

Observações

O corpus está dividido em mensagens, marcadas pelo atributo mens, com informação da data . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

Versão

Versão do corpus de 15 de Janeiro de 2006 e versão 2.0 (21 de Março de 2006) da sua codificação.

Corpus Museu da Pessoa

Descrição da fonte

O Corpus Museu da Pessoa consiste na transcrição de 109 entrevistas realizadas pelo Núcleo Português do Museu da Pessoa no âmbito dos seus projectos.

Dados quantitativos

Corpus Museu da Pessoa Número de formasNúmero de tipos
Unidades 455.64420.517
Total de palavras 313.92920.291
Palavras em minúscula 271.03414.423
Palavras com inicial maiúscula34.7953.144
Palavras todas em maiúsculas 9652
Números 1.973227
Palavras com números9159
Palavras mistas360165
Pontuação52.735226

Observações

Marcadores estruturais: ent [entrevista], p [parágrafo], s [frase], resposta , pergunta,

Versão

Versão de 3 de Maio de 2005

Corpus CONDIVport

Descrição da fonte

O Corpus CONDIVport consiste em 3981 extractos de textos dos jornais desportivos portugueses A Bola, Record, O Jogo, Mundo Desportivo e brasileiros Jornal dos Sports, Gazeta Esportiva, Estado de São Paulo, e Lance. das décadas de 1950, 1970, 1990 e 2000. Para mais informações, pode consultar Silva (2004), a página do projecto, ou ver aqui uma descrição mais detalhada.

Estamos gratos à equipa do projecto de investigação Convergência e Divergência no Léxico do Português, em especial ao investigador responsável Augusto Soares da Silva, pela autorização gentilmente cedida para a disponibilização deste corpus.

Dados quantitativos

Corpus CONDIVport Número de formasNúmero de tipos
Unidades 336396177706
Total de palavras 245104676151
Palavras em minúscula 202241042671
Palavras com inicial maiúscula34890616999
Palavras todas em maiúsculas 137315819
Números 20562395
Palavras com números1291281
Palavras mistas37601848
Pontuação4654441555

Observações

O corpus está dividido em extractos, assinalados pelo atributo ext; cada extracto está dividido em parágrafos (atributo p) e frases (atributo s).

Versão

Versão do corpus de 21 de Fevereiro de 2006 e versão 1.2 (21 de Fevereiro de 2006) da sua codificação

Lista de referências

Afonso, Susana, Eckhard Bick e Ana Raquel Marchi (2001a). Critérios de separação de sentenças/frases. http://acdc.linguateca.pt/treebank/CriteriosSeparacao.htm

Afonso, Susana, Eckhard Bick e Ana Raquel Marchi (2001b). A etiqueta <sic> </sic>. http://acdc.linguateca.pt/treebank/CriteriosSic.html

Aires, Rachel Virgínia Xavier. 2000. Implementação, adaptação, combinação e avaliação de etiquetadores para o português do Brasil. Tese de Mestrado. Instituto de Ciências Matemáticas de São Carlos. Universidade de São Paulo. http://www.linguateca.pt/Repositorio/Aires2000.ps

Bick, Eckhard (1996). Automatic parsing of Portuguese. In Sánchez García, Laura (ed.), Proceedings of the Second Workshop on Computational Processing of Written Portuguese (Curitiba, 23-25 October 1996), pp. 91-100, http://www.linguateca.pt/Repositorio/Bick96.doc.

Bick, Eckhard (1997). Internet Based Grammar Teaching. In Ellen Christoffersen & Bradley Music (eds.), Datalingvistisk Forenings årsmøde 1997 (DALF '97) (Kolding, 1997), pp. 86-106, http://www.linguateca.pt/Repositorio/Bick97c.doc.

Bick, Eckhard (1998). Structural Lexical Heuristics in the Automatic Analysis of Portuguese. In Maegaard, Bente (ed.), Proceedings of the 11th Nordic Conference on Computational Linguistics (Nodalida '98) (Copenhaguen, 1998), pp. 44-56, http://www.linguateca.pt/Repositorio/Bick98a.doc.

Christ, Oliver, Schulze, Bruno M., Hofmann, Anja, & Koenig, Esther (1999). The IMS Corpus Workbench: Corpus Query Processor (CQP): User's manual. Institute for Natural Language Processing, University of Stuttgart, March 8, 1999 (CQP V2.2). Disponível na Internet no endereço http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/CQPUserManual/HTML/.

Johansson, Stig, Ebeling, Jarle, & Hofland, Knut. (1996). Coding and aligning the English-Norwegian Parallel Corpus. In Aijmer, K., Altenberg , B., & Johansson, M. (Orgs.), Languages in Contrast (pp. 87-112). Lund: Lund University Press.

Johansson, Stig, Ebeling, Jarle & Oksefjell, Signe (1999). English-Norwegian Parallel Corpus: Manual. Oslo: Department of British and American Studies, University of Oslo. Disponível na Internet no endereço http://www.hf.uio.no/iba/prosjekt/ENPCmanual.html.

McKelvie, D. & Thompson, H. S. (1994). TEI-Conformant structural markup of a trilingual parallel corpus in the ECI Multilingual Corpus 1. In Proceedings of the 2nd Annual Workshop on Very Large Corpora - WVLC2 (Kyoto, 4 August 1994) (pp. 7-18).

Medeiros, José Carlos, Marques, Rui, & Santos, Diana (1993). Português Quantitativo. In Actas do 1.o Encontro de Processamento de Língua Portuguesa (Escrita e Falada) - EPLP'93. Lisboa, 25-26 de Fevereiro de 1993 (pp.33-38).

Nunes, M.G.V., Vieira, F.M.C., Zavaglia, C., Sossolote, C.R.C., & Hernandez, J. (1996a.) A construção de um léxico para o português do Brasil: lições aprendidas e perspectivas. In Proceedings of the II Workshop on Computational Processing of Written and Spoken Portuguese (Curitiba, 23 a 25/10/96) (pp. 61-70). Disponível na Internet no endereço http://www.icmc.sc.usp.br/~gracan/download/curitilex.ps.gz

Nunes, M.G.V., Turine, M.A.S., Martins, R.T., Ghiraldelo, C.M., Oliveira, M.C.F., Montilha, G., Hasegawa, R., & Oliveira Jr., O.N. (1996b). Desenvolvimento de um sistema de revisão gramatical automática para o português do Brasil. In Proceedings of the II Workshop on Computational Processing of Written and Spoken Portuguese (Curitiba, 21 a 22/10/96) (pp. 71-80). Disponível na Internet no endereço http://www.icmc.sc.usp.br/~gracan/download/curitiregra.ps.gz

Oksefjell, Signe (1999). ENPC: Um corpus paralelo que inclui o português. In Marrafa, Palmira, & Mota, Maria Antónia (Orgs.), Actas do I Workshop sobre Linguística Computacional da Associação Portuguesa de Linguística (Lisboa, 25-27 de Maio de 1998). Lisboa: APL.

Oksefjell, Signe (1999). A Description of the English-Norwegian Parallel Corpus: Compilation and Further Developments. International Journal of Corpus Linguistics 4.2, pp.197-216.

Rocha, Paulo & Diana Santos (2000). CETEMPúblico: Um corpus de grandes dimensões de linguagem jornalística portuguesa. In Maria das Graças Volpe Nunes (ed.), Actas do V Encontro para o processamento computacional da língua portuguesa escrita e falada (PROPOR'2000) (Atibaia, São Paulo, Brasil, 19 a 22 de Novembro de 2000), pp. 131-140, RTF, PostScript.

Santos, Diana (ed.) (1992) Processamento de corpora no INESC, INESC Report RT-65/92, 1992. ps files: Introdução, Índice, Breve descrição do corpus

Santos, Diana (2001). Resultado da revisão da separação em frases do primeiro milhão de palavras do CETEMPúblico. http://acdc.linguateca.pt/treebank/RevisaoMilhao.html.

Santos, Diana & Ranchhod, Elisabete (1999). Ambientes de processamento de corpora em português: Comparação entre dois sistemas. In Actas do IV Encontro sobre o Processamento Computacional da Língua Portuguesa (Escrita e Falada) (Évora, 20-21 de Setembro 1999) (pp. 257-268). Disponível na Internet nos endereços http://www.linguateca.pt/Diana/download/propor99.ps e http://label2.ist.utl.pt/LabEL/proporIV.ps.

Santos, Diana & Paulo Rocha (2001). Evaluating CETEMPúblico, a free resource for Portuguese. Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (Toulouse, 9-11 July 2001), pp.442-449, RTF, PostScript, PDF.

Silva, Augusto Soares da Silva (2004). Léxico e variação Portugal/Brasil: Para uma sociolexicologia cognitiva do Português. Revista Portuguesa de Humanidades 8, Faculdade de Filosofia da Universidade Católica Portuguesa, pp.99-117.

Thompson, H., Armstrong-Warwick, S., McKelvie, D., et al. (1994). Data in your language: The ECI Multilingual Corpus 1. In Proceedings of the International Workshop on Shareable Natural Language Resources. Nara.

[ Acesso aos corpora | Exemplos | Atomização | Anotação | Corpora anotados | Agradecimentos ]


Última actualização: 27 de Fevereiro de 2006.
Perguntas, comentários e sugestões