Informação pormenorizada sobre os corpora anotados

Projecto AC/DC, Linguateca


Tentamos, na presente página, apresentar uma contabilização básica dos corpora anotados a que damos acesso no projecto AC/DC. Todos os corpora foram anotados por (diferentes versões d)o analisador sintáctico de Eckhard Bick, Bick, o PALAVRAS. Veja-se a página de anotação para mais informação sobre esse processo e o seu resultado.

Esta contabilização vai sendo actualizada sempre que houver criação de novas versões. O processo mínimo que leva à actualização das versões dos corpora anotados é o seguinte:

  1. Criação do corpus não-anotado (a que corresponde a sua disponibilização a partir do projecto AC/DC) num formato apropriado para ser analisado por PALAVRAS
  2. Envio desse corpus para o projecto VISL (Odense)
  3. Análise do corpus pelo PALAVRAS
  4. Envio do resultado para o projecto Proc. Comp. do Português (Oslo)
  5. Detecção de expressões polilexicais constantes desse corpus que ainda não estejam presentes no dicionário polilexical e seu envio para Odense
  6. Criação de uma primeira versão anotada e sua disponibilização a partir do projecto AC/DC
  7. Actualização do dicionário polilexical enviada para Oslo
  8. Criação de uma nova versão do corpus anotado já com tratamento das suas expressões polilexicais

De notar que é possível que os corpora difiram (ligeiramente) das suas versões não anotadas, em primeiro lugar porque pode haver uma discrepância no tempo e a versão não anotada ser mais recente e melhor (por exemplo no que se refere à separação de frases). Em segundo lugar, e é sobretudo por isso que mantemos ambas, temos de dar acesso à versão não anotada (que é fiel à origem dos textos) até conseguirmos a total recuperação do texto inicial a partir do resultado da análise (a discussão do porquê destas opções encontra-se em Santos & Bick, 2000).

De notar também que o analisador vai mudando de comportamento à medida que problemas vão sendo detectados nos vários corpora, além de que é alvo de desenvolvimento praticamente constante por parte do seu autor, Eckhard Bick. Os corpora não são, portanto, idênticos em todas as opções linguísticas e computacionais, visto que provêm de diferentes versões do analisador.

Também o coligir dos vários itens polilexicais, até ser convertido numa versão mais actualizada do dicionário, faz com que alguns corpora estejam mais "bem processados" do que outros.

Finalmente, também o pós-processamento extensivo feito no projecto AC/DC, também sujeito a melhorias periódicas, pode alterar o conteúdo dos corpora.

Parâmetros de descrição

Para cada corpus anotado, é registada a data de corpus não anotado que lhe deu origem, a data da análise sintáctica (leia-se versão do parser) e a data da criação do corpus a que se dá acesso, além de uma numeração de versões única.

Dá-se também uma descrição quantitativa dos marcadores estruturais presentes no corpus (descritos por ocasião da versão não anotada).

Tenta-se a seguir produzir uma descrição informada do número de palavras de cada corpus, identificando: o número de nomes próprios (e a quantos tokens/unidades correspondem), o número de elementos polilexicais (e a quantas unidades correspondem), o número de tokens (palavras gráficas) existente, e finalmente o número de palavras do corpus (contando uma locução ou um nome próprio como uma palavra só).

Finalmente, e para o que se poderá chamar categorias gramaticais primárias (cuja identificação é dependente, claro, do analisador sintáctico subjacente), fornecemos uma contabilização em número de unidades e percentagem.

Identificação sumária

Informação original fornecida pelos compiladores de corpora, acessível na Internet ou publicada. Apenas os identificadores foram atribuídos por nós.

NATPANOT Natura/Público Corpus jornalístico Natura-Público, http://natura.di.uminho.pt/jjbin/corpora
ENPCANOT ENPCPUB Parte disponível do ENPCPORT, a parte portuguesa (traduções para português de originais em inglês) do English-Norwegian Parallel Corpus (ENPC), Johansson, Ebeling & Hofland (1996), Johansson, Ebeling & Oksefjell (1999), Oksefjell (1999; no prelo)
MINHANOT Natura/Minho Corpus jornalístico Natura-Diário do Minho, http://natura.di.uminho.pt/jjbin/corpora
EBRANOT ECI-EBR A parte do corpus Borba-Ramsey do European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI), informação da ELSNET, informação do LDC, McKelvie & Thompson (1994), Thompson et al. (1994)
EEANOT ECI-EE A parte da apresentação do programa Esprit do European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI), informação da ELSNET, informação do LDC, McKelvie & Thompson (1994), Thompson et al. (1994)
SCANOT NILC/São Carlos Corpus NILC/São Carlos (parte corrigida), Nunes et al. (1996a) ; Nunes et al. (1996b)
FPPANOT FrasesPP Corpus FrasesPP anotado, Santos (1992, Introd. Desc.), Medeiros, Marques & Santos (1993)
FPBANOT FrasesPB Corpus FrasesPB
CPPRMIANOT CETEMPúblico (primeiro milhão) Primeiro milhão de palavras do CETEMPúblico (Corpus de Extractos de Textos Electrónicos MCT/Público), Rocha & Santos (2000), Santos & Rocha (2001), revisto pela equipa do projecto Floresta sintá(c)tica.
ANCIBANOT ANCIB Corpus de correio electrónico da lista ANCIB
DIACLAVANOT DiaCLAV Corpus de artigos da edição electrónica de jornais regionais da região centro de Portugal, nomeadamente Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário
AVANTANOT Avante! Corpus de artigos da edição electrónica do Avante!, o jornal semanal do Partido Comunista Português
AMOSTRANOT AmostRA-NILC Selecção de textos do corpus NILC, em português brasileiro, contendo textos dos géneros didático, jornalístico e literário criada no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC
MPANOT Museu da PessoaCorpus de 109 entrevistas realizadas pelo Museu da Pessoa
CLASSANOTClassLPPECorpus Clássicos da Literatura Portuguesa da Porto Editora
CONDIVANOTConDIVport Textos de jornais desportivos de Portugal e do Brasil
CONEANOTCoNECorpus de Correio Não-Endereçado
CETEMPANOT CETEMPúblico CETEMPúblico (Corpus de Extractos de Textos Electrónicos MCT/Público), Rocha & Santos (2000), Santos & Rocha (2001)

Corpus NATPANOT

número de unidades estruturais

Atributo Número
p 79691
s 226354
marca 67
mwe 113446

Descrição do corpus

Corpus Natura/Público, NATPANOT, versão texto de Abril de 2002, recriado a 22 de Fevereiro de 2006, v.4.0

Contagem das unidades contendo mais de uma palavra

Número de entidades Número de tokens
Nomes próprios 307019 570141
Locuções 113446 238244
Palavras gráficas 5767682 5767682
Palavras simples 4959297 4959297
Palavras 5379762 5767682

Distribuição da categoria gramatical

Categoria gramaticalExpressão de procura Número de tokensEm percentagem
substantivos N|N[^U].* 1357207 27,37%
verbos V.* 786743 15,86%
adjectivos ADJ.* 404064 8,15%
pronomes pessoais .*PERS.* 84968 1,71%
preposições PRP.* 1158666 23,36%
conjunções K.* 250961 5,06%
advérbios ADV.* 304017 6,13%
determinantes .*DET.* 1177750 23,75%
especificadores .*SPEC.* 84114 1,70%
numerais NUM.* 150874 3,04%

Corpus ENPCANOT

número de unidades estruturais

Atributo Número
p 1682
s 4369
texto 5
parte 8
capitulo 25
mwe 1586

Descrição do corpus

Corpus ENPCANOT, versão de 31 de Dezembro de 2001, anotado em Março de 2006, criado a 27 de Março de 2006

Contagem das unidades contendo mais de uma palavra

Número de entidades Número de tokens
Nomes próprios 2538 3311
Locuções 1586 3425
Palavras gráficas 66088 66088
Palavras simples 59352 59352
Palavras 63476 66088

Distribuição da categoria gramatical

Categoria gramaticalExpressão de procura Número de tokensEm percentagem
substantivos N|N[^U].* 13228 22,29%
verbos V.* 12812 21,59%
adjectivos ADJ.* 3848 6,48%
pronomes pessoais .*PERS.* 3104 5,23%
preposições PRP.* 10791 18,18%
conjunções K.* 4000 6,74%
advérbios ADV.* 5439 9,16%
determinantes .*DET.* 12186 20,53%
especificadores .*SPEC.* 1471 2,48%
numerais NUM.* 768 1,29%

Corpus MINHANOT

número de unidades estruturais

Atributo Número
p 41176
s 52641
assinatura 539
legenda 775
subtitulo 963
titulo 6627
art 5071
marca 0
mwe 29059

Descrição do corpus

Corpus Natura/Minho versão 2 (de 9 de Março de 2001), versão texto criada em Abril de 2002, anotado em Março de 2006, criado a 6 de Março de 2006, v. 3.0

Contagem das unidades contendo mais de uma palavra

Número de entidades Número de tokens
Nomes próprios 104773 221211
Locuções 29059 60791
Palavras gráficas 1595411 1595411
Palavras simples 1313409 1313409
Palavras 1447241 1595411

Distribuição da categoria gramatical

Categoria gramaticalExpressão de procura Número de tokensEm percentagem
substantivos N|N[^U].* 367518 27,98%
verbos V.* 206993 15,76%
adjectivos ADJ.* 99427 7,57%
pronomes pessoais .*PERS.* 19750 1,50%
preposições PRP.* 312075 23,76%
conjunções K.* 73338 5,58%
advérbios ADV.* 70480 5,37%
determinantes .*DET.* 312798 23,82%
especificadores .*SPEC.* 20335 1,55%
numerais NUM.* 44162 3,36%

Corpus EBRANOT

número de unidades estruturais

Atributo Número
p 12117
s 43545
marca 3
mwe 14636

Descrição do corpus

Corpus EBRANOT, versão texto de Abril de 2002, anotado Fevereiro de 2006, criado 22 de Fevereiro de 2006, v5.0

Contagem das unidades contendo mais de uma palavra

Número de entidades Número de tokens
Nomes próprios 32873 32845
Locuções 14636 31133
Palavras gráficas 656963 656963
Palavras simples 592985 592985
Palavras 640494 656963

Distribuição da categoria gramatical

Categoria gramaticalExpressão de procura Número de tokensEm percentagem
substantivos N|N[^U].* 150336 25,35%
verbos V.* 114945 19,38%
adjectivos ADJ.* 45101 7,61%
pronomes pessoais .*PERS.* 24975 4,21%
preposições PRP.* 108419 18,28%
conjunções K.* 35668 6,01%
advérbios ADV.* 47162 7,95%
determinantes .*DET.* 125920 21,23%
especificadores .*SPEC.* 12721 2,15%
numerais NUM.* 9085 1,53%

Corpus EEANOT

número de unidades estruturais

Atributo Número
p 340
s 780
titulo 59
nota 27
marca 27
mwe 600

Descrição do corpus

Corpus EEANOT, versão de Abril de 2002, anotado em Feveiro de 2006, criado a 22 de Fevereiro de 2006, v. 4.0

Contagem das unidades contendo mais de uma palavra

Número de entidades Número de tokens
Nomes próprios 620 980
Locuções 600 1285
Palavras gráficas 24788 24788
Palavras simples 22523 22523
Palavras 23743 24788

Distribuição da categoria gramatical

Categoria gramaticalExpressão de procura Número de tokensEm percentagem
substantivos N|N[^U].* 6949 30,85%
verbos V.* 2941 13,06%
adjectivos ADJ.* 2348 10,42%
pronomes pessoais .*PERS.* 410 1,82%
preposições PRP.* 5304 23,55%
conjunções K.* 1320 5,86%
advérbios ADV.* 950 4,22%
determinantes .*DET.* 4980 22,11%
especificadores .*SPEC.* 235 1,04%
numerais NUM.* 703 3,12%

Corpus SCANOT

número de unidades estruturais

Atributo Número
mwe 145810
p 825925
s 1952829
texto 341902
subtitulo 3767
assinatura 13
artigo 0
caixa 20722
situacao 5031
t 148930
a 80375
li 49689

Descrição do corpus

Corpus NILC/São Carlos anotado, versão texto de 4 de Setembro de 2002, análise sintáctica de Agosto de 2003, criado a 18 de Dezembro de 2003, v.4.5

Contagem das unidades contendo mais de uma palavra

Número de entidades Número de tokens
Nomes próprios 1982334 3461395
Locuções 145810 282975
Palavras gráficas 32385765 32385765
Palavras simples 28641395 28641395
Palavras 30769539 32385765

Distribuição da categoria gramatical

Categoria gramaticalExpressão de procura Número de tokensEm percentagem
substantivos N|N[^U].* 7147337 24,95%
verbos V.* 4384717 15,31%
adjectivos ADJ.* 1733124 6,05%
pronomes pessoais .*PERS.* 472184 1,65%
preposições PRP.* 5275623 18,42%
conjunções K.* 1220477 4,26%
advérbios ADV.* 1465214 5,12%
determinantes .*DET.* 5505283 19,22%
especificadores .*SPEC.* 441736 1,54%
numerais NUM.* 933285 3,26%

Corpus FPPANOT

número de unidades estruturais

Atributo Número
p 594
s 594
mwe 335

Descrição do corpus

Corpus FPPANOT, anotado e criado a 25 de Fevereiro de 2006, v. 5.0

Contagem das unidades contendo mais de uma palavra

Número de entidades Número de tokens
Nomes próprios 263 432
Locuções 335 718
Palavras gráficas 15186 15186
Palavras simples 14036 14036
Palavras 14634 15186

Distribuição da categoria gramatical

Categoria gramaticalExpressão de procura Número de tokensEm percentagem
substantivos N|N[^U].* 3767 26,84%
verbos V.* 2305 16,42%
adjectivos ADJ.* 1293 9,21%
pronomes pessoais .*PERS.* 413 2,94%
preposições PRP.* 2801 19,96%
conjunções K.* 847 6,03%
advérbios ADV.* 967 6,89%
determinantes .*DET.* 3135 22,34%
especificadores .*SPEC.* 279 1,99%
numerais NUM.* 209 1,49%

Corpus FPBANOT

número de unidades estruturais

Atributo Número
p 648
s 651
mwe 418

Descrição do corpus

Corpus FPBANOT, versão texto de 17 de Abril de 2002, anotado e criado a 26 de Fevereiro de 2006, v4.0

Contagem das unidades contendo mais de uma palavra

Número de entidades Número de tokens
Nomes próprios 246 406
Locuções 418 890
Palavras gráficas 17745 17745
Palavras simples 16449 16449
Palavras 17113 17745

Distribuição da categoria gramatical

Categoria gramaticalExpressão de procura Número de tokensEm percentagem
substantivos N|N[^U].* 4617 28,07%
verbos V.* 2902 17,64%
adjectivos ADJ.* 1429 8,69%
pronomes pessoais .*PERS.* 354 2,15%
preposições PRP.* 3269 19,87%
conjunções K.* 1032 6,27%
advérbios ADV.* 1064 6,47%
determinantes .*DET.* 3641 22,14%
especificadores .*SPEC.* 317 1,93%
numerais NUM.* 164 1,00%

Corpus CPPRMIANOT

número de unidades estruturais

Atributo Número
p 13435
s 38251
li 408
ext 7914
a 1279
t 3650
sic 533
marca 0
mwe 5046

Descrição do corpus

Corpus CPPRMIANOT (primeiro milhão do CETEMPúblico revisto e anotado, versão 1.0), anotado em Abril de 2002 e criado a 13 de Janeiro de 2003, v.3.3

Contagem das unidades contendo mais de uma palavra

Número de entidades Número de tokens
Nomes próprios 52178 93850
Locuções 5046 9645
Palavras gráficas 995851 995851
Palavras simples 892356 892356
Palavras 949580 995851

Distribuição da categoria gramatical

Categoria gramaticalExpressão de procura Número de tokensEm percentagem
substantivos N|N[^U].* 204299 22,89%
verbos V.* 132470 14,84%
adjectivos ADJ.* 57646 6,46%
pronomes pessoais .*PERS.* 15539 1,74%
preposições PRP.* 176541 19,78%
conjunções K.* 40590 4,55%
advérbios ADV.* 53817 6,03%
determinantes .*DET.* 183852 20,60%
especificadores .*SPEC.* 17511 1,96%
numerais NUM.* 20997 2,35%

Corpus ANCIBANOT

número de unidades estruturais

Atributo Número
p 19069
s 37691
mwe 11399
autor 2431
mens 2436
assunto 2416
div 0
li 21947
titulo 1925
cita 126

Descrição do corpus

Corpus ANCIB anotado, versão texto Janeiro de 2006, anotado em Março de 2006, criado a 27 de Março de 2006, v4.0

Contagem das unidades contendo mais de uma palavra

Número de entidades Número de tokens
Nomes próprios 74721 159772
Locuções 11399 24301
Palavras gráficas 866145 866145
Palavras simples 682072 682072
Palavras 768192 866145

Distribuição da categoria gramatical

Categoria gramaticalExpressão de procura Número de tokensEm percentagem
substantivos N|N[^U].* 224671 32,94%
verbos V.* 98665 14,47%
adjectivos ADJ.* 56081 8,22%
pronomes pessoais .*PERS.* 11112 1,63%
preposições PRP.* 154744 22,69%
conjunções K.* 43934 6,44%
advérbios ADV.* 31102 4,56%
determinantes .*DET.* 147571 21,64%
especificadores .*SPEC.* 8669 1,27%
numerais NUM.* 26928 3,95%

Corpus DIACLAVANOT

número de unidades estruturais

Atributo Número
p 24439
s 210357
art 12800
t 12800
a 5725
mwe 123148

Descrição do corpus

Corpus DIACLAVANOT, versão texto criada em Abril de 2002, anotado em Fevereiro de 2006, criado a 6 de Março de 2.6, v2.0

Contagem das unidades contendo mais de uma palavra

Número de entidades Número de tokens
Nomes próprios 351903 697748
Locuções 123148 256196
Palavras gráficas 5997609 5997609
Palavras simples 5043665 5043665
Palavras 5518716 5997609

Distribuição da categoria gramatical

Categoria gramaticalExpressão de procura Número de tokensEm percentagem
substantivos N|N[^U].* 1334914 26,47%
verbos V.* 870136 17,25%
adjectivos ADJ.* 350813 6,96%
pronomes pessoais .*PERS.* 85700 1,70%
preposições PRP.* 1148291 22,77%
conjunções K.* 290205 5,75%
advérbios ADV.* 332429 6,59%
determinantes .*DET.* 1180570 23,41%
especificadores .*SPEC.* 95414 1,89%
numerais NUM.* 129052 2,56%

Corpus AVANTANOT

número de unidades estruturais

Atributo Número
ed 0
art 8472
t 28989
p 103789
s 203785
li 43078
a 2
marca 0
mwe 123892

Descrição do corpus

Corpus AVANTANOT, versão texto criada em Abril de 2002, anotado em Março de 2006, criado a 15 de Março de 2006, v2.0

Contagem das unidades contendo mais de uma palavra

Número de entidades Número de tokens
Nomes próprios 276078 467035
Locuções 123892 261789
Palavras gráficas 5981088 5981088
Palavras simples 5252264 5252264
Palavras 5652234 5981088

Distribuição da categoria gramatical

Categoria gramaticalExpressão de procura Número de tokensEm percentagem
substantivos N|N[^U].* 1447261 27,55%
verbos V.* 784574 14,94%
adjectivos ADJ.* 455210 8,67%
pronomes pessoais .*PERS.* 92547 1,76%
preposições PRP.* 1211216 23,06%
conjunções K.* 331919 6,32%
advérbios ADV.* 314876 6,00%
determinantes .*DET.* 1262212 24,03%
especificadores .*SPEC.* 95875 1,83%
numerais NUM.* 103102 1,96%

Corpus AMOSTRANOT

número de unidades estruturais

Atributo Número
p 4903
s 4923
mwe 1741

Descrição do corpus

Corpus AmostRA-NILC anotado pelo PALAVRAS, versão texto de 7 de Agosto de 2003, anotado e criado a 25 de Fevereiro de 2006, v2.0

Contagem das unidades contendo mais de uma palavra

Número de entidades Número de tokens
Nomes próprios 2966 4454
Locuções 1741 3644
Palavras gráficas 90877 90877
Palavras simples 82779 82779
Palavras 87486 90877

Distribuição da categoria gramatical

Categoria gramaticalExpressão de procura Número de tokensEm percentagem
substantivos N|N[^U].* 23248 28,08%
verbos V.* 14176 17,13%
adjectivos ADJ.* 6436 7,77%
pronomes pessoais .*PERS.* 2289 2,77%
preposições PRP.* 16612 20,07%
conjunções K.* 4186 5,06%
advérbios ADV.* 5079 6,14%
determinantes .*DET.* 17926 21,66%
especificadores .*SPEC.* 1264 1,53%
numerais NUM.* 1834 2,22%

Corpus MPANOT

número de unidades estruturais

Atributo Número
mwe 6748
p 10833
s 24049
entrevista 109
pergunta 4608
resposta 4886

Descrição do corpus

Corpus Museu da Pessoa, MPANOT, versão texto de Abril de 2005, anotado 22/02/2006, versão 2.0

Contagem das unidades contendo mais de uma palavra

Número de entidades Número de tokens
Nomes próprios 6535 10909
Locuções 6748 14453
Palavras gráficas 315420 315420
Palavras simples 290058 290058
Palavras 303341 315420

Distribuição da categoria gramatical

Categoria gramaticalExpressão de procura Número de tokensEm percentagem
substantivos N|N[^U].* 60103 20,72%
verbos V.* 65868 22,71%
adjectivos ADJ.* 10991 3,79%
pronomes pessoais .*PERS.* 15727 5,42%
preposições PRP.* 43340 14,94%
conjunções K.* 21414 7,38%
advérbios ADV.* 34284 11,82%
determinantes .*DET.* 57615 19,86%
especificadores .*SPEC.* 8130 2,80%
numerais NUM.* 4786 1,65%

Corpus CLASSANOT

número de unidades estruturais

Atributo Número
p 33309
s 74679
personagem 2821
v 17378
obra 26
capitulo 135
e 1851
marca 144
poema 105
titulo 215
u 92444
indic 166
fala 2820
autor 26
tituloobra 26
div 394

Descrição do corpus

Corpus Clássicos da Literatura Portuguesa - Porto Editora, 30 de Março de 2004, anotado em Março de 2006, criado a 20 de Março de 2006, versão 1.0

Contagem das unidades contendo mais de uma palavra

Número de entidades Número de tokens
Nomes próprios 0 48089
Locuções
Palavras gráficas 1333498 1333498
Palavras simples 1285409 1285409
Palavras 1285409 1333498

Distribuição da categoria gramatical

Categoria gramaticalExpressão de procura Número de tokensEm percentagem
substantivos N|N[^U].* 241623 18,80%
verbos V.* 221921 17,26%
adjectivos ADJ.* 69590 5,41%
pronomes pessoais .*PERS.* 70708 5,50%
preposições PRP.* 182542 14,20%
conjunções K.* 71624 5,57%
advérbios ADV.* 96575 7,51%
determinantes .*DET.* 223903 17,42%
especificadores .*SPEC.* 29145 2,27%
numerais NUM.* 7151 0,56%

Corpus CONDIVANOT

número de unidades estruturais

Atributo Número
ext 3981
p 69191
s 150542
li 0
marca 0
mwe 50479

Descrição do corpus

Corpus CONDIVANOT, versão texto de 15/02/2006, anotado 16/02/2006, criado 22/02/2006, v. 1.0

Contagem das unidades contendo mais de uma palavra

Número de entidades Número de tokens
Nomes próprios 183845 269434
Locuções 50479 104299
Palavras gráficas 2563648 2563648
Palavras simples 2189915 2189915
Palavras 2424239 2563648

Distribuição da categoria gramatical

Categoria gramaticalExpressão de procura Número de tokensEm percentagem
substantivos N|N[^U].* 527290 24,08%
verbos V.* 403795 18,44%
adjectivos ADJ.* 168116 7,68%
pronomes pessoais .*PERS.* 52318 2,39%
preposições PRP.* 439530 20,07%
conjunções K.* 138477 6,32%
advérbios ADV.* 180734 8,25%
determinantes .*DET.* 496403 22,67%
especificadores .*SPEC.* 42676 1,95%
numerais NUM.* 59538 2,72%

Corpus CONEANOT

número de unidades estruturais

Atributo Número
p 22966
s 37981
mwe 9844
autor 2318
mens 2318
assunto 2259
div 0
li 31927
titulo 1528
cita 0

Descrição do corpus

Corpus ConE, anotado e criado 20 de Março de 2006, v1.0

Contagem das unidades contendo mais de uma palavra

Número de entidades Número de tokens
Nomes próprios 72205 148301
Locuções 9844 20835
Palavras gráficas 742639 742639
Palavras simples 573503 573503
Palavras 655552 742639

Distribuição da categoria gramatical

Categoria gramaticalExpressão de procura Número de tokensEm percentagem
substantivos N|N[^U].* 187237 32,65%
verbos V.* 81626 14,23%
adjectivos ADJ.* 42858 7,47%
pronomes pessoais .*PERS.* 10805 1,88%
preposições PRP.* 111471 19,44%
conjunções K.* 34476 6,01%
advérbios ADV.* 28552 4,98%
determinantes .*DET.* 98341 17,15%
especificadores .*SPEC.* 5881 1,03%
numerais NUM.* 34399 6,00%

[ Acesso aos corpora | Exemplos | Atomização | Anotação | Corpora | Agradecimentos ]


Última actualização: 30 de Março de 2006.
Perguntas, comentários e sugestões