Informação pormenorizada sobre os corpora anotados
Projecto AC/DC, Linguateca
Tentamos, na presente página, apresentar uma contabilização básica dos corpora anotados a que damos acesso no projecto AC/DC.
Todos os corpora foram anotados por (diferentes versões d)o analisador
sintáctico de Eckhard Bick, Bick, o PALAVRAS. Veja-se a página de anotação para mais
informação sobre esse processo e o seu resultado.
Esta contabilização vai sendo actualizada sempre que houver criação de novas versões. O processo mínimo que leva à actualização das versões dos corpora anotados é o seguinte:
- Criação do corpus não-anotado (a que corresponde a sua disponibilização a partir do projecto AC/DC) num formato apropriado para ser analisado por PALAVRAS
- Envio desse corpus para o projecto VISL (Odense)
- Análise do corpus pelo PALAVRAS
- Envio do resultado para o projecto Proc. Comp. do Português (Oslo)
- Detecção de expressões polilexicais constantes desse corpus que ainda não estejam presentes no dicionário polilexical e seu envio para Odense
- Criação de uma primeira versão anotada e sua disponibilização a partir do projecto AC/DC
- Actualização do dicionário polilexical enviada para Oslo
- Criação de uma nova versão do corpus anotado já com tratamento das suas expressões polilexicais
De notar que é possível que os corpora difiram (ligeiramente) das suas versões não anotadas, em primeiro lugar porque pode haver uma discrepância no tempo e a versão não anotada ser mais recente e melhor (por exemplo no que se refere à separação de frases). Em segundo lugar, e é sobretudo por isso que mantemos ambas, temos de dar acesso à versão não anotada (que é fiel à origem dos textos) até conseguirmos a total recuperação do texto inicial a partir do resultado da análise (a discussão do porquê destas opções encontra-se em Santos & Bick, 2000).
De notar também que o analisador vai mudando de comportamento à medida que problemas vão sendo detectados nos vários corpora, além de que é alvo de desenvolvimento praticamente constante por parte do seu autor, Eckhard Bick. Os corpora não são, portanto, idênticos em todas as opções linguísticas e computacionais, visto que provêm de diferentes versões do analisador.
Também o coligir dos vários itens polilexicais, até ser convertido numa versão mais actualizada do dicionário, faz com que alguns corpora estejam mais "bem processados" do que outros.
Finalmente, também o pós-processamento extensivo feito no projecto AC/DC, também sujeito a melhorias periódicas, pode alterar o conteúdo dos corpora.
Parâmetros de descrição
Para cada corpus anotado, é registada a data de corpus não anotado que lhe deu origem, a data da análise sintáctica (leia-se versão do parser) e a data da criação do corpus a que se dá acesso, além de uma numeração de versões única.
Dá-se também uma descrição quantitativa dos marcadores estruturais presentes no corpus (descritos por ocasião da versão não anotada).
Tenta-se a seguir produzir uma descrição informada do número de palavras de cada corpus, identificando: o número de nomes próprios (e a quantos tokens/unidades correspondem), o número de elementos polilexicais (e a quantas unidades correspondem), o número de tokens (palavras gráficas) existente, e finalmente o número de palavras do corpus (contando uma locução ou um nome próprio como uma palavra só).
Finalmente, e para o que se poderá chamar categorias gramaticais primárias (cuja identificação é dependente, claro, do analisador sintáctico subjacente), fornecemos uma contabilização em número de unidades e percentagem.
Identificação sumária
Informação original fornecida pelos compiladores de corpora, acessível na Internet ou publicada. Apenas os identificadores foram atribuídos por nós.
| NATPANOT | Natura/Público | Corpus jornalístico Natura-Público, http://natura.di.uminho.pt/jjbin/corpora |
| ENPCANOT | ENPCPUB | Parte disponível do ENPCPORT, a parte portuguesa (traduções para português de originais em inglês) do English-Norwegian Parallel Corpus (ENPC), Johansson, Ebeling & Hofland (1996), Johansson, Ebeling & Oksefjell (1999), Oksefjell (1999; no prelo) |
| MINHANOT | Natura/Minho | Corpus jornalístico Natura-Diário do Minho, http://natura.di.uminho.pt/jjbin/corpora |
| EBRANOT | ECI-EBR | A parte do corpus Borba-Ramsey do European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI), informação da ELSNET, informação do LDC, McKelvie & Thompson (1994), Thompson et al. (1994) |
| EEANOT | ECI-EE | A parte da apresentação do programa Esprit do European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI), informação da ELSNET, informação do LDC, McKelvie & Thompson (1994), Thompson et al. (1994) |
| SCANOT | NILC/São Carlos | Corpus NILC/São Carlos (parte corrigida), Nunes et al. (1996a) ; Nunes et al. (1996b) |
| FPPANOT | FrasesPP | Corpus FrasesPP anotado, Santos (1992, Introd. Desc.), Medeiros, Marques & Santos (1993) |
| FPBANOT | FrasesPB | Corpus FrasesPB |
| CPPRMIANOT | CETEMPúblico (primeiro milhão) | Primeiro milhão de palavras do CETEMPúblico (Corpus de Extractos de Textos
Electrónicos MCT/Público), Rocha & Santos (2000), Santos & Rocha (2001), revisto pela equipa do projecto Floresta sintá(c)tica.
|
| ANCIBANOT | ANCIB | Corpus de correio electrónico da lista ANCIB |
| DIACLAVANOT | DiaCLAV | Corpus de artigos da edição electrónica de jornais regionais da região centro de Portugal, nomeadamente
Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário |
| AVANTANOT | Avante! | Corpus de artigos da edição
electrónica do Avante!, o jornal semanal do Partido
Comunista Português |
| AMOSTRANOT | AmostRA-NILC | Selecção de textos do corpus NILC, em português brasileiro, contendo textos dos géneros didático, jornalístico e literário criada no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC |
| MPANOT | Museu da
Pessoa| Corpus de 109 entrevistas realizadas pelo Museu da Pessoa
| |
| CLASSANOT | ClassLPPE | Corpus Clássicos da Literatura Portuguesa da Porto Editora |
| CONDIVANOT | ConDIVport | Textos de jornais desportivos de Portugal e do Brasil
|
| CONEANOT | CoNE | Corpus de Correio Não-Endereçado |
| CETEMPANOT | CETEMPúblico | CETEMPúblico (Corpus de Extractos de Textos Electrónicos MCT/Público), Rocha & Santos (2000), Santos & Rocha (2001) |
número de unidades estruturais
| Atributo | Número |
| p | 79691 |
| s | 226354 |
| marca | 67 |
| mwe | 113446 |
Descrição do corpus
Corpus Natura/Público, NATPANOT, versão texto de Abril de 2002, recriado a 22 de Fevereiro de 2006, v.4.0
Contagem das unidades contendo mais de uma palavra
| Número de entidades | Número de tokens |
| Nomes próprios | 307019 | 570141 |
| Locuções | 113446 | 238244 |
| Palavras gráficas | 5767682 | 5767682 |
| Palavras simples | 4959297 | 4959297 |
| Palavras | 5379762 | 5767682 |
Distribuição da categoria gramatical
| Categoria gramatical | Expressão de procura | Número de tokens | Em percentagem |
| substantivos | N|N[^U].* | 1357207 | 27,37% |
| verbos | V.* | 786743 | 15,86% |
| adjectivos | ADJ.* | 404064 | 8,15% |
| pronomes pessoais | .*PERS.* | 84968 | 1,71% |
| preposições | PRP.* | 1158666 | 23,36% |
| conjunções | K.* | 250961 | 5,06% |
| advérbios | ADV.* | 304017 | 6,13% |
| determinantes | .*DET.* | 1177750 | 23,75% |
| especificadores | .*SPEC.* | 84114 | 1,70% |
| numerais | NUM.* | 150874 | 3,04% |
número de unidades estruturais
| Atributo | Número |
| p | 1682 |
| s | 4369 |
| texto | 5 |
| parte | 8 |
| capitulo | 25 |
| mwe | 1586 |
Descrição do corpus
Corpus ENPCANOT, versão de 31 de Dezembro de 2001, anotado em Março de 2006, criado a 27 de Março de 2006
Contagem das unidades contendo mais de uma palavra
| Número de entidades | Número de tokens |
| Nomes próprios | 2538 | 3311 |
| Locuções | 1586 | 3425 |
| Palavras gráficas | 66088 | 66088 |
| Palavras simples | 59352 | 59352 |
| Palavras | 63476 | 66088 |
Distribuição da categoria gramatical
| Categoria gramatical | Expressão de procura | Número de tokens | Em percentagem |
| substantivos | N|N[^U].* | 13228 | 22,29% |
| verbos | V.* | 12812 | 21,59% |
| adjectivos | ADJ.* | 3848 | 6,48% |
| pronomes pessoais | .*PERS.* | 3104 | 5,23% |
| preposições | PRP.* | 10791 | 18,18% |
| conjunções | K.* | 4000 | 6,74% |
| advérbios | ADV.* | 5439 | 9,16% |
| determinantes | .*DET.* | 12186 | 20,53% |
| especificadores | .*SPEC.* | 1471 | 2,48% |
| numerais | NUM.* | 768 | 1,29% |
número de unidades estruturais
| Atributo | Número |
| p | 41176 |
| s | 52641 |
| assinatura | 539 |
| legenda | 775 |
| subtitulo | 963 |
| titulo | 6627 |
| art | 5071 |
| marca | 0 |
| mwe | 29059 |
Descrição do corpus
Corpus Natura/Minho versão 2 (de 9 de Março de 2001), versão texto criada em Abril de
2002, anotado em Março de 2006, criado a 6 de Março de 2006, v. 3.0
Contagem das unidades contendo mais de uma palavra
| Número de entidades | Número de tokens |
| Nomes próprios | 104773 | 221211 |
| Locuções | 29059 | 60791 |
| Palavras gráficas | 1595411 | 1595411 |
| Palavras simples | 1313409 | 1313409 |
| Palavras | 1447241 | 1595411 |
Distribuição da categoria gramatical
| Categoria gramatical | Expressão de procura | Número de tokens | Em percentagem |
| substantivos | N|N[^U].* | 367518 | 27,98% |
| verbos | V.* | 206993 | 15,76% |
| adjectivos | ADJ.* | 99427 | 7,57% |
| pronomes pessoais | .*PERS.* | 19750 | 1,50% |
| preposições | PRP.* | 312075 | 23,76% |
| conjunções | K.* | 73338 | 5,58% |
| advérbios | ADV.* | 70480 | 5,37% |
| determinantes | .*DET.* | 312798 | 23,82% |
| especificadores | .*SPEC.* | 20335 | 1,55% |
| numerais | NUM.* | 44162 | 3,36% |
número de unidades estruturais
| Atributo | Número |
| p | 12117 |
| s | 43545 |
| marca | 3 |
| mwe | 14636 |
Descrição do corpus
Corpus EBRANOT, versão texto de Abril de 2002, anotado Fevereiro de 2006, criado 22 de Fevereiro de 2006, v5.0
Contagem das unidades contendo mais de uma palavra
| Número de entidades | Número de tokens |
| Nomes próprios | 32873 | 32845 |
| Locuções | 14636 | 31133 |
| Palavras gráficas | 656963 | 656963 |
| Palavras simples | 592985 | 592985 |
| Palavras | 640494 | 656963 |
Distribuição da categoria gramatical
| Categoria gramatical | Expressão de procura | Número de tokens | Em percentagem |
| substantivos | N|N[^U].* | 150336 | 25,35% |
| verbos | V.* | 114945 | 19,38% |
| adjectivos | ADJ.* | 45101 | 7,61% |
| pronomes pessoais | .*PERS.* | 24975 | 4,21% |
| preposições | PRP.* | 108419 | 18,28% |
| conjunções | K.* | 35668 | 6,01% |
| advérbios | ADV.* | 47162 | 7,95% |
| determinantes | .*DET.* | 125920 | 21,23% |
| especificadores | .*SPEC.* | 12721 | 2,15% |
| numerais | NUM.* | 9085 | 1,53% |
número de unidades estruturais
| Atributo | Número |
| p | 340 |
| s | 780 |
| titulo | 59 |
| nota | 27 |
| marca | 27 |
| mwe | 600 |
Descrição do corpus
Corpus EEANOT, versão de Abril de 2002, anotado em Feveiro de 2006, criado a 22 de Fevereiro de 2006, v. 4.0
Contagem das unidades contendo mais de uma palavra
| Número de entidades | Número de tokens |
| Nomes próprios | 620 | 980 |
| Locuções | 600 | 1285 |
| Palavras gráficas | 24788 | 24788 |
| Palavras simples | 22523 | 22523 |
| Palavras | 23743 | 24788 |
Distribuição da categoria gramatical
| Categoria gramatical | Expressão de procura | Número de tokens | Em percentagem |
| substantivos | N|N[^U].* | 6949 | 30,85% |
| verbos | V.* | 2941 | 13,06% |
| adjectivos | ADJ.* | 2348 | 10,42% |
| pronomes pessoais | .*PERS.* | 410 | 1,82% |
| preposições | PRP.* | 5304 | 23,55% |
| conjunções | K.* | 1320 | 5,86% |
| advérbios | ADV.* | 950 | 4,22% |
| determinantes | .*DET.* | 4980 | 22,11% |
| especificadores | .*SPEC.* | 235 | 1,04% |
| numerais | NUM.* | 703 | 3,12% |
número de unidades estruturais
| Atributo | Número |
| mwe | 145810 |
| p | 825925 |
| s | 1952829 |
| texto | 341902 |
| subtitulo | 3767 |
| assinatura | 13 |
| artigo | 0 |
| caixa | 20722 |
| situacao | 5031 |
| t | 148930 |
| a | 80375 |
| li | 49689 |
Descrição do corpus
Corpus NILC/São Carlos anotado, versão texto de 4 de Setembro de 2002, análise sintáctica de Agosto de 2003, criado a 18 de Dezembro de 2003, v.4.5
Contagem das unidades contendo mais de uma palavra
| Número de entidades | Número de tokens |
| Nomes próprios | 1982334 | 3461395 |
| Locuções | 145810 | 282975 |
| Palavras gráficas | 32385765 | 32385765 |
| Palavras simples | 28641395 | 28641395 |
| Palavras | 30769539 | 32385765 |
Distribuição da categoria gramatical
| Categoria gramatical | Expressão de procura | Número de tokens | Em percentagem |
| substantivos | N|N[^U].* | 7147337 | 24,95% |
| verbos | V.* | 4384717 | 15,31% |
| adjectivos | ADJ.* | 1733124 | 6,05% |
| pronomes pessoais | .*PERS.* | 472184 | 1,65% |
| preposições | PRP.* | 5275623 | 18,42% |
| conjunções | K.* | 1220477 | 4,26% |
| advérbios | ADV.* | 1465214 | 5,12% |
| determinantes | .*DET.* | 5505283 | 19,22% |
| especificadores | .*SPEC.* | 441736 | 1,54% |
| numerais | NUM.* | 933285 | 3,26% |
número de unidades estruturais
| Atributo | Número |
| p | 594 |
| s | 594 |
| mwe | 335 |
Descrição do corpus
Corpus FPPANOT, anotado e criado a 25 de Fevereiro de 2006, v. 5.0
Contagem das unidades contendo mais de uma palavra
| Número de entidades | Número de tokens |
| Nomes próprios | 263 | 432 |
| Locuções | 335 | 718 |
| Palavras gráficas | 15186 | 15186 |
| Palavras simples | 14036 | 14036 |
| Palavras | 14634 | 15186 |
Distribuição da categoria gramatical
| Categoria gramatical | Expressão de procura | Número de tokens | Em percentagem |
| substantivos | N|N[^U].* | 3767 | 26,84% |
| verbos | V.* | 2305 | 16,42% |
| adjectivos | ADJ.* | 1293 | 9,21% |
| pronomes pessoais | .*PERS.* | 413 | 2,94% |
| preposições | PRP.* | 2801 | 19,96% |
| conjunções | K.* | 847 | 6,03% |
| advérbios | ADV.* | 967 | 6,89% |
| determinantes | .*DET.* | 3135 | 22,34% |
| especificadores | .*SPEC.* | 279 | 1,99% |
| numerais | NUM.* | 209 | 1,49% |
número de unidades estruturais
| Atributo | Número |
| p | 648 |
| s | 651 |
| mwe | 418 |
Descrição do corpus
Corpus FPBANOT, versão texto de 17 de Abril de 2002, anotado e criado a 26 de Fevereiro de 2006, v4.0
Contagem das unidades contendo mais de uma palavra
| Número de entidades | Número de tokens |
| Nomes próprios | 246 | 406 |
| Locuções | 418 | 890 |
| Palavras gráficas | 17745 | 17745 |
| Palavras simples | 16449 | 16449 |
| Palavras | 17113 | 17745 |
Distribuição da categoria gramatical
| Categoria gramatical | Expressão de procura | Número de tokens | Em percentagem |
| substantivos | N|N[^U].* | 4617 | 28,07% |
| verbos | V.* | 2902 | 17,64% |
| adjectivos | ADJ.* | 1429 | 8,69% |
| pronomes pessoais | .*PERS.* | 354 | 2,15% |
| preposições | PRP.* | 3269 | 19,87% |
| conjunções | K.* | 1032 | 6,27% |
| advérbios | ADV.* | 1064 | 6,47% |
| determinantes | .*DET.* | 3641 | 22,14% |
| especificadores | .*SPEC.* | 317 | 1,93% |
| numerais | NUM.* | 164 | 1,00% |
número de unidades estruturais
| Atributo | Número |
| p | 13435 |
| s | 38251 |
| li | 408 |
| ext | 7914 |
| a | 1279 |
| t | 3650 |
| sic | 533 |
| marca | 0 |
| mwe | 5046 |
Descrição do corpus
Corpus CPPRMIANOT (primeiro milhão do CETEMPúblico revisto e anotado, versão 1.0), anotado em Abril de 2002 e criado a 13 de Janeiro de 2003, v.3.3
Contagem das unidades contendo mais de uma palavra
| Número de entidades | Número de tokens |
| Nomes próprios | 52178 | 93850 |
| Locuções | 5046 | 9645 |
| Palavras gráficas | 995851 | 995851 |
| Palavras simples | 892356 | 892356 |
| Palavras | 949580 | 995851 |
Distribuição da categoria gramatical
| Categoria gramatical | Expressão de procura | Número de tokens | Em percentagem |
| substantivos | N|N[^U].* | 204299 | 22,89% |
| verbos | V.* | 132470 | 14,84% |
| adjectivos | ADJ.* | 57646 | 6,46% |
| pronomes pessoais | .*PERS.* | 15539 | 1,74% |
| preposições | PRP.* | 176541 | 19,78% |
| conjunções | K.* | 40590 | 4,55% |
| advérbios | ADV.* | 53817 | 6,03% |
| determinantes | .*DET.* | 183852 | 20,60% |
| especificadores | .*SPEC.* | 17511 | 1,96% |
| numerais | NUM.* | 20997 | 2,35% |
número de unidades estruturais
| Atributo | Número |
| p | 19069 |
| s | 37691 |
| mwe | 11399 |
| autor | 2431 |
| mens | 2436 |
| assunto | 2416 |
| div | 0 |
| li | 21947 |
| titulo | 1925 |
| cita | 126 |
Descrição do corpus
Corpus ANCIB anotado, versão texto Janeiro de 2006, anotado em Março de 2006, criado a 27 de Março de 2006, v4.0
Contagem das unidades contendo mais de uma palavra
| Número de entidades | Número de tokens |
| Nomes próprios | 74721 | 159772 |
| Locuções | 11399 | 24301 |
| Palavras gráficas | 866145 | 866145 |
| Palavras simples | 682072 | 682072 |
| Palavras | 768192 | 866145 |
Distribuição da categoria gramatical
| Categoria gramatical | Expressão de procura | Número de tokens | Em percentagem |
| substantivos | N|N[^U].* | 224671 | 32,94% |
| verbos | V.* | 98665 | 14,47% |
| adjectivos | ADJ.* | 56081 | 8,22% |
| pronomes pessoais | .*PERS.* | 11112 | 1,63% |
| preposições | PRP.* | 154744 | 22,69% |
| conjunções | K.* | 43934 | 6,44% |
| advérbios | ADV.* | 31102 | 4,56% |
| determinantes | .*DET.* | 147571 | 21,64% |
| especificadores | .*SPEC.* | 8669 | 1,27% |
| numerais | NUM.* | 26928 | 3,95% |
número de unidades estruturais
| Atributo | Número |
| p | 24439 |
| s | 210357 |
| art | 12800 |
| t | 12800 |
| a | 5725 |
| mwe | 123148 |
Descrição do corpus
Corpus DIACLAVANOT, versão texto criada em Abril de 2002, anotado em Fevereiro de 2006, criado a 6 de Março de 2.6, v2.0
Contagem das unidades contendo mais de uma palavra
| Número de entidades | Número de tokens |
| Nomes próprios | 351903 | 697748 |
| Locuções | 123148 | 256196 |
| Palavras gráficas | 5997609 | 5997609 |
| Palavras simples | 5043665 | 5043665 |
| Palavras | 5518716 | 5997609 |
Distribuição da categoria gramatical
| Categoria gramatical | Expressão de procura | Número de tokens | Em percentagem |
| substantivos | N|N[^U].* | 1334914 | 26,47% |
| verbos | V.* | 870136 | 17,25% |
| adjectivos | ADJ.* | 350813 | 6,96% |
| pronomes pessoais | .*PERS.* | 85700 | 1,70% |
| preposições | PRP.* | 1148291 | 22,77% |
| conjunções | K.* | 290205 | 5,75% |
| advérbios | ADV.* | 332429 | 6,59% |
| determinantes | .*DET.* | 1180570 | 23,41% |
| especificadores | .*SPEC.* | 95414 | 1,89% |
| numerais | NUM.* | 129052 | 2,56% |
número de unidades estruturais
| Atributo | Número |
| ed | 0 |
| art | 8472 |
| t | 28989 |
| p | 103789 |
| s | 203785 |
| li | 43078 |
| a | 2 |
| marca | 0 |
| mwe | 123892 |
Descrição do corpus
Corpus AVANTANOT, versão texto criada em Abril de 2002, anotado em Março de 2006, criado a 15 de Março de 2006, v2.0
Contagem das unidades contendo mais de uma palavra
| Número de entidades | Número de tokens |
| Nomes próprios | 276078 | 467035 |
| Locuções | 123892 | 261789 |
| Palavras gráficas | 5981088 | 5981088 |
| Palavras simples | 5252264 | 5252264 |
| Palavras | 5652234 | 5981088 |
Distribuição da categoria gramatical
| Categoria gramatical | Expressão de procura | Número de tokens | Em percentagem |
| substantivos | N|N[^U].* | 1447261 | 27,55% |
| verbos | V.* | 784574 | 14,94% |
| adjectivos | ADJ.* | 455210 | 8,67% |
| pronomes pessoais | .*PERS.* | 92547 | 1,76% |
| preposições | PRP.* | 1211216 | 23,06% |
| conjunções | K.* | 331919 | 6,32% |
| advérbios | ADV.* | 314876 | 6,00% |
| determinantes | .*DET.* | 1262212 | 24,03% |
| especificadores | .*SPEC.* | 95875 | 1,83% |
| numerais | NUM.* | 103102 | 1,96% |
número de unidades estruturais
| Atributo | Número |
| p | 4903 |
| s | 4923 |
| mwe | 1741 |
Descrição do corpus
Corpus AmostRA-NILC anotado pelo PALAVRAS, versão texto de 7 de Agosto de 2003, anotado e criado a 25 de Fevereiro de 2006, v2.0
Contagem das unidades contendo mais de uma palavra
| Número de entidades | Número de tokens |
| Nomes próprios | 2966 | 4454 |
| Locuções | 1741 | 3644 |
| Palavras gráficas | 90877 | 90877 |
| Palavras simples | 82779 | 82779 |
| Palavras | 87486 | 90877 |
Distribuição da categoria gramatical
| Categoria gramatical | Expressão de procura | Número de tokens | Em percentagem |
| substantivos | N|N[^U].* | 23248 | 28,08% |
| verbos | V.* | 14176 | 17,13% |
| adjectivos | ADJ.* | 6436 | 7,77% |
| pronomes pessoais | .*PERS.* | 2289 | 2,77% |
| preposições | PRP.* | 16612 | 20,07% |
| conjunções | K.* | 4186 | 5,06% |
| advérbios | ADV.* | 5079 | 6,14% |
| determinantes | .*DET.* | 17926 | 21,66% |
| especificadores | .*SPEC.* | 1264 | 1,53% |
| numerais | NUM.* | 1834 | 2,22% |
número de unidades estruturais
| Atributo | Número |
| mwe | 6748 |
| p | 10833 |
| s | 24049 |
| entrevista | 109 |
| pergunta | 4608 |
| resposta | 4886 |
Descrição do corpus
Corpus Museu da Pessoa, MPANOT, versão texto de Abril de 2005, anotado 22/02/2006, versão 2.0
Contagem das unidades contendo mais de uma palavra
| Número de entidades | Número de tokens |
| Nomes próprios | 6535 | 10909 |
| Locuções | 6748 | 14453 |
| Palavras gráficas | 315420 | 315420 |
| Palavras simples | 290058 | 290058 |
| Palavras | 303341 | 315420 |
Distribuição da categoria gramatical
| Categoria gramatical | Expressão de procura | Número de tokens | Em percentagem |
| substantivos | N|N[^U].* | 60103 | 20,72% |
| verbos | V.* | 65868 | 22,71% |
| adjectivos | ADJ.* | 10991 | 3,79% |
| pronomes pessoais | .*PERS.* | 15727 | 5,42% |
| preposições | PRP.* | 43340 | 14,94% |
| conjunções | K.* | 21414 | 7,38% |
| advérbios | ADV.* | 34284 | 11,82% |
| determinantes | .*DET.* | 57615 | 19,86% |
| especificadores | .*SPEC.* | 8130 | 2,80% |
| numerais | NUM.* | 4786 | 1,65% |
número de unidades estruturais
| Atributo | Número |
| p | 33309 |
| s | 74679 |
| personagem | 2821 |
| v | 17378 |
| obra | 26 |
| capitulo | 135 |
| e | 1851 |
| marca | 144 |
| poema | 105 |
| titulo | 215 |
| u | 92444 |
| indic | 166 |
| fala | 2820 |
| autor | 26 |
| tituloobra | 26 |
| div | 394 |
Descrição do corpus
Corpus Clássicos da Literatura Portuguesa - Porto Editora, 30 de Março de 2004, anotado em Março de 2006, criado a 20 de Março de 2006, versão 1.0
Contagem das unidades contendo mais de uma palavra
| Número de entidades | Número de tokens |
| Nomes próprios | 0 | 48089 |
| Locuções | | |
| Palavras gráficas | 1333498 | 1333498 |
| Palavras simples | 1285409 | 1285409 |
| Palavras | 1285409 | 1333498 |
Distribuição da categoria gramatical
| Categoria gramatical | Expressão de procura | Número de tokens | Em percentagem |
| substantivos | N|N[^U].* | 241623 | 18,80% |
| verbos | V.* | 221921 | 17,26% |
| adjectivos | ADJ.* | 69590 | 5,41% |
| pronomes pessoais | .*PERS.* | 70708 | 5,50% |
| preposições | PRP.* | 182542 | 14,20% |
| conjunções | K.* | 71624 | 5,57% |
| advérbios | ADV.* | 96575 | 7,51% |
| determinantes | .*DET.* | 223903 | 17,42% |
| especificadores | .*SPEC.* | 29145 | 2,27% |
| numerais | NUM.* | 7151 | 0,56% |
número de unidades estruturais
| Atributo | Número |
| ext | 3981 |
| p | 69191 |
| s | 150542 |
| li | 0 |
| marca | 0 |
| mwe | 50479 |
Descrição do corpus
Corpus CONDIVANOT, versão texto de 15/02/2006, anotado 16/02/2006, criado 22/02/2006, v. 1.0
Contagem das unidades contendo mais de uma palavra
| Número de entidades | Número de tokens |
| Nomes próprios | 183845 | 269434 |
| Locuções | 50479 | 104299 |
| Palavras gráficas | 2563648 | 2563648 |
| Palavras simples | 2189915 | 2189915 |
| Palavras | 2424239 | 2563648 |
Distribuição da categoria gramatical
| Categoria gramatical | Expressão de procura | Número de tokens | Em percentagem |
| substantivos | N|N[^U].* | 527290 | 24,08% |
| verbos | V.* | 403795 | 18,44% |
| adjectivos | ADJ.* | 168116 | 7,68% |
| pronomes pessoais | .*PERS.* | 52318 | 2,39% |
| preposições | PRP.* | 439530 | 20,07% |
| conjunções | K.* | 138477 | 6,32% |
| advérbios | ADV.* | 180734 | 8,25% |
| determinantes | .*DET.* | 496403 | 22,67% |
| especificadores | .*SPEC.* | 42676 | 1,95% |
| numerais | NUM.* | 59538 | 2,72% |
número de unidades estruturais
| Atributo | Número |
| p | 22966 |
| s | 37981 |
| mwe | 9844 |
| autor | 2318 |
| mens | 2318 |
| assunto | 2259 |
| div | 0 |
| li | 31927 |
| titulo | 1528 |
| cita | 0 |
Descrição do corpus
Corpus ConE, anotado e criado 20 de Março de 2006, v1.0
Contagem das unidades contendo mais de uma palavra
| Número de entidades | Número de tokens |
| Nomes próprios | 72205 | 148301 |
| Locuções | 9844 | 20835 |
| Palavras gráficas | 742639 | 742639 |
| Palavras simples | 573503 | 573503 |
| Palavras | 655552 | 742639 |
Distribuição da categoria gramatical
| Categoria gramatical | Expressão de procura | Número de tokens | Em percentagem |
| substantivos | N|N[^U].* | 187237 | 32,65% |
| verbos | V.* | 81626 | 14,23% |
| adjectivos | ADJ.* | 42858 | 7,47% |
| pronomes pessoais | .*PERS.* | 10805 | 1,88% |
| preposições | PRP.* | 111471 | 19,44% |
| conjunções | K.* | 34476 | 6,01% |
| advérbios | ADV.* | 28552 | 4,98% |
| determinantes | .*DET.* | 98341 | 17,15% |
| especificadores | .*SPEC.* | 5881 | 1,03% |
| numerais | NUM.* | 34399 | 6,00% |
[
Acesso aos corpora |
Exemplos |
Atomização |
Anotação |
Corpora |
Agradecimentos
]
Última actualização: 30 de Março de 2006.
Perguntas, comentários e sugestões