Além de apontar para a informação original fornecida pelos compiladores e de apresentar uma contabilização sumária de todos os corpora em forma de tabela, descreve as várias opções tomadas na codificação dos corpora no ambiente escolhido, o Corpus Workbench do IMS da Universidade de Estugarda (IMS-CWB), cf. o manual disponível na rede. Sem que estas opções sejam explicitadas, não é possível compreender os resultados quantitativos ou comparar com vários trabalhos sobre os mesmos corpora.
Nota: Para cada corpus, além da versão fornecida pelos seus autores, indicamos a versão correspondente à codificação executada por nós no ambiente IMS-CWB, de forma a ser possível comparar dados obtidos em alturas diferentes, através da identificação exacta da versão do corpus utilizada. A numeração das versões é feita independentemente, o que quer dizer que uma mudança no corpus não faz com que a contagem da versão da sua codificação volte a 1.0.
| Corpus | Nº de frases | Nº de parágrafos | Nº de palavras (formas) | Nº de palavras (tipos) | Nº de elementos |
NATURA |
225646 |
79448 |
5730035 |
166816 |
7256679 |
ENPCPUB |
4371 |
1690 |
72244 |
12886 |
89864 |
MINHO |
53062 |
41479 |
1595195 |
67639 |
2083752 |
ECI-EBR |
45539 |
12118 |
654539 |
60193 |
891666 |
ECI-EE |
780 |
340 |
24425 |
4075 |
30157 |
SAOCARLOS |
1964150 |
827363 |
32091996 |
433030 |
41372943 |
FRASESPP |
594 |
594 |
15017 |
5092 |
19340 |
FRASESPB |
651 |
648 |
17736 |
6001 |
22486 |
CETEMPUBLICOPRMI |
39632 |
13469 |
997695 |
68138 |
1198015 |
ANCIB |
37845 |
19098 |
881967 |
62738 |
1208685 |
CLASSLPPE |
74690 |
36236 |
1158765 |
70322 |
1874628 |
DIACLAV |
210366 |
24439 |
5933808 |
119626 |
7404515 |
AVANTE |
204116 |
103966 |
5964533 |
121113 |
7569252 |
AMOSTRA |
4965 |
4904 |
90109 |
17101 |
124836 |
CONE |
38444 |
23208 |
725844 |
41999 |
1072534 |
MUSEUDAPESSOA |
24053 |
15442 |
313927 |
20289 |
455642 |
CONDIV |
150563 |
69192 |
2451046 |
70026 |
3363961 |
CETEMPUBLICO |
7.082.094 |
2.571.735 |
191.687.833 |
999.059 |
229.038.019 |
Tabela actualizada a 27 de Fevereiro de 2006.
A divisão em frases é obtida automaticamente na maior parte dos casos. Elementos classificados como títulos, legendas, etc. não são considerados frases para efeitos desta contagem. Os parágrafos (geralmente curtos) sem pontuação final são marcados como frases, do tipo fragmento.
A maior parte dos corpora requereu tratamento específico e opções dedicadas, que serão mencionadas na descrição de cada caso.
Como opções gerais, temos:
| Corpus NATURA | Número de formas | Número de tipos |
| Unidades | 7256679 | 175015 |
| Total de palavras | 5730035 | 166816 |
| Palavras em minúscula | 4854690 | 89885 |
| Palavras com inicial maiúscula | 676558 | 46334 |
| Palavras todas em maiúsculas | 43878 | 5301 |
| Números | 65491 | 2084 |
| Palavras com números | 5618 | 1445 |
| Palavras mistas | 11871 | 5243 |
| Pontuação | 916389 | 8199 |
Marcadores estruturais: s, p e marca.
Cada obra (extracto) encontrava-se em ficheiro separado, com frases e parágrafos identificados e numerados, e anotada a sua correspondência com o texto original (alinhamento).
| Corpus ENPCPUB | Número de formas | Número de tipos |
| Unidades | 89864 | 12907 |
| Total de palavras | 72244 | 12886 |
| Palavras em minúscula | 57609 | 10245 |
| Palavras com inicial maiúscula | 7040 | 1665 |
| Palavras todas em maiúsculas | 74 | 50 |
| Números | 136 | 78 |
| Palavras com números | 1 | 1 |
| Palavras mistas | 12 | 9 |
| Pontuação | 5476 | 21 |
Utilizámos como marcadores estruturais texto, parte, capitulo, p e s.
A partir da versão 2.0 adicionámos o atributo estrutural variante, que pode ter os valores "bras" ou "lus".
Segundo natura.di.uminho.pt, o corpus original é assim descrito:
Uma série de edições do Diário do Minho. Não aparecem neste corpus os textos de desporto e alguns de publicidade por dificuldades com os formatos. Todos os outros textos aparecem completos. Os artigos aqui apresentados contêm algumas gralhas (correspondem à versão antes da revisão de
provas).
| Corpus MINHO | Número de formas | Número de tipos |
| Unidades | 2083761 | 72021 |
| Total de palavras | 1738475 | 69856 |
| Palavras em minúscula | 1282577 | 38902 |
| Palavras com inicial maiúscula | 248832 | 17375 |
| Palavras todas em maiúsculas | 15088 | 2192 |
| Números | 20397 | 1203 |
| Palavras com números | 2561 | 313 |
| Palavras mistas | 1701 | 633 |
| Pontuação | 120329 | 2165 |
A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé. A partir da versão 3.0, introduzimos a anotação li para assinalar listas.
Marcadores estruturais: p, s, assinatura, legenda, subtitulo, titulo, art, marca e li.
| Corpus ECI-EBR | Número de formas | Número de tipos |
| Unidades | 89166 | 60590 |
| Total de palavras | 654539 | 42140 |
| Palavras em minúscula | 568915 | 42140 |
| Palavras com inicial maiúscula | 73413 | 12220 |
| Palavras todas em maiúsculas | 197 | 50 |
| Números | 1873 | 473 |
| Palavras com números | 44 | 39 |
| Palavras mistas | 856 | 383 |
| Pontuação | 121810 | 397 |
Marcadores estruturais: s, p e marca.
| Corpus ECI-EE | Número de formas | Número de tipos |
| Unidades | 30157 | 4287 |
| Total de palavras | 24425 | 4075 |
| Palavras em minúscula | 21699 | 3326 |
| Palavras com inicial maiúscula | 1526 | 359 |
| Palavras todas em maiúsculas | 435 | 106 |
| Números | 215 | 77 |
| Palavras com números | 2 | 2 |
| Palavras mistas | 28 | 16 |
| Pontuação | 3293 | 212 |
Marcadores estruturais: s, p, titulo, nota, marca.
Alterámos a posição das notas de rodapé, do meio do parágrafo para imediatamente a seguir ao parágrafo onde lhes era feita referência, mas mantivemos a informação dessa mesma posição no atributo marca, com o número igual ao número da nota correspondente.
<marca num=3> <nota num=3>
| Corpus SAOCARLOS | Número de formas | Número de tipos |
| Unidades | 41372943 | 457556 |
| Total de palavras | 32091996 | 433030 |
| Palavras em minúscula | 23217976 | 158261 |
| Palavras com inicial maiúscula | 4595495 | 127721 |
| Palavras todas em maiúsculas | 464974 | 22996 |
| Números | 427186 | 2978 |
| Palavras com números | 38568 | 4379 |
| Palavras mistas | 98344 | 9267 |
| Pontuação | 2415505 | 24522 |
Marcadores estruturais: s, p, texto, t (anteriormente à versão 4.0, estava marcado como titulo), subtitulo, assinatura, e para os textos da folha de São Paulo, a partir da versão 4.0, a (autor), artigo, caixa, situacao, li (elemento de lista).
As primeiras linhas de cada ficheiro foram classificadas como títulos. Como subtítulos foram identificadas linhas sem pontuação final todas em maiúsculas. No caso das cartas comerciais, também a assinatura da carta foi marcada separadamente.
Cada texto tem como identificação o nome do ficheiro de que provém, o que dá alguma indicação sobre o tipo de texto. Prevê-se para breve uma reorganização desses identificadores segundo os novos critérios em desenvolvimento pelos compiladores do corpus.
A nova versão foi criada após a detecção de alguns textos repetidos. Possíveis alterações em relação ao conteúdo dos textos que constituem o corpus são previsíveis.
O atributo classe, correspondendo ao tipo de texto, foi adicionado na versão 3.0. A sua distribuição, correspondendo à versão 7.1, é a seguinte:
| Tipo | Descrição | Tamanho |
| DI | texto didáctico | 423.893 |
| ENC | enciclopédia | 283.838 |
| ENS | ensaio | 2.177.193 |
| EP | texto epistolar | 3.338 |
| JO.* | jornalístico | 29.462.874 |
| JOCF | jornalístico só CETENFolha | 29.462.874 |
| JO | jornalístico sem CETENFolha | 29.462.874 |
| LE | texto legal | 1.083.200 |
| LI | literário | 919.628 |
| RE | revista | 153.454 |
O tamanho, na tabela anterior, é medido pelo número de unidades do corpus com a classificação indicada.
A partir da versão 5.0, a parte do Folha de São Paulo (correspondente ao CETENFolha, de texto de 1994, e a algumas edições de 1996) está dividida em extractos identificados pela secção, semestre, número de extracto, e número de parágrafo no CETENFolha, por exemplo: Cotidiano-94a-61755-2 .
A partir da versão 7.1, é possível seleccionar apenas o CETENFolha, no corpus SAOCARLOS, usando para isso a restrição [classe="JOCF"]. Dois exemplos (usando a restrição de forma diferente):
| Corpus FRASESPP | Número de formas | Número de tipos |
| Unidades | 19340 | 5157 |
| Total de palavras | 15017 | 5092 |
| Palavras em minúscula | 13497 | 4236 |
| Palavras com inicial maiúscula | 1087 | 568 |
| Palavras todas em maiúsculas | 9 | 6 |
| Números | 100 | 52 |
| Palavras com números | 2 | 2 |
| Palavras mistas | 2 | 28 |
| Pontuação | 1947 | 65 |
Marcadores estruturais: s, p.
Os valores da anotação encontram-se no atributo pos.
| Corpus FRASESPB | Número de formas | Número de tipos |
| Unidades | 22486 | 6024 |
| Total de palavras | 16416 | 6001 |
| Palavras em minúscula | 16416 | 5264 |
| Palavras com inicial maiúscula | 1052 | 525 |
| Palavras todas em maiúsculas | 15 | 15 |
| Números | 49 | 37 |
| Palavras com números | ||
| Palavras mistas | 23 | 18 |
| Pontuação | 2152 | 23 |
Marcadores estruturais: s, p.
O primeiro milhão de palavras (aproximadamente) que o constitui foi objecto de uma revisão aturada de forma a servir de matéria base para um "treebank" do português, a Floresta Sintáctica, seguindo outros critérios de definição de frase <s> e incluindo o marcador <sic> nos casos não julgados de interesse para esse efeito. Informação sobre os novos critérios de separação de frases, sobre a introdução da marca <sic> e sobre o processo de revisão encontram-se respectivamente em Afonso et al. (2001a); Afonso et al. (2001b) e Santos (2001).
| Corpus CETEMPUBLICOPRMI | Número de formas | Número de tipos |
| Unidades | 1198015 | 68784 |
| Total de palavras | 997695 | 68138 |
| Palavras em minúscula | 757013 | 37765 |
| Palavras com inicial maiúscula | 122771 | 19250 |
| Palavras todas em maiúsculas | 7422 | 1539 |
| Números | 8655 | 777 |
| Palavras com números | 1146 | 522 |
| Palavras mistas | 1452 | 960 |
| Pontuação | 68106 | 637 |
| Corpus ANCIB | Número de formas | Número de tipos |
| Unidades | 1.208.685 | 69.639 |
| Total de palavras | 881.967 | 62.738 |
| Palavras em minúscula | 647.635 | 30.484 |
| Palavras com inicial maiúscula | 158.083 | 17.401 |
| Palavras todas em maiúsculas | 33.273 | 6.207 |
| Números | 15.013 | 1.104 |
| Palavras com números | 1.657 | 546 |
| Palavras mistas | 5.081 | 1.987 |
| Pontuação | 150.214 | 6.896 |
Embora tenham sido excluídas as mensagens totalmente (ou quase) noutros idiomas, foram mantidas mensagens parcialmente noutras línguas, pelo que o corpus contém uma quantidade reduzida de texto em inglês e castelhano. Note-se que, devido ao afinamento da detecção de língua, algumas mensagens contidas nas versões anteriores foram removidas.
Foram removidas, na medida do possível, as assinaturas automáticas das mensagens, um processo que foi sendo igualmente melhorado ao longo das diversas versões do corpus.
Foram transformados alguns caracteres ['A==>À, e'==>é, etc].
O corpus está dividido em mensagens separadas, marcadas pelo atributo mens, com informação da data <mens dt=...> . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem para a lista). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].
A partir da versão 1.3, o corpus tem o atributo cita que indica referência a uma mensagem anterior, citada no corpo da mensagem e indicada pelo sinal ">" no início de linha.
| Corpus CLASSLPPE | Número de formas | Número de tipos |
| Unidades | 1872091 | 70495 |
| Total de palavras | 1187422 | 70362 |
| Palavras em minúscula | 996294 | 47849 |
| Palavras com inicial maiúscula | 129406 | 9829 |
| Palavras todas em maiúsculas | 2848 | 487 |
| Números | 285 | 116 |
| Palavras com números | 3 | 3 |
| Palavras mistas | 733 | 460 |
| Pontuação | 220665 | 132 |
Alguns dos ficheiros de texto utilizados como base para este corpus foram manipulados manualmente para inserir determinados marcadores. No entanto, na grande maioria dos casos, os marcadores foram inseridos automaticamente.
Utilizámos como marcadores estruturais para todas as obras obra (que contém o código interno da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, data (a data da obra, quando assinalada no texto), nota, titulo, marca e u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra).
As obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].
As obras de poesia têm os seguintes marcadores estruturais adicionais: dedicatoria, poema, div [parte de um poema, assinalada graficamente por números romanos], e [estrofe] e v [verso].
As obras de teatro têm os seguintes marcadores estruturais adicionais: fala, personagem e indic (indicação de cena); além disso, as obras de Gil Vicente utilizam o marcador v [verso], enquanto as restantes utilizam o marcador s [frase].
Os códigos de obras usados neste corpus (os valores referem-se ao número de tokens na versão 1.7), correspondendo ao atributo posicional obra, são os seguintes:
| AA | Auto da Alma | 4,099 |
| ABI | Auto da Barca do Inferno | 5,767 |
| AI | Auto da Índia | 3,243 |
| AP | Amor de Perdição | 57,600 |
| Bobo | O Bobo | 62,452 |
| CI | O Cárcere e interrogatório | 510 |
| Cam | Camões | 28,564 |
| EP | Eurico o Presbítero | 66,558 |
| FC1 | Folhas Caídas I | 5,932 |
| FC2 | Folhas Caídas II | 3,714 |
| FCM | Os Fidalgos da Casa Mourisca | 168,021 |
| FIP | Farsa de Inês Pereira | 6,987 |
| FLS | Frei Luís de Sousa | 22,593 |
| GAM | Guerras do Alecrim e Manjerona | 27,865 |
| HC | A Harpa do Crente | 19,222 |
| MC | A Morgadinha dos Canaviais | 177,409 |
| MM | Maria Moisés | 24,348 |
| Maias | Os Maias | 263,614 |
| OM | Odes Modernas | 21,214 |
| PR | Primaveras Românticas | 15,568 |
| PSR | As Pupilas do Senhor Reitor | 114,884 |
| Poe | Poesias | 6,652 |
| QA | A Queda de um Anjo | 58,462 |
| SSAP | Sermão de Santo António aos Peixes | 14,048 |
| UFI | Uma Família Inglesa | 146,642 |
| VMT | Viagens na minha terra | 81,794 |
Os códigos de autores, correspondendo ao atributo posicional autor, são os seguintes:
| AFC | António Feliciano de Castilho | 6,652 |
| AG | Almeida Garrett | 142,597 |
| AH | Alexandre Herculano | 148,232 |
| AJS | António José da Silva | 27,895 |
| AQ | Antero de Quental | 36,782 |
| CCB | Camilo Castelo Branco | 140486 |
| EQ | Eça de Queirós | 263,614 |
| GV | Gil Vicente | 20,096 |
| JD | Júlio Dinis | 606,946 |
| PAV | Pe. António Vieira | 14,558 |
Finalmente, o atributo classe pode tomar um dos três valores
| classe | tamanho |
| poesia | 100,866 |
| prosa | 1236,332 |
| teatro | 70,554 |
| Corpus CETEMPUBLICO | Número de formas | Número de tipos |
| Unidades | 229038019 | 1033041 |
| Total de palavras | 191687833 | 999059 |
| Palavras em minúscula | 143870805 | 270068 |
| Palavras com inicial maiúscula | 23625899 | 308193 |
| Palavras todas em maiúsculas | 1416805 | 30776 |
| Números | 1708835 | 10099 |
| Palavras com números | 214057 | 16687 |
| Palavras mistas | 178525 | 58418 |
| Pontuação | 13065151 | 33982 |
Além da palavra, o corpus tem mais dois atributos posicionais, sem [semestre em que o texto foi escrito ou enviado para o jornal]:
| semestre | tamanho |
| 91a | 7450010 |
| 91b | 14314547 |
| 92a | 15398940 |
| 92b | 11570880 |
| 93a | 15316597 |
| 93b | 12217030 |
| 94a | 15448795 |
| 94b | 14936750 |
| 95a | 16719480 |
| 95b | 15755620 |
| 96a | 12001909 |
| 96b | 11691067 |
| 97a | 9956177 |
| 97b | 9995637 |
| 98a | 12974842 |
| 98b | 9004702 |
e sec [classificação da secção a que o texto pertencia]. Veja-se a discussão em Rocha & Santos (2000) sobre a forma da sua atribuição.
| secção | tamanho |
| clt | 31425669 |
| clt-soc | 6661193 |
| com | 942713 |
| des | 22620366 |
| eco | 18047330 |
| nd | 27194578 |
| opi | 3529008 |
| pol | 39716815 |
| soc | 54615311 |
Os jornais em questão pertencem ao mesmo grupo editorial, o Grupo Editorial Adriano Lucas, pelo que alguns artigos neste corpus contem textos semelhantes, embora não haja casos de artigos exactamente iguais. Os artigos em questão, que correspondem ao período de 13 de Junho de 1999 a 18 de Setembro de 2000, não representam a totalidade do texto dos jornais nesse período, mas apenas o texto disponibilizado na edição on-line.
Agradecemos à direcção do Grupo Editorial Adriano Lucas a autorização gentilmente concedida para a criação deste corpus.
| Corpus DIACLAV | Número de formas | Número de tipos |
| Unidades | 7404515 | 125353 |
| Total de palavras | 5933808 | 119626 |
| Palavras em minúscula | 4887371 | 57893 |
| Palavras com inicial maiúscula | 826328 | 27765 |
| Palavras todas em maiúsculas | 46105 | 3459 |
| Números | 55777 | 1378 |
| Palavras com números | 5248 | 993 |
| Palavras mistas | 41805 | 16349 |
| Pontuação | 938425 | 5727 |
Estamos gratos à direcção do «Avante!», em especial ao seu director José Casanova, pela autorização gentilmente cedida para a elaboração deste corpus.
| Corpus AVANTE | Número de formas | Número de tipos |
| Unidades | 7569252 | 127086 |
| Total de palavras | 5964533 | 121113 |
| Palavras em minúscula | 5067352 | 68532 |
| Palavras com inicial maiúscula | 658882 | 29435 |
| Palavras todas em maiúsculas | 78721 | 3149 |
| Números | 54405 | 1678 |
| Palavras com números | 738 | 304 |
| Palavras mistas | 8997 | 3347 |
| Pontuação | 829353 | 5973 |
Citando (secção 4.1.1)
" Para compor nosso corpus de treinamento e teste selecionamos textos do corpora do Nilc pertencentes a três gêneros: didático, jornalístico e literário. Um dos objetivos deste trabalho é avaliar os etiquetadores por gêneros. A escolha destes três gêneros foi feita para se abranger em particular:
1. textos simples, isto é, aqueles que seguem uma estrutura formal fixa, por exemplo a escrita técnica (didáticos);
2. textos mais próximos da linguagem viva (jornalístico);
3. textos com estrutura livre, isto é, com formas menos comuns como ordem inversa por exemplo, (literários).
(...) Além dos gêneros de texto que farão parte do corpus, temos também que decidir se serão ou não mantidos títulos, frases entre parênteses e resumos nos textos. No nosso caso não mantivemos os títulos, mas mantivemos os textos entre parênteses e não precisamos nos preocupar com resumos, que não apareciam nos textos escolhidos.
(...) em 20 de julho de 2000, obtivemos a última versão do nosso corpus de treinamento e teste contendo 104.962 palavras, que foi utilizada em todos os experimentos descritos neste trabalho. (...)
Tabela 1 - Corpus de treinamento e teste
Tipo de Corpus Tamanho do corpus
D – Didático 16.255 palavras
J – Jornalístico 56.653 palavras
L – Literário 32.054 palavras
(fim de citação)
| Corpus AmostRA-NILC | Número de formas | Número de tipos |
| Unidades | 124655 | 17183 |
| Total de palavras | 98444 | 17152 |
| Palavras em minúscula | 78319 | 13524 |
| Palavras com inicial maiúscula | 8708 | 2406 |
| Palavras todas em maiúsculas | 23 | 12 |
| Números | 913 | 191 |
| Palavras com números | 69 | 43 |
| Palavras mistas | 45 | 30 |
| Pontuação | 6553 | 31 |
| Corpus CoNE | Número de formas | Número de tipos |
| Unidades | 1072534 | 48000 |
| Total de palavras | 725844 | 41999 |
| Palavras em minúscula | 471026 | 18433 |
| Palavras com inicial maiúscula | 155749 | 12065 |
| Palavras todas em maiúsculas | 46882 | 5690 |
| Números | 15701 | 797 |
| Palavras com números | 3550 | 623 |
| Palavras mistas | 7993 | 1611 |
| Pontuação | 142532 | 5998 |
| Corpus Museu da Pessoa | Número de formas | Número de tipos |
| Unidades | 455.644 | 20.517 |
| Total de palavras | 313.929 | 20.291 |
| Palavras em minúscula | 271.034 | 14.423 |
| Palavras com inicial maiúscula | 34.795 | 3.144 |
| Palavras todas em maiúsculas | 96 | 52 |
| Números | 1.973 | 227 |
| Palavras com números | 91 | 59 |
| Palavras mistas | 360 | 165 |
| Pontuação | 52.735 | 226 |
Estamos gratos à equipa do projecto de investigação Convergência e Divergência no Léxico do Português, em especial ao investigador responsável Augusto Soares da Silva, pela autorização gentilmente cedida para a disponibilização deste corpus.
| Corpus CONDIVport | Número de formas | Número de tipos |
| Unidades | 3363961 | 77706 |
| Total de palavras | 2451046 | 76151 |
| Palavras em minúscula | 2022410 | 42671 |
| Palavras com inicial maiúscula | 348906 | 16999 |
| Palavras todas em maiúsculas | 13731 | 5819 |
| Números | 20562 | 395 |
| Palavras com números | 1291 | 281 |
| Palavras mistas | 3760 | 1848 |
| Pontuação | 465444 | 1555 |
Afonso, Susana, Eckhard Bick e Ana Raquel Marchi (2001a). Critérios de separação de sentenças/frases. http://acdc.linguateca.pt/treebank/CriteriosSeparacao.htm
Afonso, Susana, Eckhard Bick e Ana Raquel Marchi (2001b). A etiqueta <sic> </sic>. http://acdc.linguateca.pt/treebank/CriteriosSic.html
Aires, Rachel Virgínia Xavier. 2000. Implementação, adaptação, combinação e avaliação de etiquetadores para o português do Brasil. Tese de Mestrado. Instituto de Ciências Matemáticas de São Carlos. Universidade de São Paulo. http://www.linguateca.pt/Repositorio/Aires2000.ps
Bick, Eckhard (1996). Automatic parsing of Portuguese. In Sánchez García, Laura (ed.), Proceedings of the Second Workshop on Computational Processing of Written Portuguese (Curitiba, 23-25 October 1996), pp. 91-100, http://www.linguateca.pt/Repositorio/Bick96.doc.
Bick, Eckhard (1997). Internet Based Grammar Teaching. In Ellen Christoffersen & Bradley Music (eds.), Datalingvistisk Forenings årsmøde 1997 (DALF '97) (Kolding, 1997), pp. 86-106, http://www.linguateca.pt/Repositorio/Bick97c.doc.
Bick, Eckhard (1998). Structural Lexical Heuristics in the Automatic Analysis of Portuguese. In Maegaard, Bente (ed.), Proceedings of the 11th Nordic Conference on Computational Linguistics (Nodalida '98) (Copenhaguen, 1998), pp. 44-56, http://www.linguateca.pt/Repositorio/Bick98a.doc.
Christ, Oliver, Schulze, Bruno M., Hofmann, Anja, & Koenig, Esther (1999). The IMS Corpus Workbench: Corpus Query Processor (CQP): User's manual. Institute for Natural Language Processing, University of Stuttgart, March 8, 1999 (CQP V2.2). Disponível na Internet no endereço http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/CQPUserManual/HTML/.
Johansson, Stig, Ebeling, Jarle, & Hofland, Knut. (1996). Coding and aligning the English-Norwegian Parallel Corpus. In Aijmer, K., Altenberg , B., & Johansson, M. (Orgs.), Languages in Contrast (pp. 87-112). Lund: Lund University Press.
Johansson, Stig, Ebeling, Jarle & Oksefjell, Signe (1999). English-Norwegian Parallel Corpus: Manual. Oslo: Department of British and American Studies, University of Oslo. Disponível na Internet no endereço http://www.hf.uio.no/iba/prosjekt/ENPCmanual.html.
McKelvie, D. & Thompson, H. S. (1994). TEI-Conformant structural markup of a trilingual parallel corpus in the ECI Multilingual Corpus 1. In Proceedings of the 2nd Annual Workshop on Very Large Corpora - WVLC2 (Kyoto, 4 August 1994) (pp. 7-18).
Medeiros, José Carlos, Marques, Rui, & Santos, Diana (1993). Português Quantitativo. In Actas do 1.o Encontro de Processamento de Língua Portuguesa (Escrita e Falada) - EPLP'93. Lisboa, 25-26 de Fevereiro de 1993 (pp.33-38).
Nunes, M.G.V., Vieira, F.M.C., Zavaglia, C., Sossolote, C.R.C., & Hernandez, J. (1996a.) A construção de um léxico para o português do Brasil: lições aprendidas e perspectivas. In Proceedings of the II Workshop on Computational Processing of Written and Spoken Portuguese (Curitiba, 23 a 25/10/96) (pp. 61-70). Disponível na Internet no endereço http://www.icmc.sc.usp.br/~gracan/download/curitilex.ps.gz
Nunes, M.G.V., Turine, M.A.S., Martins, R.T., Ghiraldelo, C.M., Oliveira, M.C.F., Montilha, G., Hasegawa, R., & Oliveira Jr., O.N. (1996b). Desenvolvimento de um sistema de revisão gramatical automática para o português do Brasil. In Proceedings of the II Workshop on Computational Processing of Written and Spoken Portuguese (Curitiba, 21 a 22/10/96) (pp. 71-80). Disponível na Internet no endereço http://www.icmc.sc.usp.br/~gracan/download/curitiregra.ps.gz
Oksefjell, Signe (1999). ENPC: Um corpus paralelo que inclui o português. In Marrafa, Palmira, & Mota, Maria Antónia (Orgs.), Actas do I Workshop sobre Linguística Computacional da Associação Portuguesa de Linguística (Lisboa, 25-27 de Maio de 1998). Lisboa: APL.
Oksefjell, Signe (1999). A Description of the English-Norwegian Parallel Corpus: Compilation and Further Developments. International Journal of Corpus Linguistics 4.2, pp.197-216.
Rocha, Paulo & Diana Santos (2000). CETEMPúblico: Um corpus de grandes dimensões de linguagem jornalística portuguesa. In Maria das Graças Volpe Nunes (ed.), Actas do V Encontro para o processamento computacional da língua portuguesa escrita e falada (PROPOR'2000) (Atibaia, São Paulo, Brasil, 19 a 22 de Novembro de 2000), pp. 131-140, RTF, PostScript.
Santos, Diana (ed.) (1992) Processamento de corpora no INESC, INESC Report RT-65/92, 1992. ps files: Introdução, Índice, Breve descrição do corpus
Santos, Diana (2001). Resultado da revisão da separação em frases do primeiro milhão de palavras do CETEMPúblico. http://acdc.linguateca.pt/treebank/RevisaoMilhao.html.
Santos, Diana & Ranchhod, Elisabete (1999). Ambientes de processamento de corpora em português: Comparação entre dois sistemas. In Actas do IV Encontro sobre o Processamento Computacional da Língua Portuguesa (Escrita e Falada) (Évora, 20-21 de Setembro 1999) (pp. 257-268). Disponível na Internet nos endereços http://www.linguateca.pt/Diana/download/propor99.ps e http://label2.ist.utl.pt/LabEL/proporIV.ps.
Santos, Diana & Paulo Rocha (2001). Evaluating CETEMPúblico, a free resource for Portuguese. Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (Toulouse, 9-11 July 2001), pp.442-449, RTF, PostScript, PDF.
Silva, Augusto Soares da Silva (2004). Léxico e variação Portugal/Brasil: Para uma sociolexicologia cognitiva do Português. Revista Portuguesa de Humanidades 8, Faculdade de Filosofia da Universidade Católica Portuguesa, pp.99-117.
Thompson, H., Armstrong-Warwick, S., McKelvie, D., et al. (1994). Data in your language: The ECI Multilingual Corpus 1. In Proceedings of the International Workshop on Shareable Natural Language Resources. Nara.
[ Acesso aos corpora | Exemplos | Atomização | Anotação | Corpora anotados | Agradecimentos ]