Anotação dos corpora
Projecto AC/DC, Linguateca
Esta página pretende documentar cabalmente a informação adicionada a todos os corpora, explicando as opções tomadas na sua codificação.
Para a utilização do sistema de processamento de corpora subjacente, o IMS-CWB, com exemplos pormenorizados de como os corpora anotados podem ser inquiridos e algumas procuras pertinentes, consulte-se a página de Exemplos.
A anotação dos corpora é feita automaticamente pelo PALAVRAS, um analisador sintáctico automático para o português desenvolvido
por Eckhard Bick. Para a compreensão dos fundamentos linguísticos deste sistema, a referência fundamental é Bick 2000. Veja-se também
Sobre o processo de anotação que resulta no formato usado no AC/DC, consultar a descrição do processo de anotação abaixo.
Muito resumidamente, o PALAVRAS, o analisador sintáctico automático utilizado no projecto AC/DC, atribui, a cada unidade do corpus, o seu lema ("base form"), a sua categoria gramatical, características morfológicas (associadas à palavra no dicionário), e a sua função sintáctica, que codificámos, respectivamente, nos atributos lema, pos, temcagr, pessnum e gen e func. Além disso, o analisador tenta identificar, através de heurísticas morfológicas, palavras não constantes do dicionário, e que codificamos através do atributo deriv. Alguns exemplos simples do uso destes atributos podem ser vistos aqui.
De uma forma mais completa, documentamos em seguida a procura de informação morfossintáctica constante dos atributos pos, temcagr, pessnum, gen e func, assim como o conteúdo dos atributos lema e deriv.
O atributo pos (do inglês "part of speech") contém a classe gramatical produzida pelo analisador sintáctico PALAVRAS de Eckhard Bick (Word class tags, http://visl.sdu.dk/visl/pt/portsymbol.html#morftags), além de um conjunto de outras especificações que poderíamos chamar indicações de subclasse, que podem ser consultadas em http://visl.sdu.dk/visl/pt/portsymbol.html#sectags.
A classe gramatical e as indicações de subclasse podem ter os seguintes valores (todos atribuídos pelo PALAVRAS):
| Nome | Classe gramatical | Indicações de subclasse |
| N | Substantivo | prop, (lat, eng) |
| PROP | Nome próprio | kc (nomes próprios que incluem o caracter &) |
| SPEC | Especificador (pronome ou adjectivo) | rel, interr, dem, quant, diff |
| DET | Determinante (artigo, pronome ou adjectivo) | artd, arti, quant, dem, poss, diff, rel, ident, interr, (lat) |
| PERS | Pronome pessoal | refl, obj, coll, reci, (fra) |
| ADJ | adjectivo | NUMord, prop, KOMP, n, mente, (lat, eng) |
| ADV | advérbio | rel, quant, kc, ks, prp, interr, co-vfin, prop, dem, co-fmc, parkc-2*, (lat) |
| V | verbo | n, prop, fmc, quant, (lat, eng) |
| NUM | numeral | card, prop |
| KS | conjunção subordinativa | |
| KC | conjunção coordenativa | co-fmc, co-vfin, co-inf, co-pcv, co-prparg, co-ger, co-advl, co-acc, co-sc, co-pred, co-app, co-subj, co-postnom, parkc-1*, parkc-2* |
| IN | interjeição | |
| EC | prefixo |
* parkc corresponde a pares de conjunções (tais como ou... ou, ou nem... nem) em que a primeira é marcada 1 e a segunda 2, ou a pares de advérbios (tanto ... como, tal qual como, ) em que apenas o segundo é marcado parkc-2.
As palavras que vêm do ou são em francês estão marcadas como fra, do inglês como eng e do latim como lat. Esta informação irá em breve para o atributo DERIV.
O projecto AC/DC junta a informação primária e a secundária (por esta ordem) por meio de um caracter de sublinhado (ou mais do que um, se tal for o caso).
Exemplos:
- DET_arti determinante que é artigo indefinido
- SPEC_rel especificador relativo
- ADJ_n_NUMord numeral ordinal que pode ser usando como substantivo (n)
- ADV_rel advérbio relativo
- ADJ_prop_KOMP adjectivo comparativo em nome próprio (por exemplo em Superior)
A informação morfológica produzida pelo analisador sintáctico PALAVRAS está
descrita no seguinte URL:
http://visl.sdu.dk/visl/pt/portsymbol.html#morftags (sob a rubrica "inflection tags").
Na versão que utilizamos para o projecto AC/DC, o analisador tenta propagar essa informação a cada terminal, donde, por exemplo, se a expressão os turistas foi reconhecida como sintagma nominal, "turistas" será classificado como M e não M/F como vem do léxico.
As classes sem flexão têm 0 (zero) como valor dos atributos morfológicos.
O atributo temcagr: tempo verbal e/ou caso pronominal
Este atributo contém o tempo e modo para verbos e o caso para pronomes.
Quando indica os tempos, tem como possíveis valores
| PR_IND | presente do indicativo |
| INF | infinitivo |
| GER | gerúndio |
| IMPF_IND | imperfeito do indicativo |
| PCP | particípio passado |
| IMPF_SUBJ | imperfeito do conjuntivo |
| FUT_IND | futuro do indicativo |
| PR_SUBJ | presente do conjuntivo |
| FUT_SUBJ | futuro do conjuntivo |
| FUT_IND | futuro do indicativo |
| COND | condicional |
| MQP_IND | mais que perfeito simples |
| PS_IND | perfeito do indicativo |
| PS/MQP_IND | perfeito ou mais que perfeito |
Quando indica os casos, tem os possíveis valores: NOM, ACC, DAT, PIV, ACC/DAT, NOM/PIV.
O atributo pessnum: pessoa e/ou número
Este atributo indica o número: S, P ou S/P para todas as categorias gramaticais com essa informação, excepto para verbos e pronomes pessoais, para os quais indica a pessoa: 1S, 1P, 2S, 2P, 3S, 3P, 1/3S, 0/1/3S.
O atributo gen: género
Este atributo apenas pode ter os valores M, F ou M/F (indeterminado).
Exemplos de codificação de atributos morfológicos
Teremos, pois, classificações como
| forma | temcagr | pessnum | gen | comentário |
| classes | 0 | P | F | feminino plural |
| atraído | PCP | S | M | particípio passado masculino singular |
| fazem | PR_IND | 3P | 0 | presente do indicativo, terceira pessoa do plural |
| sê | IMP | 2S | 0 | imperativo, segunda pessoa do singular |
| reagirias | COND | 2S | 0 | condicional, segunda pessoa do singular |
| as | ACC | 3P | F | feminino, terceira pessoa do plural, acusativo |
| fazeres | INF | 2S | 0 | infinitivo pessoal, segunda pessoa do singular |
| sonhando | GER | 3 | 0 | gerúndio |
| atrapalhar | INF | 3 | 0 | infinitivo |
Por uma opção condicionada por questões técnicas, e como já referido acima, temos como unidade o verbo seguido de clíticos, cujos valores são concatenados depois do sinal "+".
Alguns exemplos do valor dos vários atributos morfológicos nesses casos encontram-se em Tratamento de contracções e de verbos com clíticos, abaixo.
Para exemplos de procuras especializadas sobre morfologia, consulte-se mais uma vez a página dos exemplos.
A informação sintáctica produzida pelo analisador PALAVRAS de Eckhard Bick encontra-se descrita em http://visl.sdu.dk/visl/pt/portsymbol.html#syntags. (Note-se que o caracter @, indicando que a informação é de carácter sintáctico, foi consistentemente retirado do valor do atributo func.)
A informação produzida pelo PALAVRAS e retida no AC/DC pode ser dividida em vários categorias:
- classificação de função sintáctica duma palavra ou sintagma em relação ao constituinte a que pertence
- argumento de uma oração: sujeito (SUBJ), objecto directo (ACC), objecto indirecto (DAT), objecto preposicional (PIV), predicativo do sujeito (SC), predicativo do objecto (OC), agente da passiva (PASS), complemento circunstancial (ADVL, ADVS), aposto (APP) ou PRED, e outras categorias que não são necessariamente consensualmente sintácticas, tais como foco (FOC), ou tópico (TOP)
- dependente de outras categorias não verbais, sem que existam designações vulgarizadas para estes conceitos (>N, >A, N<, A<, P<, S<, KOMP< ...)
- função sintáctica de elementos verbais: verbo principal, finito ou não finito (FMV,IMV), verbo auxiliar, finito ou infinito (FAUX, IAUX), preposições que fazem parte da expressão verbal (PRT-AUX)
- função sintáctica de conectores entre orações ou sintagmas: subordinação (SUB), coordenação (CO), orações relativas finitas, infinitivas ou sem verbo (#FS, #ICL, #AS)
- classificação de uma dada palavra ou expressão (PRD)
- função sintáctica de topo: oração declarativa, imperativa ou interrogativa (DECL, COM, QUES), ou sintagma nominal (NPHR)
- indicação de dependência (através de < ou >, que indicam se a função liga à direita ou à esquerda)
Para exemplos de procuras especializadas sobre a função sintáctica, consulte-se mais uma vez a página dos exemplos.
Este atributo corresponde ao que Eckhard Bick chama a forma base, e contém:
- para palavras invariáveis, nas quais incluímos os advérbios, o mesmo valor que o atributo word (excepto em casos de contracções ou de locuções)
- para verbos, o infinitivo impessoal
- para substantivos, a forma singular (assim o lema de directores é director, e de directora directora)
- para adjectivos, a forma masculina singular
- para pronomes pessoais, o analisador usa a forma do nominativo (masculino), eu é lema de me, nós lema de nos, eles lema de lhes...
- para pronomes possessivos (meu, teu, seu, etc.), o lema é o masculino singular na pessoa correspondente. Dele, dela, etc. são considerados contracções da preposição de com pronomes pessoais, não pronomes possessivos.
- para pronomes relativos (cujo, cuja, etc.), demonstrativos (este, esta, etc.) e interrogativos (quanto, quanta, etc.) o lema é o masculino singular.
É possível ter uma desambiguação incompleta, ou seja, a uma palavra podem estar atribuídas várias funções sintácticas, ou várias características morfológicas entre as quais o analisador não conseguiu escolher.
Essas características foram metacodificadas de forma diferente, conforme o nível a que se referem:
- Em relação aos atributos morfológicos, através do caracter barra. Alguns exemplos:
- Palavras que podem estar no singular ou no plural (S/P)
[pessnum="S/P"]
ou cujo género não foi determinado
[gen="M/F"]
- Formas da terceira ou primeira pessoa (1/3) do singular
[pessnum="1/3S"]
- Palavras que podem ser objecto directo ou indirecto da oração a que pertencem
[temcagr="ACC/DAT"]
- Infinitivo pessoal ou impessoal
[pessnum="0/1/3S"]
- Em relação aos atributos sintácticos, o analisador tenta produzir apenas uma análise (que pode, portanto, estar incorrecta). No entanto, há casos de várias alternativas, também codificadas por sublinhado entre elas, que correspondem a casos entre os quais o analisador não escolheu, tais como <SC_P<, SUBJ>_<ACC, <SUBJ_<ACC_P<_APP, etc.
- Finalmente, no caso de lemas alternativos, o PALAVRAS usa o caracter &, por exemplo em lhe&lhes como possível base/lema de lhos.
Existem contudo alguns casos de diferentes funções sintácticas ligadas por sublinhado, que se referem à função sintáctica do constituinte como um todo (função externa), e função sintáctica da palavra (núcleo do constituinte) dentro do constituinte que lidera (função interna). Nesses casos, a segunda função é sempre precedida do caracter #. Note-se, a propósito, que aqui não estamos em presença de funções alternativas, mas concomitantes. O sublinhado antes de # não indica, portanto, neste caso, ambiguidade. Alguns exemplos:
- Entidade que representa o objecto da frase, objecto esse em forma de oração, cujo objecto é o próprio pronome relativo (por exemplo que em faz o que pode)
ACC>_#FS-<ACC.
- Advérbio de lugar (dentro da oração), oração subordinada finita associado a um nome à esquerda (p. ex. onde em na minha região, onde se opera ...)
ADVL>_#FS-N<
É preciso também notar as seguintes características do ACDC que, embora também pareçam descritíveis como "mais do que uma análise", correspondem sim a "várias análises amalgamadas" (e serão descritas em mais pormenor abaixo):
- o tratamento das contracções e dos verbos com clíticos: os seus atributos foram codificados unindo-os com o sinal "+"
- e o tratamento das palavras compostas ("multiword expressions" e "polylexicals"): os seus lemas encontram-se juntos pelo sinal "=" no caso de serem nomes próprios ou pertencentes a classes de palavras fechadas.
Para lidar com esta forma de codificar, é preciso que o utilizador esteja consciente destas opções.
Por razões explicadas em Santos e Bick (2000), nomeadamente a necessidade de ter um separador de palavras o mais simples possível (e não dependente de uma análise sintáctica), a separação em unidades básicas -- e de forma a manter uma fidelidade absoluta ao corpus -- é feita simplesmente com base em espaços, sinais de pontuação, e uma lista de abreviaturas em português (e algumas em francês e inglês). (Ver a página de Atomização.)
Isso implica que, embora o analisador sintáctico considere como duas ou mais unidades as contracções e os verbos com enclíticos, o processo de criar os corpora do projecto AC/DC repõe a forma original considerando-os apenas como uma unidade. Os valores das diversas partes são contudo mantidos de forma a não se perder a informação devida à análise.
Alguns exemplos:
| word | lema | pos | temcagr | pessnum | gen | func |
| nestas | em+este | PRP+DET_dem | 0 | P | F | A<ADVS+>N |
| pela | por+a | PRP+DET_artd | 0 | S | F | A<PASS+>N |
| àquela | a+aquele | PRP+DET_dem | 0 | S | F | <ADVL+>N |
| connosco | com+nós | PRP+PERS | PIV | 1P | M/F | <SC_<ADVL+P< |
| fá-lo-iam | fazer+lo | V_fmc+PERS | COND+ACC | 3P+3S | 0+M | FMV+<ACC |
| retirar-lhos | retirar+lhe&lhes+eles | V+PERS+PERS | INF+DAT+ACC | 3+3S/P+3P | 0+M/F+M | IMV+<DAT+ACC> |
| transmite-as | transmitir+elas | V_fmc+PERS | PR_IND+ACC | 3S+3P | F |
| estragá-lo | estragar+ele | V+PERS | FUT_IND+ACC | 3S+3S | M |
| juntar-se-iam | juntar+se | V_fmc+PERS_refl_coll* | COND+ACC | 3P+3P | M/F |
| lhas | lhe&lhes+elas | PERS+PERS | DAT+ACC | 3S/P+3P | M/F+F |
* Nota: fmc (verbo da oração principal) e refl_coll (pronome reflexo com interpretação colectiva) são indicações que podem estar associadas (ou não) à ocorrência de (no caso presente) juntar-se-iam
Para exemplos de procuras envolvendo clíticos, veja a página de Exemplos.
O analisador PALAVRAS é muito liberal na forma como junta conjuntos de palavras que para ele são uma única unidade.
O projecto AC/DC, pelo contrário, pretende fazer uso de uma separação tão simples e indiscutível quanto possível, para maximizar a utilidade do sistema pressupondo o mínimo de concordância com as opções linguísticas professadas pelo autor do PALAVRAS.
Podemos considerar três casos distintos de expressões com várias palavras:
- nomes próprios
- locuções gramaticais
- expressões mais ou menos fixas pertencendo a classes de palavras abertas
Nomes próprios
Para os nomes próprios identificados como tal pelo analisador (e notamos, a este propósito, que ainda existem muitos casos em que a identificação é demasiado abrangente), fazemos apenas uma nova atomização (uma unidade separada por espaços ou outras características gráficas) mantendo como lema de cada um dos constituintes todas as palavras, amalgamadas pelo sinal "=". Alguns exemplos de lemas:
Fernando=Henrique=Cardoso, Presidência=da=República, Minas=Gerais, Procuradoria=Geral=da=República, Conferência=Nacional=dos=Bispos=do=Brasil, Nossa=Senhora, São=Sebastião, Dr.=Andrew=Jordan, J.=J., Luís=XIV, Midnight=in=the=Garden=of=Good=and=Evil.
Note-se que o analisador tende a analisar nomes de livros ou filmes (entre aspas) como nomes próprios, e o mesmo se passa com títulos ou subtítulos grafados com inicial maiúscula. Alguns exemplos nos nossos corpora:
Hoje=já=não=há=mais=louça=em=Dresden, Médico=Local=Usa=Remédio=Maravilhoso, O=mamute=e=os=seus=parasitas, A=Montanha=Mágica.
Quanto à questão da distribuição, e devido à forma como codificámos os corpora, cada nome próprio conta tantas vezes quanto o número de palavras que inclui. É importante ter em conta esse facto na contabilização dos resultados, visto que cada elemento vai ter os mesmos valores: pos será PROP, func, se for por exemplo o sujeito, contará tantos sujeitos quantas palavras tiver o nome próprio. Sugerimos algumas formas de ter isto em conta:
- Contabilizar separadamente todos os casos de nomes próprios [pos="PROP"] e descontar/adicionar os números respectivos
- garantir, que numa dada expressão de procura, só venha uma solução por nome próprio (por exemplo, testando que o resultado tenha de ser a palavra final): [func="<SUBJ"] [pos!="PROP"]
Expressões com várias palavras que não são nomes próprios
Para todos os outros casos de expressões consideradas indivisas pelo analisador, foi compilado um dicionário intermédio, que para cada entrada indica qual a sua análise interna (ainda de acordo com o PALAVRAS, bem entendido).
De momento o nosso repositório de polilexicais tem 5054 entradas, e mais 3816 esperam a sua inclusão.
Fazemos, contudo, diferença entre expressões com várias palavras com função gramatical e outras expressões (verbais, nominais, adjectivais ou adverbiais) que são consideradas pela análise sintáctica como grupos lexicais.
a) Expressões com várias palavras com função gramatical
Ao mesmo tempo que analisamos a sua estrutura interna, resolvemos manter a informação de que para o analisador correspondem a uma única unidade, através do uso da indicação <mwe>.
Operacionalmente, o critério para introdução de mwe é ter categoria gramatical PRP, DET, SPEC ou PERS.
Assim, temos <mwe> àcerca de </mwe>, <mwe> toda a gente </mwe>, <mwe> por parte de</mwe>, <mwe> em obediência a</mwe>, etc.
Para obter estas expressões numa concordância, basta pedir <mwe> []{1,} </mwe>.
De notar que, no caso de haver contracção com a palavra seguinte (como por exemplo em além do), optámos por pô-la fora do atributo MWE, o que significa que para efeitos de procura nos corpora, existem "expressões com várias palavras" de comprimento um.
b) Expressões com várias palavras correspondendo a categorias lexicais
Pura e simplesmente substituímo-las pela sua estrutura interna (ou seja, a análise dos seus constituintes, dada pelo dicionário polilexical).
Exemplos: orgãos de comunicação social, árvore genealógica, viola de arco, varinha de condão, unicidade sindical, tubo de raios catódicos, teoria dos conjuntos, são favas contadas, serviço militar obrigatório, sem eira nem beira, saco de água quente, salva de palmas, sabedoria das nações.
Eventualmente, estamos a considerar a possibilidade de manter a categoria gramatical originalmente obtida pelo analisador, a fim de não perdermos essa informação. Isso faria com que tivéssemos <mwe tipo=adj> para casos como pele vermelha (que será analisado, internamente, como N ADJ). (Estamos gratos a Elisabete Ranchhod por nos ter chamado a atenção para o facto de, nestes casos, a análise interna, ao substituir a do analisador, perder informação.)
Dado que as palavras compostas por aglutinação, tais como guarda-chuva, primeiro-ministro, couve-flor também são susceptíveis de ser abrangidas pela denominação "expressões com várias palavras", devemos indicar qual a forma como aparecem no AC/DC: Elas são codificadas com o lema mantendo o hífen (ao contrário de verbos com clíticos, documentados acima). Para as recuperar, basta, pois, procurar [lema=".*-.*"].
O processo mínimo que leva à actualização das versões dos corpora anotados é o seguinte:
- Criação do corpus não-anotado num formato apropriado para ser analisado por PALAVRAS, após o processo de atomização e separação de frases, descrito em pormenor na página de Atomização.
- Análise do corpus pelo PALAVRAS
- Detecção de expressões polilexicais constantes desse corpus que ainda não estejam presentes no dicionário polilexical
- Criação de uma primeira versão anotada e sua disponibilização a partir do projecto AC/DC
- Actualização do dicionário polilexical
- Criação de uma nova versão do corpus anotado já com tratamento das suas expressões polilexicais
Alguns comentários a este processo e ao seu resultado são necessários aqui:
- De notar que é possível que os corpora difiram (muito ligeiramente) das suas versões originais não anotadas, embora os programas criados no âmbito do AC/DC tentem repor fielmente todas as alterações aos textos introduzidas pelo PALAVRAS (para uma discussão do porquê destas opções consulte-se Santos & Bick, 2000).
- De notar também que o analisador vai mudando de comportamento à medida que problemas vão sendo detectados nos vários corpora, além de que é alvo de desenvolvimento praticamente constante por parte do seu autor, Eckhard Bick. Os corpora anotados não são, portanto, necessariamente idênticos em todas as opções linguísticas e computacionais, visto que provêm de diferentes versões do analisador. (Aliás, também o coligir dos vários itens polilexicais, até ser convertido numa versão mais actualizada do dicionário, faz com que alguns corpora estejam mais "bem processados" do que outros.)
- Finalmente, também o pós-processamento extensivo feito no próprio projecto AC/DC, que é sujeito a melhorias periódicas, pode alterar o conteúdo dos corpora. Por isso o nosso cuidado em indicar a versão do corpus, e dado que o PALAVRAS não tem versões numeradas, a data da sua invocação. Para cada corpus (anotado), é registada a data da criação do corpus não anotado que lhe deu origem, a data da análise sintáctica, e a data da criação do corpus a que se dá acesso, além de uma numeração de versões única.
De forma ao volume da informação associado aos corpora ser mais facilmente conhecido e apreciado (e eventualmente também comparado entre os diferentes corpora), produzimos a seguinte descrição quantitativa, cujos valores, para cada corpus, se encontram disponíveis na página de Corpora.
- Número e tipo de atributos estruturais
- Distribuição em termos de propriedades superficiais (gráficas) das unidades do corpus, para responder à pergunta aparentemente simples de qual o número de palavras de cada corpus, identificando: o número de nomes próprios (e a quantos tokens/unidades correspondem), o número de elementos polilexicais (e a quantas unidades correspondem), o número de tokens (palavras gráficas) existente, e finalmente o número de palavras do corpus (contando uma locução ou um nome próprio como uma palavra só), e separando marcas de pontuação e números.
- Distribuição em termos de categoria gramatical: para o que se poderá chamar categorias gramaticais primárias (cuja identificação é dependente, claro, do analisador sintáctico subjacente, neste caso o PALAVRAS), fornecemos uma contabilização em número de unidades e percentagem. De notar que, visto que o número de palavras gráficas identificado pelo AC/DC pode conter mais do que uma categoria gramatical (por exemplo as contracções, PRP+DET, contam tanto para preposição como para determinante, ou os verbos com clíticos, V+PRON para aumentar a categoria verbo e a categoria pronome), a soma das percentagens por forma excede claramente os 100%.
Além da página de Exemplos, já mencionada, refira-se:
- O artigo Santos e Bick (2000) apresentou pela primeira vez o projecto AC/DC a uma audiência internacional. Nele se descrevem algumas fases do processo de conversão do formalismo usado pelo analisador sintáctico PALAVRAS (formato CG) para a codificação usada no projecto AC/DC, assim como os primeiros corpora anotados.
- O artigo Santos e Sarmento (2003) pretende aliciar um público de linguistas a usar e apreciar os recursos presentes no AC/DC;
- enquanto que Santos e Ranchhod (1999) foi o primeiro a descrever em português as capacidades de procura em corpora (embora ainda não anotados!) acessíveis deste projecto.
- Em Santos & Gasperin (2002) fazem-se algumas considerações sobre a avaliação da qualidade da anotação à data.
- Santos (2003) descreve vários usos de corpora, e Santos (2004) e Santos (2006) alguns usos não triviais do AC/DC.
- Rocha e Santos (2007) descreve em algum pormenor a criação de um corpus no AC/DC a partir de uma colecção anotada com informação semântica, mostrando as capacidades do projecto AC/DC de dar acesso a vários tipos de informação.
Para informação sobre outros projectos que podem ser de certa forma compreendidos como extensões ou variações do projecto AC/DC, ambos integrando a revisão humana do material anotado automaticamente pelo PALAVRAS, veja-se:
- A Floresta sintá(c)tica, projecto de colaboração com Eckhrad Bick e o projecto VISL, em que criamos corpora analisados em formato de árvores, revistos por linguistas, e em que algumas das escolhas de atomização;
- O COMPARA, projecto de criação de um corpus paralelo em colaboração com Ana Frankenberg-Garcia, em que a anotação sintáctica da parte portuguesa tem sido revista e corrigida.
Ambos têm muito material publicado sobre as opções tomadas e os eventuais problemas da anotação automática.
[
Acesso |
Atomização |
Corpora |
Exemplos |
Agradecimentos
]
Diana Santos
Última actualização: 19 de Junho de 2007.
Perguntas, comentários e sugestões