Anotação dos corpora

Projecto AC/DC, Linguateca


Esta página pretende documentar cabalmente a informação adicionada a todos os corpora, explicando as opções tomadas na sua codificação. Para a utilização do sistema de processamento de corpora subjacente, o IMS-CWB, com exemplos pormenorizados de como os corpora anotados podem ser inquiridos e algumas procuras pertinentes, consulte-se a página de Exemplos.

A anotação dos corpora é feita automaticamente pelo PALAVRAS, um analisador sintáctico automático para o português desenvolvido por Eckhard Bick. Para a compreensão dos fundamentos linguísticos deste sistema, a referência fundamental é Bick 2000. Veja-se também

Sobre o processo de anotação que resulta no formato usado no AC/DC, consultar a descrição do processo de anotação abaixo.

Informação de base

Muito resumidamente, o PALAVRAS, o analisador sintáctico automático utilizado no projecto AC/DC, atribui, a cada unidade do corpus, o seu lema ("base form"), a sua categoria gramatical, características morfológicas (associadas à palavra no dicionário), e a sua função sintáctica, que codificámos, respectivamente, nos atributos lema, pos, temcagr, pessnum e gen e func. Além disso, o analisador tenta identificar, através de heurísticas morfológicas, palavras não constantes do dicionário, e que codificamos através do atributo deriv. Alguns exemplos simples do uso destes atributos podem ser vistos aqui.

De uma forma mais completa, documentamos em seguida a procura de informação morfossintáctica constante dos atributos pos, temcagr, pessnum, gen e func, assim como o conteúdo dos atributos lema e deriv.

Informação presente no atributo pos

O atributo pos (do inglês "part of speech") contém a classe gramatical produzida pelo analisador sintáctico PALAVRAS de Eckhard Bick (Word class tags, http://visl.sdu.dk/visl/pt/portsymbol.html#morftags), além de um conjunto de outras especificações que poderíamos chamar indicações de subclasse, que podem ser consultadas em http://visl.sdu.dk/visl/pt/portsymbol.html#sectags.

A classe gramatical e as indicações de subclasse podem ter os seguintes valores (todos atribuídos pelo PALAVRAS):

NomeClasse gramaticalIndicações de subclasse
NSubstantivoprop, (lat, eng)
PROPNome própriokc (nomes próprios que incluem o caracter &)
SPECEspecificador (pronome ou adjectivo)rel, interr, dem, quant, diff
DETDeterminante (artigo, pronome ou adjectivo)artd, arti, quant, dem, poss, diff, rel, ident, interr, (lat)
PERSPronome pessoalrefl, obj, coll, reci, (fra)
ADJadjectivoNUMord, prop, KOMP, n, mente, (lat, eng)
ADVadvérbiorel, quant, kc, ks, prp, interr, co-vfin, prop, dem, co-fmc, parkc-2*, (lat)
Vverbon, prop, fmc, quant, (lat, eng)
NUMnumeralcard, prop
KSconjunção subordinativa
KCconjunção coordenativaco-fmc, co-vfin, co-inf, co-pcv, co-prparg, co-ger, co-advl, co-acc, co-sc, co-pred, co-app, co-subj, co-postnom, parkc-1*, parkc-2*
INinterjeição
ECprefixo
* parkc corresponde a pares de conjunções (tais como ou... ou, ou nem... nem) em que a primeira é marcada 1 e a segunda 2, ou a pares de advérbios (tanto ... como, tal qual como, ) em que apenas o segundo é marcado parkc-2.

As palavras que vêm do ou são em francês estão marcadas como fra, do inglês como eng e do latim como lat. Esta informação irá em breve para o atributo DERIV.

O projecto AC/DC junta a informação primária e a secundária (por esta ordem) por meio de um caracter de sublinhado (ou mais do que um, se tal for o caso). Exemplos:

Informação morfológica presente no atributos temcagr, pessnum e gen

A informação morfológica produzida pelo analisador sintáctico PALAVRAS está descrita no seguinte URL: http://visl.sdu.dk/visl/pt/portsymbol.html#morftags (sob a rubrica "inflection tags").

Na versão que utilizamos para o projecto AC/DC, o analisador tenta propagar essa informação a cada terminal, donde, por exemplo, se a expressão os turistas foi reconhecida como sintagma nominal, "turistas" será classificado como M e não M/F como vem do léxico.

As classes sem flexão têm 0 (zero) como valor dos atributos morfológicos.

O atributo temcagr: tempo verbal e/ou caso pronominal

Este atributo contém o tempo e modo para verbos e o caso para pronomes.

Quando indica os tempos, tem como possíveis valores
PR_INDpresente do indicativo
INF infinitivo
GERgerúndio
IMPF_IND imperfeito do indicativo
PCP particípio passado
IMPF_SUBJimperfeito do conjuntivo
FUT_INDfuturo do indicativo
PR_SUBJpresente do conjuntivo
FUT_SUBJfuturo do conjuntivo
FUT_INDfuturo do indicativo
CONDcondicional
MQP_INDmais que perfeito simples
PS_INDperfeito do indicativo
PS/MQP_INDperfeito ou mais que perfeito

Quando indica os casos, tem os possíveis valores: NOM, ACC, DAT, PIV, ACC/DAT, NOM/PIV.

O atributo pessnum: pessoa e/ou número

Este atributo indica o número: S, P ou S/P para todas as categorias gramaticais com essa informação, excepto para verbos e pronomes pessoais, para os quais indica a pessoa: 1S, 1P, 2S, 2P, 3S, 3P, 1/3S, 0/1/3S.

O atributo gen: género

Este atributo apenas pode ter os valores M, F ou M/F (indeterminado).

Exemplos de codificação de atributos morfológicos

Teremos, pois, classificações como

formatemcagrpessnumgencomentário
classes 0 P F feminino plural
atraído PCPS Mparticípio passado masculino singular
fazem PR_IND3P0presente do indicativo, terceira pessoa do plural
IMP2S0 imperativo, segunda pessoa do singular
reagirias COND2S0 condicional, segunda pessoa do singular
as ACC3PFfeminino, terceira pessoa do plural, acusativo
fazeres INF2S0infinitivo pessoal, segunda pessoa do singular
sonhando GER 30gerúndio
atrapalhar INF 30infinitivo

Por uma opção condicionada por questões técnicas, e como já referido acima, temos como unidade o verbo seguido de clíticos, cujos valores são concatenados depois do sinal "+". Alguns exemplos do valor dos vários atributos morfológicos nesses casos encontram-se em Tratamento de contracções e de verbos com clíticos, abaixo. Para exemplos de procuras especializadas sobre morfologia, consulte-se mais uma vez a página dos exemplos.

Informação sintáctica presente no atributo func

A informação sintáctica produzida pelo analisador PALAVRAS de Eckhard Bick encontra-se descrita em http://visl.sdu.dk/visl/pt/portsymbol.html#syntags. (Note-se que o caracter @, indicando que a informação é de carácter sintáctico, foi consistentemente retirado do valor do atributo func.)

A informação produzida pelo PALAVRAS e retida no AC/DC pode ser dividida em vários categorias:

Para exemplos de procuras especializadas sobre a função sintáctica, consulte-se mais uma vez a página dos exemplos.

Informação presente no atributo lema

Este atributo corresponde ao que Eckhard Bick chama a forma base, e contém:

Mais do que uma análise

É possível ter uma desambiguação incompleta, ou seja, a uma palavra podem estar atribuídas várias funções sintácticas, ou várias características morfológicas entre as quais o analisador não conseguiu escolher.

Essas características foram metacodificadas de forma diferente, conforme o nível a que se referem:

  1. Em relação aos atributos morfológicos, através do caracter barra. Alguns exemplos:
  2. Em relação aos atributos sintácticos, o analisador tenta produzir apenas uma análise (que pode, portanto, estar incorrecta). No entanto, há casos de várias alternativas, também codificadas por sublinhado entre elas, que correspondem a casos entre os quais o analisador não escolheu, tais como <SC_P<, SUBJ>_<ACC, <SUBJ_<ACC_P<_APP, etc.
  3. Finalmente, no caso de lemas alternativos, o PALAVRAS usa o caracter &, por exemplo em lhe&lhes como possível base/lema de lhos.

Existem contudo alguns casos de diferentes funções sintácticas ligadas por sublinhado, que se referem à função sintáctica do constituinte como um todo (função externa), e função sintáctica da palavra (núcleo do constituinte) dentro do constituinte que lidera (função interna). Nesses casos, a segunda função é sempre precedida do caracter #. Note-se, a propósito, que aqui não estamos em presença de funções alternativas, mas concomitantes. O sublinhado antes de # não indica, portanto, neste caso, ambiguidade. Alguns exemplos:

É preciso também notar as seguintes características do ACDC que, embora também pareçam descritíveis como "mais do que uma análise", correspondem sim a "várias análises amalgamadas" (e serão descritas em mais pormenor abaixo):

Para lidar com esta forma de codificar, é preciso que o utilizador esteja consciente destas opções.

Tratamento de contracções e de verbos com clíticos

Por razões explicadas em Santos e Bick (2000), nomeadamente a necessidade de ter um separador de palavras o mais simples possível (e não dependente de uma análise sintáctica), a separação em unidades básicas -- e de forma a manter uma fidelidade absoluta ao corpus -- é feita simplesmente com base em espaços, sinais de pontuação, e uma lista de abreviaturas em português (e algumas em francês e inglês). (Ver a página de Atomização.)

Isso implica que, embora o analisador sintáctico considere como duas ou mais unidades as contracções e os verbos com enclíticos, o processo de criar os corpora do projecto AC/DC repõe a forma original considerando-os apenas como uma unidade. Os valores das diversas partes são contudo mantidos de forma a não se perder a informação devida à análise.

Alguns exemplos:
wordlemapostemcagrpessnumgenfunc
nestas em+este PRP+DET_dem 0PF A<ADVS+>N
pela por+a PRP+DET_artd 0SF A<PASS+>N
àquela a+aquele PRP+DET_dem 0SF <ADVL+>N
connosco com+nós PRP+PERS PIV1PM/F <SC_<ADVL+P<
fá-lo-iam fazer+lo V_fmc+PERS COND+ACC3P+3S0+M FMV+<ACC
retirar-lhos retirar+lhe&lhes+eles V+PERS+PERS INF+DAT+ACC3+3S/P+3P0+M/F+M IMV+<DAT+ACC>
transmite-astransmitir+elasV_fmc+PERS PR_IND+ACC3S+3PF
estragá-loestragar+eleV+PERSFUT_IND+ACC3S+3SM
juntar-se-iamjuntar+seV_fmc+PERS_refl_coll* COND+ACC3P+3PM/F
lhaslhe&lhes+elas PERS+PERSDAT+ACC3S/P+3PM/F+F
* Nota: fmc (verbo da oração principal) e refl_coll (pronome reflexo com interpretação colectiva) são indicações que podem estar associadas (ou não) à ocorrência de (no caso presente) juntar-se-iam

Para exemplos de procuras envolvendo clíticos, veja a página de Exemplos.

Tratamento de expressões com várias palavras

O analisador PALAVRAS é muito liberal na forma como junta conjuntos de palavras que para ele são uma única unidade. O projecto AC/DC, pelo contrário, pretende fazer uso de uma separação tão simples e indiscutível quanto possível, para maximizar a utilidade do sistema pressupondo o mínimo de concordância com as opções linguísticas professadas pelo autor do PALAVRAS.

Podemos considerar três casos distintos de expressões com várias palavras:

Nomes próprios

Para os nomes próprios identificados como tal pelo analisador (e notamos, a este propósito, que ainda existem muitos casos em que a identificação é demasiado abrangente), fazemos apenas uma nova atomização (uma unidade separada por espaços ou outras características gráficas) mantendo como lema de cada um dos constituintes todas as palavras, amalgamadas pelo sinal "=". Alguns exemplos de lemas:

Fernando=Henrique=Cardoso, Presidência=da=República, Minas=Gerais, Procuradoria=Geral=da=República, Conferência=Nacional=dos=Bispos=do=Brasil, Nossa=Senhora, São=Sebastião, Dr.=Andrew=Jordan, J.=J., Luís=XIV, Midnight=in=the=Garden=of=Good=and=Evil.

Note-se que o analisador tende a analisar nomes de livros ou filmes (entre aspas) como nomes próprios, e o mesmo se passa com títulos ou subtítulos grafados com inicial maiúscula. Alguns exemplos nos nossos corpora:

Hoje=já=não=há=mais=louça=em=Dresden, Médico=Local=Usa=Remédio=Maravilhoso, O=mamute=e=os=seus=parasitas, A=Montanha=Mágica.

Quanto à questão da distribuição, e devido à forma como codificámos os corpora, cada nome próprio conta tantas vezes quanto o número de palavras que inclui. É importante ter em conta esse facto na contabilização dos resultados, visto que cada elemento vai ter os mesmos valores: pos será PROP, func, se for por exemplo o sujeito, contará tantos sujeitos quantas palavras tiver o nome próprio. Sugerimos algumas formas de ter isto em conta:

Expressões com várias palavras que não são nomes próprios

Para todos os outros casos de expressões consideradas indivisas pelo analisador, foi compilado um dicionário intermédio, que para cada entrada indica qual a sua análise interna (ainda de acordo com o PALAVRAS, bem entendido). De momento o nosso repositório de polilexicais tem 5054 entradas, e mais 3816 esperam a sua inclusão.

Fazemos, contudo, diferença entre expressões com várias palavras com função gramatical e outras expressões (verbais, nominais, adjectivais ou adverbiais) que são consideradas pela análise sintáctica como grupos lexicais.

a) Expressões com várias palavras com função gramatical

Ao mesmo tempo que analisamos a sua estrutura interna, resolvemos manter a informação de que para o analisador correspondem a uma única unidade, através do uso da indicação <mwe>.

Operacionalmente, o critério para introdução de mwe é ter categoria gramatical PRP, DET, SPEC ou PERS.

Assim, temos <mwe> àcerca de </mwe>, <mwe> toda a gente </mwe>, <mwe> por parte de</mwe>, <mwe> em obediência a</mwe>, etc.

Para obter estas expressões numa concordância, basta pedir <mwe> []{1,} </mwe>.

De notar que, no caso de haver contracção com a palavra seguinte (como por exemplo em além do), optámos por pô-la fora do atributo MWE, o que significa que para efeitos de procura nos corpora, existem "expressões com várias palavras" de comprimento um.

b) Expressões com várias palavras correspondendo a categorias lexicais

Pura e simplesmente substituímo-las pela sua estrutura interna (ou seja, a análise dos seus constituintes, dada pelo dicionário polilexical).

Exemplos: orgãos de comunicação social, árvore genealógica, viola de arco, varinha de condão, unicidade sindical, tubo de raios catódicos, teoria dos conjuntos, são favas contadas, serviço militar obrigatório, sem eira nem beira, saco de água quente, salva de palmas, sabedoria das nações.

Eventualmente, estamos a considerar a possibilidade de manter a categoria gramatical originalmente obtida pelo analisador, a fim de não perdermos essa informação. Isso faria com que tivéssemos <mwe tipo=adj> para casos como pele vermelha (que será analisado, internamente, como N ADJ). (Estamos gratos a Elisabete Ranchhod por nos ter chamado a atenção para o facto de, nestes casos, a análise interna, ao substituir a do analisador, perder informação.)

Palavras compostas com hífen

Dado que as palavras compostas por aglutinação, tais como guarda-chuva, primeiro-ministro, couve-flor também são susceptíveis de ser abrangidas pela denominação "expressões com várias palavras", devemos indicar qual a forma como aparecem no AC/DC: Elas são codificadas com o lema mantendo o hífen (ao contrário de verbos com clíticos, documentados acima). Para as recuperar, basta, pois, procurar [lema=".*-.*"].

Processo de anotação

O processo mínimo que leva à actualização das versões dos corpora anotados é o seguinte:
  1. Criação do corpus não-anotado num formato apropriado para ser analisado por PALAVRAS, após o processo de atomização e separação de frases, descrito em pormenor na página de Atomização.
  2. Análise do corpus pelo PALAVRAS
  3. Detecção de expressões polilexicais constantes desse corpus que ainda não estejam presentes no dicionário polilexical
  4. Criação de uma primeira versão anotada e sua disponibilização a partir do projecto AC/DC
  5. Actualização do dicionário polilexical
  6. Criação de uma nova versão do corpus anotado já com tratamento das suas expressões polilexicais
Alguns comentários a este processo e ao seu resultado são necessários aqui:
  1. De notar que é possível que os corpora difiram (muito ligeiramente) das suas versões originais não anotadas, embora os programas criados no âmbito do AC/DC tentem repor fielmente todas as alterações aos textos introduzidas pelo PALAVRAS (para uma discussão do porquê destas opções consulte-se Santos & Bick, 2000).
  2. De notar também que o analisador vai mudando de comportamento à medida que problemas vão sendo detectados nos vários corpora, além de que é alvo de desenvolvimento praticamente constante por parte do seu autor, Eckhard Bick. Os corpora anotados não são, portanto, necessariamente idênticos em todas as opções linguísticas e computacionais, visto que provêm de diferentes versões do analisador. (Aliás, também o coligir dos vários itens polilexicais, até ser convertido numa versão mais actualizada do dicionário, faz com que alguns corpora estejam mais "bem processados" do que outros.)
  3. Finalmente, também o pós-processamento extensivo feito no próprio projecto AC/DC, que é sujeito a melhorias periódicas, pode alterar o conteúdo dos corpora. Por isso o nosso cuidado em indicar a versão do corpus, e dado que o PALAVRAS não tem versões numeradas, a data da sua invocação. Para cada corpus (anotado), é registada a data da criação do corpus não anotado que lhe deu origem, a data da análise sintáctica, e a data da criação do corpus a que se dá acesso, além de uma numeração de versões única.

Contabilização dos corpora com base na sua anotação

De forma ao volume da informação associado aos corpora ser mais facilmente conhecido e apreciado (e eventualmente também comparado entre os diferentes corpora), produzimos a seguinte descrição quantitativa, cujos valores, para cada corpus, se encontram disponíveis na página de Corpora.

Mais informações

Além da página de Exemplos, já mencionada, refira-se:

Para informação sobre outros projectos que podem ser de certa forma compreendidos como extensões ou variações do projecto AC/DC, ambos integrando a revisão humana do material anotado automaticamente pelo PALAVRAS, veja-se:

Ambos têm muito material publicado sobre as opções tomadas e os eventuais problemas da anotação automática.

[ Acesso | Atomização | Corpora | Exemplos | Agradecimentos ]


Diana Santos
Última actualização: 19 de Junho de 2007.
Perguntas, comentários e sugestões