O ELAN-T (EUDICO Linguistic Annotator - Tagger) é uma ferramenta que permite a etiquetagem (Part-Of-Speech Tagging) de arquivos .txt exportados do software ELAN. A etiquetagem é realizada através do modelo pré-treinado para Português Brasileiro da biblioteca spaCy, o pt_core_news_lg.
Inicialmente, é necessária a instalação das dependências do projeto:
pip install -r requirements.txt
Nessa etapa serão instalados os componentes necessários para a execução correta do código. Observação: O procedimento pode demorar um pouco pois o modelo utilizado possui um tamanho considerável.
O uso do script depende da organização dos arquivos em uma pasta única. Assim, armazene todos os arquivos .txt que foram exportados do ELAN em uma pasta que contenha apenas isso.
Um exemplo de caminho organizado:
C:\User\Desktop\Arquivos_ELAN
A nomenclatura acima é apenas um exemplo. Uma dica que pode evitar transtornos é criar a pasta em um caminho que não possua acentos, caracteres especiais ou espaços em branco nos nomes das pastas.
A ferramenta permite a etiquetagem de uma ou mais entrevistas presentes em uma pasta. Para a execução do código:
py elan-t.py caminho\pasta_dos_arquivos