
Mini Corpus Lab – Manual Pedagógico e Técnico
1. Perspectiva Pedagógica
O Mini Corpus Lab é uma ferramenta que coloca em prática a metodologia de Aprendizagem Baseada em Dados (Data-Driven Learning – DDL). A proposta é fazer com que os alunos aprendam inglês observando padrões reais da língua, extraídos de textos autênticos (como músicas, artigos ou notícias). Em vez de receber regras prontas, eles descobrem como a língua funciona a partir da análise de exemplos.
Como cada função pode ser usada em sala de aula:
-
Importar Corpus: O professor seleciona textos próximos ao universo cultural dos alunos (por exemplo, músicas pop). Com isso, é possível discutir não apenas vocabulário, mas também temas sociais, culturais e estilísticos.
-
Concordance (KWIC): O aluno pesquisa uma palavra e vê diferentes contextos em que ela aparece. Isso possibilita identificar padrões, usos e significados variados. O professor pode pedir que eles formulem hipóteses sobre o uso de get, por exemplo.
-
Frequência: Mostra quais palavras aparecem mais. Essa informação pode servir para discutir vocabulário central em determinado gênero. Em músicas, palavras como love ou heart revelam temas recorrentes.
-
Coligações: Aponta combinações fixas, como fall in love ou make a mistake. O professor pode transformar esses pares em atividades de preenchimento de lacunas, incentivando a produção de frases naturais.
-
Keywords: Permite comparar o corpus de estudo com outro corpus de referência (ex.: inglês falado geral). Isso ajuda a mostrar que cada gênero textual tem vocabulário característico.
-
Atividades DDL: Gera folhas de concordância prontas para exercícios de gap-fill, matching ou simples observação (noticing). Aqui a análise linguística se transforma em prática pedagógica concreta.
2. Perspectiva Técnica
O Mini Corpus Lab é um aplicativo 100% client-side (roda no navegador), desenvolvido em HTML, CSS e JavaScript puro, sem necessidade de servidor. Essa abordagem garante leveza, acessibilidade offline e independência de infraestrutura — ideal para escolas com recursos limitados.
Estrutura e funcionamento técnico:
-
Importação de corpus:
-
Aceita arquivos .txt e .json.
-
Reconhece marcações <song title="..." artist="..." theme="..."> para organizar subcorpora por artista, título ou tema.
-
O texto é tokenizado (separado em palavras) usando expressões regulares.
-
-
KWIC (Concordance):
-
Utiliza expressões regulares para localizar palavras-alvo no corpus.
-
Mostra uma janela de contexto (n caracteres à esquerda/direita da ocorrência).
-
Resultados podem ser exportados em CSV.
-
-
Frequência:
-
Conta a ocorrência de cada token.
-
Remove stopwords (listas pré-definidas de palavras funcionais em inglês/português).
-
Exporta resultados em CSV para análise externa.
-
-
Coligações (Collocations):
-
Extrai bigramas (pares de palavras consecutivas).
-
Calcula três métricas estatísticas: PMI, Dice e t-score.
-
Permite ordenar resultados e exportar para CSV.
-
-
Keywords:
-
Requer upload de um corpus de referência.
-
Calcula log-likelihood para identificar palavras características do corpus de estudo em relação ao de referência.
-
Exibe tabela comparativa com frequências e estatísticas.
-
-
Atividades DDL:
-
Gera automaticamente linhas de concordância de uma palavra-alvo.
-
Monta folha pronta para exercícios (TXT).
-
Ajuda o professor a aplicar a metodologia DDL sem precisar editar manualmente.
-
Diferenciais técnicos:
-
Leve e offline: roda direto no navegador sem instalação.
-
Exportação universal: todos os módulos exportam resultados em CSV ou TXT.
-
Filtros de subcorpora: aplicação dos metadados para análises específicas.
-
Expansível: pode ser integrado a lematizadores/PoS (spaCy/UDPipe) via WebAssembly futuramente.
🎯 Conclusão
O Mini Corpus Lab é, ao mesmo tempo, um recurso pedagógico e uma ferramenta técnica.
-
Do lado pedagógico, permite que professores e alunos trabalhem com dados reais da língua, favorecendo a descoberta e a análise crítica.
-
Do lado técnico, é um sistema robusto, simples e independente, que oferece estatísticas linguísticas essenciais sem necessidade de infraestrutura cara como a do Sketch Engine.
Assim, ele se torna um aliado direto da metodologia de Corpus Linguistics aplicada ao ensino de inglês, como defendida na dissertação que inspirou sua criação.
