Secções
Entrar
Pedro Ledo
04.07.2026

Amália: anatomia técnica do primeiro grande modelo de linguagem do Estado português

O Amália não é, nem pretende ser, um "ChatGPT português".

No dia 1 de julho de 2026, no Técnico Innovation Center, em Lisboa, o Governo apresentou oficialmente a versão final do Amália, acrónimo de Assistente Multimodal Automático de Linguagem com Inteligência Artificial, o primeiro grande modelo de linguagem (Large Language Model, LLM) desenvolvido especificamente para o português europeu. O momento encerra um ciclo de dezoito meses de desenvolvimento iniciado com o anúncio de Luís Montenegro na Web Summit de novembro de 2024 e abre outro, porventura mais exigente: o da adoção real, da manutenção continuada e da prova de utilidade. Este artigo procura fazer aquilo que a cobertura generalista raramente faz, isto é, desmontar tecnicamente o que o Amália é, o que não é, como foi construído, o que os números do relatório técnico realmente dizem e que questões estratégicas, jurídicas e de segurança ficam em aberto.

O que é, afinal, o Amália

Convém começar por desfazer o equívoco mais comum. O Amália não é, nem pretende ser, um "ChatGPT português". O ChatGPT é uma aplicação conversacional construída sobre modelos da família GPT da OpenAI; o Amália é o próprio modelo de fundação, a camada de base sobre a qual terceiros podem construir aplicações. Paulo Dimas, presidente executivo do Center for Responsible AI, foi explícito na véspera da apresentação: não se trata de um sistema conversacional que resolve todo o tipo de problemas, mas de uma peça de inteligência artificial que garante três níveis de soberania, a da língua, a da cultura e a dos dados, disponível de forma aberta para qualquer pessoa que trabalhe na área descarregar e integrar. O próprio Governo, aliás, assumira desde 2024 que o objetivo do modelo não é responder a perguntas genéricas centradas em raciocínio ou cálculo complexo, terrenos onde outros LLM do mercado têm melhor desempenho.

Esta clarificação de posicionamento é tecnicamente honesta e estrategicamente importante. Um modelo de fundação nacional avalia-se pela qualidade da sua representação linguística e cultural, pela abertura dos seus pesos, dados e código, e pela facilidade com que a Administração Pública, as universidades e as empresas o conseguem especializar para casos de uso concretos. Não se avalia por competir em benchmarks generalistas com modelos de fronteira treinados com orçamentos três a quatro ordens de grandeza superiores.

Arquitetura, escala e dados de treino

Nos números essenciais, o Amália arranca com cerca de 9 mil milhões de parâmetros (9B), tendo sido pré-treinado num corpus de aproximadamente 4 biliões de palavras e posteriormente afinado com um conjunto de dados em português europeu extraídos e filtrados a partir do Arquivo.pt, o arquivo da web portuguesa mantido pela FCCN. A escolha do Arquivo.pt como fonte de afinação é uma das decisões mais interessantes do projeto: trata-se de um repositório com décadas de conteúdo em português de Portugal, juridicamente enquadrado e curado em território nacional, o que reduz simultaneamente o risco de contaminação por português do Brasil e as incertezas de licenciamento que assombram muitos corpora raspados da web global.

Do ponto de vista genealógico, o Amália não partiu do zero. A equipa combinou dois modelos de base desenvolvidos por investigadores portugueses, o EuroLLM, projeto europeu multilingue com forte participação nacional, e o GlorIA, o LLM académico em português europeu criado no NOVA LINCS, reforçando a partir daí o desempenho na compreensão e geração de texto em português. Esta abordagem de "continued pretraining" sobre bases existentes é a estratégia racional para um orçamento na ordem dos milhões de euros: treinar um modelo de 9B de raiz com 4 biliões de tokens exigiria um investimento em computação muito superior ao envelope financeiro disponível, e a literatura demonstra que a adaptação linguística de modelos multilingues sólidos produz melhores resultados por euro investido do que o treino integral de raiz.

O treino decorreu em infraestrutura de computação de alto desempenho pública: o supercomputador português Deucalion, instalado no Minho, o MareNostrum 5, em Barcelona, e recursos da rede europeia EuroHPC. Também aqui há um detalhe estratégico relevante: o modelo foi treinado em solo ibérico, em máquinas financiadas com dinheiro público europeu e português, o que dá substância à narrativa de soberania que de outro modo seria apenas retórica.

Na dimensão multimodal, o compromisso assumido desde o arranque do projeto era que a versão final fosse capaz de interpretar diversos formatos de dados, incluindo texto, fala, imagem e vídeo. A versão base, apresentada tecnicamente a 30 de setembro de 2025 no Madan Parque, era essencialmente textual; a multimodalidade constitui o salto da versão final agora lançada e será uma das frentes de evolução na segunda fase.

O que diz o relatório técnico

O relatório técnico do consórcio, conhecido no final de dezembro de 2025, merece leitura atenta porque é aí que as afirmações de desempenho ganham ou perdem substância. O documento assume um desafio metodológico sério e pouco discutido publicamente: não existiam benchmarks de referência para português europeu que permitissem monitorizar o progresso do modelo. A equipa mitigou o problema por três vias, utilizando exames nacionais portugueses, criando um benchmark linguístico próprio e traduzindo vários conjuntos de dados internacionais com um modelo de tradução automática dedicado de alta qualidade.

Os resultados reportados são claros no seu perímetro. A variante AMALIA-DPO, afinada com Direct Preference Optimization, uma técnica de alinhamento por preferências que dispensa o treino de um modelo de recompensa separado, atinge o melhor desempenho entre os modelos totalmente abertos por margem considerável, obtendo mesmo os melhores resultados entre todos os modelos avaliados nas categorias de lexicologia e semântica do português de Portugal. Nos exames nacionais de português, com questões de resposta longa, o Amália obtém a melhor pontuação entre todos os modelos integralmente open source, revelando boa compreensão de enunciados complexos e produção de texto coerente. A conclusão global do relatório é que o modelo supera todos os modelos de código aberto anteriores em português europeu e muitos modelos open weight.

A leitura rigorosa exige duas notas. Primeiro, a distinção entre "totalmente aberto" (pesos, dados e código disponíveis) e "open weight" (apenas pesos) não é cosmética: o Amália lidera com folga na primeira categoria, mais restrita, e compete bem, mas não domina, na segunda, onde estão modelos de laboratórios com recursos incomparáveis. Segundo, quando a equipa que desenvolve o modelo é também quem constrói o benchmark, o resultado deve ser lido com a prudência habitual, não por suspeita de má-fé, mas porque é metodologia de autoavaliação. A disponibilização pública dos conjuntos de avaliação, que o carácter aberto do projeto permite, é precisamente o mecanismo que permitirá à comunidade validar de forma independente estas afirmações. É um teste que os modelos proprietários raramente aceitam fazer.

Abertura radical: Apache 2.0, Hugging Face e GitHub

A decisão mais consequente de todo o projeto pode não ser técnica, mas sim de licenciamento. O Amália é disponibilizado sob licença Apache 2.0, através do portal ia.gov.pt com ligação ao Hugging Face, podendo qualquer cidadão, empresa ou entidade descarregar o modelo e usá-lo inclusivamente para fins comerciais, como confirmou Manuel Dias, CTO do Estado e presidente da Agência para a Reforma Tecnológica do Estado (ARTE). A documentação oficial vai mais longe: todos os modelos, bem como os dados e o código usados no desenvolvimento, estão disponíveis nas plataformas Hugging Face e GitHub.

Isto coloca o Amália num patamar de abertura que poucos modelos no mundo atingem. A Meta chama "open source" ao Llama, mas a licença Llama impõe restrições de uso e atribuição que levaram a Open Source Initiative a contestar publicamente o termo. A Apache 2.0, pelo contrário, é uma licença permissiva genuína, sem cláusulas de uso aceitável impostas pelo licenciante, sem limiares de utilizadores, sem reservas comerciais. Paulo Dimas descreveu o modelo como três vezes aberto, aberto para ser descarregado, aberto para ser estendido e aberto no acesso aos seus componentes. Para o tecido empresarial português, sobretudo para PME que não conseguem suportar custos recorrentes de API de fornecedores norte-americanos, isto significa poder correr localmente, sem custo por inferência e com controlo total dos dados, um modelo competente em português europeu. Um modelo de 9B, quantizado, corre confortavelmente numa única GPU de gama profissional e até em hardware de consumo topo de gama, o que torna a barreira de entrada objetivamente baixa.

Financiamento, consórcio e execução

O projeto foi financiado com 5,5 milhões de euros do Plano de Recuperação e Resiliência, aos quais o Governo anunciou agora juntar 1,5 milhões adicionais, elevando o investimento total do Estado para sete milhões de euros até 2027, destinados à evolução do modelo e à infraestrutura soberana da segunda fase. A distribuição do envelope inicial é conhecida: 2,475 milhões para a Universidade Nova de Lisboa, um milhão para o Instituto Superior Técnico, 375 mil euros para cada uma das universidades do Porto, do Minho e de Coimbra, e 900 mil euros executados diretamente pela FCT, a que acrescem as sinergias dos investimentos já realizados nos supercomputadores Deucalion e MareNostrum 5.

O desenvolvimento científico mobilizou mais de sessenta investigadores e estudantes de cinco instituições de ensino superior, com coordenação do consórcio a cargo do professor João Magalhães, da NOVA FCT, diretor do Grupo de Sistemas Multimodais do NOVA LINCS. É justo sublinhar que o projeto foi integralmente desenvolvido por entidades públicas, com talento nacional, e cumpriu o calendário essencial: versão base concluída em setembro de 2025, site oficial lançado a 1 de outubro de 2025, versão disponível na plataforma IAedu da FCT desde então, e versão final apresentada no prazo anunciado. Na paisagem habitual dos projetos tecnológicos do Estado, a execução dentro do cronograma não é um detalhe menor.

Registe-se, contudo, que o custo real do projeto foi objeto de controvérsia pública, com notícias a acusarem o Governo de não revelar a totalidade dos encargos, designadamente os custos de computação absorvidos pelas infraestruturas já financiadas. É uma crítica com fundamento contabilístico: os sete milhões de euros não incluem o valor de mercado das horas de supercomputação consumidas, que em projetos desta natureza representa uma fatia substancial do custo total. A transparência sobre este ponto seria desejável, até porque o argumento comparativo internacional joga a favor do projeto: mesmo somando a computação, o Amália custa uma fração ínfima do que custam os modelos de fronteira, e a comparação relevante é com iniciativas congéneres europeias, não com a OpenAI.

Onde vai ser usado: da Administração Pública aos museus

O Amália não nasceu para ficar no laboratório, garantiu Manuel Dias na apresentação, elencando quatro pilares estratégicos, a promoção da língua, da cultura e da história portuguesas, a promoção da investigação e inovação em IA em Portugal, e a aplicação prática. O modelo foi já validado em ambiente real em quatro setores, museus e cultura, ciência, comunicação social e educação, este último através da plataforma IAedu da Fundação para a Ciência e Tecnologia. Estão previstas aplicações nos serviços da Administração Pública através do portal gov.pt, e o enquadramento institucional do projeto faz-se na Agenda Nacional de Inteligência Artificial, com acompanhamento da ARTE.

Para quem trabalha na Administração Pública, o caso de uso mais promissor é evidente: sistemas de RAG (Retrieval-Augmented Generation) sobre legislação, regulamentos e documentação interna, correndo em infraestrutura própria, sem que um único byte de informação sensível do Estado saia para servidores de multinacionais estrangeiras. É exatamente o terceiro pilar de soberania invocado por Paulo Dimas, o dos dados. Um organismo público pode hoje descarregar o Amália, afiná-lo com a sua documentação setorial e servir respostas em português europeu juridicamente correto, dentro do seu perímetro de segurança. Para casos de uso que envolvam dados pessoais, o processamento local simplifica radicalmente a conformidade com o RGPD, eliminando transferências internacionais e subcontratantes em cascata.

Leitura crítica: limites, riscos e o que falta

Um artigo exigente não pode terminar no aplauso. Há quatro ordens de limitações a registar.

A primeira é de escala. Nove mil milhões de parâmetros é, em 2026, a categoria dos modelos pequenos e eficientes, não a dos modelos capazes. O próprio roteiro do projeto o reconhece, ao fixar como meta da segunda fase a evolução para 22 mil milhões de parâmetros, com reforço da capacidade de computação e da infraestrutura. Em tarefas de raciocínio complexo, matemática, programação ou conhecimento enciclopédico, o Amália não compete, nem tenta competir, com modelos de fronteira. A sua proposta de valor é linguística, cultural e de soberania de dados, e deve ser avaliada nesse perímetro.

A segunda é de sustentabilidade. Um LLM não é uma obra pública que se inaugura e fica; é um sistema vivo que exige ciclos contínuos de re-treino, avaliação, correção de vulnerabilidades de alinhamento e acompanhamento da evolução do estado da arte. O reforço orçamental até 2027 é positivo, mas a pergunta estrutural mantém-se: que modelo de governação e financiamento garante que o Amália não fica tecnicamente obsoleto em dois ciclos de inovação, quando cada ciclo dura hoje menos de um ano? O primeiro-ministro pareceu consciente do problema ao afirmar na apresentação que não havia nada para festejar, apenas o desafio de estar amanhã melhor do que hoje.

A terceira é de segurança, e aqui falo do meu terreno profissional. Um modelo com pesos abertos sob Apache 2.0 é, por definição, um modelo que qualquer ator, incluindo atores maliciosos, pode descarregar, afinar e desalinhar. A abertura tem enormes benefícios de escrutínio, mas transfere para quem implementa a responsabilidade integral pelas salvaguardas: filtragem de entradas e saídas, proteção contra injeção de instruções em cenários RAG, controlo de acessos e registo de auditoria. Para as entidades essenciais e importantes abrangidas pelo Decreto-Lei n.º 125/2025, que transpõe a diretiva NIS2, a adoção do Amália em processos críticos deve entrar na análise de risco e nas medidas de gestão de risco de cibersegurança como qualquer outro componente de software, com a vantagem, não despicienda, de a cadeia de fornecimento ser nacional, pública e auditável de ponta a ponta. Acresce a dimensão do Regulamento de Inteligência Artificial da União Europeia: o Amália, enquanto modelo de IA de finalidade geral disponibilizado no mercado, beneficia do regime de isenções parciais aplicável aos modelos publicados sob licença livre e de código aberto, mas quem construir sobre ele sistemas classificados de risco elevado assume as obrigações correspondentes do AI Act.

A quarta é de ecossistema. O Amália chega a um espaço lusófono onde já operam o GlorIA, pioneiro académico em português europeu, o Evaristo.ai da Universidade de Lisboa, assente no modelo Gervásio e especializado em serviços públicos, e, do lado brasileiro, a família Sabiá da Maritaca AI, cujas versões mais recentes atingem paridade com modelos globais em exames profissionais em língua portuguesa. O risco de fragmentação de esforços públicos em modelos concorrentes é real e a coordenação, mais do que a competição, deveria ser a norma num país da dimensão de Portugal.

Acho que o jogo está lançado, agora se todos pudermos contribuir seria bom para Portugal.

Mais crónicas do autor
04 de julho de 2026 às 08:00

Amália: anatomia técnica do primeiro grande modelo de linguagem do Estado português

O Amália não é, nem pretende ser, um "ChatGPT português".

20 de junho de 2026 às 08:00

A Lei da Inteligência Artificial, a Ética e o Uso Regulado da IA

Da promessa tecnológica à responsabilidade jurídica.

13 de junho de 2026 às 08:00

A IA mais poderosa de sempre chega ao público, mas com travões à mistura

Para quem lida com a natureza de duplo uso destas ferramentas, o raciocínio é familiar e incómodo: as mesmas perguntas que são valiosas nas mãos de um profissional de cibersegurança ou de um investigador em biologia podem ser perigosas nas mãos de um agente malicioso.

01 de junho de 2026 às 22:01

A Nuvem Soberana Portuguesa como Pilar de Autonomia Estratégica

Um esforço de modernização digital que posiciona o país entre os líderes europeus.

23 de maio de 2026 às 08:00

Cem dias de Luís Neves: o regresso da autoridade serena

O ministério que tritura ministros encontrou, finalmente, alguém que conhece a casa por dentro. Os primeiros meses de Luís Neves no MAI confirmam o instinto certo de Montenegro e devolvem ao cargo a competência técnica que vinha em falta.

Mostrar mais crónicas