FINE-TUNING A LARGE LANGUAGE MODEL WITH A NUCLEAR ENERGY CORPUS TO BUILD A QUESTION-ANSWERING CHATBOT

Gabriella Amorim; Cláudio M. N. A. Pereira

Autores

Gabriella Amorim Instituto de Engenharia Nuclear
Cláudio M. N. A. Pereira Instituto de Engenharia Nuclear

Resumo

Os modelos de linguagem grande (LLMs) são modelos baseados na arquitetura Transformers treinados em grandes quantidades de dados derivados da Internet, capazes de executar várias tarefas de linguagem natural, como geração de texto, codificação e resposta a perguntas. Desde o lançamento do ChatGPT em 30 de novembro de 2022, esses modelos têm demonstrado capacidades generativas avançadas. Vários modelos pré-treiandos já estão disponíveis, sendo alguns de código aberto e gratuitos para uso comercial. No entanto, determinados domínios e aplicações de conhecimento são altamente especializados e estão fora do escopo desses modelos básicos. Para resolver isso, foi desenvolvida uma técnica chamada ajuste fino. Esta pesquisa tem como objetivo ajustar um LLM de código aberto, o Llama 3 da Meta, para possibilitar conversas no domínio da energia nuclear, atendendo a operadores, pesquisadores e estudantes. Os dados serão coletados de várias fontes, incluindo artigos científicos, notícias, regulamentos e normas, e transformados em arquivos JSON de entrada para ajuste fino. O modelo básico, Llama 3, com 7 bilhões de parâmetros, será ajustado para melhorar seu desempenho no âmbito da energia nuclear.

FINE-TUNING A LARGE LANGUAGE MODEL WITH A NUCLEAR ENERGY CORPUS TO BUILD A QUESTION-ANSWERING CHATBOT

Autores

Resumo

Downloads

Publicado

Como Citar

Edição

Seção

Enviar Submissão

Palavras-chave

Informações

Idioma

Desenvolvido por