FINE-TUNING A LARGE LANGUAGE MODEL WITH A NUCLEAR ENERGY CORPUS TO BUILD A QUESTION-ANSWERING CHATBOT
Resumo
Os modelos de linguagem grande (LLMs) são modelos baseados na arquitetura Transformers treinados em grandes quantidades de dados derivados da Internet, capazes de executar várias tarefas de linguagem natural, como geração de texto, codificação e resposta a perguntas. Desde o lançamento do ChatGPT em 30 de novembro de 2022, esses modelos têm demonstrado capacidades generativas avançadas. Vários modelos pré-treiandos já estão disponíveis, sendo alguns de código aberto e gratuitos para uso comercial. No entanto, determinados domínios e aplicações de conhecimento são altamente especializados e estão fora do escopo desses modelos básicos. Para resolver isso, foi desenvolvida uma técnica chamada ajuste fino. Esta pesquisa tem como objetivo ajustar um LLM de código aberto, o Llama 3 da Meta, para possibilitar conversas no domínio da energia nuclear, atendendo a operadores, pesquisadores e estudantes. Os dados serão coletados de várias fontes, incluindo artigos científicos, notícias, regulamentos e normas, e transformados em arquivos JSON de entrada para ajuste fino. O modelo básico, Llama 3, com 7 bilhões de parâmetros, será ajustado para melhorar seu desempenho no âmbito da energia nuclear.