Métodos de detecção automática e incremental de textos gerados por modelos de linguagem

Barbazza, Guilherme Rodrigues; Almeida, Tiago Agostinho de

Métodos de detecção automática e incremental de textos gerados por modelos de linguagem (2023)

Authors:
- Barbazza, Guilherme Rodrigues
- Almeida, Tiago Agostinho de (Orientador)
USP affiliated author: BARBAZZA, GUILHERME RODRIGUES - ICMC
School: ICMC
Subjects: PROCESSAMENTO DE TEXTO; PROCESSAMENTO DE LINGUAGEM NATURAL; APRENDIZADO COMPUTACIONAL
Keywords: Detecção de textos sintéticos; Métodos de classificação
Language: Português
Abstract: Modelos de linguagem natural são sistemas computacionais que podem gerar ou processar textos em linguagem natural. Eles são baseados em técnicas de aprendizado profundo, tam bém conhecidas como deep-learning. Os modelos de linguagem generativa, especificamente, podem produzir textos a partir de um contexto ou uma entrada inicial. Estes modelos têm avançado nos últimos anos, graças ao desenvolvimento de arquiteturas mais sofisticadas e ao aumento da disponibilidade de dados e recursos computacionais, sendo a quantidade de parâmetros que possuem um dos fatores que influencia seus desempenhos. Se por um lado, os modelos de linguagem generativa podem ser usados para diversas aplicações, como resumir textos, tradução e responder perguntas, podem, também, serem utilizados para fins maliciosos. Diante deste cenário de lançamentos cada vez mais frequentes de modelos geradores de textos, torna-se imperativo a necessidade da criação de uma linha de defesa para identificação de textos sintéticos, que seja capaz de responder rapidamente à evolução que esses modelos trazem a cada geração lançada. Este trabalho investiga o desempenho dos classificadores com abordagens clássicas, que possuem capacidade de aprendizado incremental, na detecção de textos gerados por humanos e sintéticos, comparando-os com um modelo considerado o estado da arte. Para os métodos de classificação com abordagem clássica, são utilizadas diferentes técnicas de representação de palavras visando obter o melhor desempenho. Para a realização do experimento, é considerado o seguinte cenário: treinamento de classificadores de textos com amostras de dados produzidas por humanos e gerados por um pequeno modelo de linguagem generativa. Posteriormente, estes classificadores recebem dados de um modelo com mais parâmetros. Assim, é aferido o desempenho destes classificadores neste cenário de transição, simulando o lançamento de um modelo de linguagem generativamais atual. Como os classificadores são criados a partir de algoritmos que suportam atualizações dos parâmetros sem a necessidade do retreinamento completo (online-learning), passam por um processo de atualização de seus parâmetros para que seja possível medir novamente os seus desempenhos neste cenário transitório. Neste contexto, este trabalho tem como objetivo analisar a deterioração da performance dos classificadores e investigar como a atualização de seus parâmetros afeta seus desempenhos.
Imprenta:
- Place of publication: São Carlos
- Date published: 2023

Download do texto completo

Tipo	Nome	Link
	Guilherme Rodrigues Barba...	Direct link

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

BARBAZZA, Guilherme Rodrigues. Métodos de detecção automática e incremental de textos gerados por modelos de linguagem. 2023. Trabalho de Conclusão de Curso (MBA) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2023. Disponível em: https://bdta.abcd.usp.br/directbitstream/fe5da6c2-cafb-4b7e-a27f-391e3787b72f/Guilherme%20Rodrigues%20Barbazza.pdf. Acesso em: 29 abr. 2024.
APA

Barbazza, G. R. (2023). Métodos de detecção automática e incremental de textos gerados por modelos de linguagem (Trabalho de Conclusão de Curso (MBA). Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos. Recuperado de https://bdta.abcd.usp.br/directbitstream/fe5da6c2-cafb-4b7e-a27f-391e3787b72f/Guilherme%20Rodrigues%20Barbazza.pdf
NLM

Barbazza GR. Métodos de detecção automática e incremental de textos gerados por modelos de linguagem [Internet]. 2023 ;[citado 2024 abr. 29 ] Available from: https://bdta.abcd.usp.br/directbitstream/fe5da6c2-cafb-4b7e-a27f-391e3787b72f/Guilherme%20Rodrigues%20Barbazza.pdf
Vancouver

Barbazza GR. Métodos de detecção automática e incremental de textos gerados por modelos de linguagem [Internet]. 2023 ;[citado 2024 abr. 29 ] Available from: https://bdta.abcd.usp.br/directbitstream/fe5da6c2-cafb-4b7e-a27f-391e3787b72f/Guilherme%20Rodrigues%20Barbazza.pdf

BDTA

Exportar registro bibliográfico

Métodos de detecção automática e incremental de textos gerados por modelos de linguagem (2023)

Download do texto completo

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

BDTA

Exportar registro bibliográfico

Métodos de detecção automática e incremental de textos gerados por modelos de linguagem (2023)

Download do texto completo

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: