devv.ai é como construir um sistema RAG eficiente Parte 2 Esta série de threads compartilhará a experiência por trás da construção do sistema de Geração Aprimorada de Recuperação da devv.ai, incluindo algumas práticas em ambiente de produção. Este é o segundo artigo da série, com o tema 'Como avaliar um sistema RAG'.
No artigo anterior, mencionamos o que é o sistema RAG, bem como os elementos básicos que o compõem. Aqui está uma revisão. Um sistema RAG básico é composto pelos seguintes 3 elementos: 1. Modelo de linguagem 2. Conjunto de conhecimento externo 3. Conhecimento externo necessário para o cenário atual
Para otimizar todo o sistema, você pode decompor o problema em otimizar cada parte do sistema. No entanto, a dificuldade de otimizar um sistema baseado em LLM é que esse sistema é essencialmente uma caixa-preta, sem um conjunto eficaz de métricas de avaliação. Sem sequer um benchmark básico, falar em melhorar os indicadores correspondentes é apenas conversa fiada.
Então, a primeira coisa que precisamos fazer é estabelecer um sistema de avaliação para todo o sistema RAG. Este artigo da Stanford se concentra principalmente nesse trabalho, avaliando a verificabilidade em motores de busca generativos arxiv.org/abs/2304.09848
Este artigo é destinado a avaliar o Generative Search Engine, mas os métodos nele contidos podem ser aplicados ao RAG. Em essência, o Generative Search Engine é um subconjunto do RAG, assim como um sistema RAG específico para dados de domínio.
O artigo menciona que um pré-requisito para um Generative Search Engine confiável é a verificabilidade. Todos nós sabemos que o LLM frequentemente delira e gera conteúdo que parece correto, mas na verdade está errado. Uma vantagem do RAG é fornecer referências ao modelo, reduzindo a probabilidade de delírios.
E a redução desse viés pode ser avaliada usando o indicador de verificabilidade. Um sistema RAG ideal deve ter: - Alta taxa de recuperação de citações, ou seja, todo o conteúdo gerado deve ser amplamente suportado por citações (conhecimento externo) - Alta precisão de citações, ou seja, se cada citação realmente suporta o conteúdo gerado
Na verdade, esses dois indicadores não podem atingir 100%. De acordo com os resultados experimentais no artigo, o conteúdo gerado pelo mecanismo de busca generativa existente frequentemente contém afirmações infundadas e citações imprecisas, com taxas de 51,5% e 74,5%, respectivamente. Em resumo, o conteúdo gerado não corresponde ao conhecimento externo.
A pesquisa avaliou 4 mecanismos de busca generativos principais: - Bing Chat - NeevaAI (adquirido pela Snowflake) - Perplexity - YouChat As questões avaliadas são de diferentes temas e áreas.
A avaliação foi realizada com base em 4 indicadores: 1. fluência, se o texto gerado é fluente e coerente 2. utilidade percebida, se o conteúdo gerado é útil 3. lembrança de citação, a proporção do conteúdo gerado que é totalmente suportado por citações 4. precisão de citação, a proporção de citações que suportam o conteúdo gerado