Estudo mostra que IA focada em Direito é mais precisa do que sistemas generalistas

Marina Marinho, Doutora em Direito pela UFMG, pesquisadora de pós-doutorado em Ciências da Computação com foco em IA Generativa aplicada ao Direito

Pesquisa do Jusbrasil com 48 advogados mostra que sistemas generalistas apresentaram 43% mais erros jurídicos do que modelo especializado;  casos de alucinações já resultaram em multas e sanções no Brasil.

Enquanto advogados brasileiros adotam cada vez mais ferramentas de Inteligência Artificial Generativa para tarefas do dia a dia – da pesquisa jurisprudencial à elaboração de petições –, um estudo conduzido pelo Jusbrasil, plataforma jurídica brasileira, revela que a qualidade das respostas varia drasticamente entre sistemas e que o risco de alucinações jurídicas é real e documentado.

O estudo, realizado em setembro com 48 advogados de todas as regiões do país, comparou quatro sistemas de IA em tarefas práticas da advocacia. O resultado: sistemas generalistas inventaram jurisprudência ou citaram fontes erradas em 43% mais casos que uma IA especializada em Direito brasileiro. A diferença não é apenas estatística. É qualitativa, afetando diretamente a confiabilidade do trabalho jurídico.

O fenômeno das alucinações jurídicas – que ocorrem quando a IA inventa precedentes, distorce legislação ou cria referências inexistentes – chegou aos tribunais. Em 2025, instituições já registraram casos de advogados multados e encaminhados à OAB por apresentar petições com jurisprudência falsa gerada por IA.

Em julho, a 2ª Vara Federal de Londrina aplicou multa de 20 salários mínimos a um advogado que usou artigos de lei inexistentes e precedentes inventados. Em fevereiro, o Tribunal de Justiça de Santa Catarina multou outro profissional por jurisprudência fictícia gerada pelo ChatGPT.

“Mais do que comparar ferramentas, queremos provocar uma discussão sobre a responsabilidade no uso da IA no Direito. Quando a tecnologia erra, quem sofre as consequências é a sociedade”, adverte Marina Marinho, Doutora em Direito pela UFMG, pesquisadora de pós-doutorado em Ciências da Computação com foco em IA Generativa aplicada ao Direito e uma das autoras do estudo. Ela participou de projetos pioneiros como a ferramenta marIA, do STF.

Práticas de pesquisa comparativa

O estudo seguiu práticas acadêmicas de pesquisa comparativa. Foram criados 15 casos práticos, distribuídos em cinco tarefas comuns da advocacia: análise de documentos, compreensão de conceitos jurídicos, pesquisa de precedentes, geração de peças e análise de panorama jurisprudencial.

Cada caso foi submetido a quatro sistemas de IA – um especializado em Direito brasileiro (Jus IA) e três soluções generalistas de alcance global – com pedidos idênticos e neutros. As respostas foram anonimizadas, randomizadas e avaliadas às cegas por 48 advogados de diferentes regiões, níveis de experiência e áreas de especialização. Ninguém sabia que estava analisando respostas de IAs.

Os avaliadores aplicaram quatro critérios: corretude jurídica e fática (fundamentos e conclusões corretos); confiabilidade (fontes citadas são reais e sustentam as afirmações); completude (resposta aborda integralmente as solicitações); e fluidez da linguagem (clareza e naturalidade do texto).

O perfil dos participantes reforça a credibilidade do estudo: 95,83% possuem mais de quatro anos de prática jurídica, 89,58% têm especialização (pós-graduação, mestrado ou doutorado) e representam todas as grandes áreas do Direito.

O Jus IA performou melhor em 70% dos casos avaliados, com 79% mais estabilidade nos resultados. Mas o ponto mais crítico foi a confiabilidade das fontes citadas. O sistema especializado manteve 83% de taxa de confiabilidade. Os sistemas generalistas oscilaram entre 20% e 55%, dependendo da tarefa.

Em “Pesquisar precedentes ou casos similares”, a diferença foi enorme: o Jus IA alcançou 93% de corretude e 96% de confiabilidade. Um dos sistemas generalistas ficou em 25% e 9%, respectivamente. Na tarefa “Entender panorama jurisprudencial”, os generalistas também tiveram desempenho fraco, com a corretude variando entre 9% e 35%. O Jus IA registrou 81%.

Afirmações imprecisas

Avaliadores relataram que os sistemas generalistas trouxeram “afirmações imprecisas, não condizentes com as informações fornecidas pelo usuário e nem com a legislação vigente”, além de “argumentos jurídicos já superados pela jurisprudência”.

“IAs generalistas se perdem na especialização técnica do Direito brasileiro. Inventam precedentes, citam leis erradas, produzem argumentos juridicamente frágeis”, explica Marina Marinho.

Segundo ela, sistemas treinados com base normativa e jurisprudencial nacional mantêm estabilidade, mas também têm limitações: “Principalmente na fluidez da escrita, onde sistemas generalistas levam vantagem. Nosso monitoramento vem sinalizando esse aspecto e estamos analisando como endereçar da melhor forma”.

Houve a decisão metodológica de atribuir peso maior aos critérios de corretude e confiabilidade, que têm fundamento acadêmico e prático, refletindo a hierarquia de importância no exercício da advocacia.

O estudo foi conduzido pelo Jusbrasil, reconhecido em 2024 como a empresa brasileira mais promissora no uso de IA Generativa pelo ranking global da StarBlink. A organização atua há 17 anos na especialização de informações jurídicas e tecnologia aplicada à advocacia.

Os resultados e gráficos comparativos do estudo estão disponíveis para acesso público no blog Justech. O Jusbrasil planeja ampliar o levantamento em número de casos, avaliadores e inclusão de outras ferramentas de IA.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *