Anthropic affirme que son dernier bot d'IA peut battre Gemini et ChatGPT

Anthropic, la société d'IA fondée par plusieurs anciens employés d'OpenAI, affirme que la nouvelle famille de modèles d'IA Claude 3 fonctionne aussi bien, voire mieux, que les modèles phares de Google et OpenAI. Contrairement aux versions précédentes, Claude 3 est également multimodal, capable de comprendre à la fois du texte et des images.

Anthropic affirme que Claude 3 répondra à davantage de questions, comprendra des instructions plus longues et sera plus précis. Claude 3 peut comprendre un contexte plus large, ce qui signifie qu'il peut traiter plus d'informations. Il existe Claude 3 Haiku, Claude 3 Sonnet et Claude 3 Opus, Opus étant le modèle le plus grand et le plus intelligent. Anthropic indique qu'Opus et Sonnet sont désormais disponibles sur claude.ai et son API. Haiku sera bientôt disponible. Les trois modèles peuvent être déployés sur des chatbots, des fonctions d'auto-complétion et des tâches d'extraction de données.

Les versions précédentes de Claude refusaient de répondre à certaines invitations inoffensives, ce que l'entreprise qualifie de "manque de compréhension contextuelle". Les nouveaux modèles sont moins susceptibles de refuser de répondre aux invitations qui flirtent avec les limites de ses garde-fous de sécurité, à l'instar des rumeurs concernant les projets de Meta pour Llama 3 lors de sa sortie.

Bar chart showing a significantly lower rate of “refused on harmless prompt” responses by Claude 3 AI models (near or below 10 percent), compared to Claude 2.1 (around 25 percent).

Refus incorrect sur Claude 3 par rapport à Claude 2.1.

Image : Anthropic

Les affirmations anthropiques de Claude 3 indiquent que les modèles peuvent donner des résultats quasi instantanés même lors de l'analyse de matériel dense comme un article de recherche. Un article de blog affirme que Haiku, la plus petite version de Claude 3, est "le modèle le plus rapide et le plus rentable sur le marché", capable de lire un article de recherche dense avec des graphiques et des tableaux "en moins de trois secondes".

Anthropic affirme qu'Opus a surpassé la plupart des modèles lors de plusieurs tests de référence. Il a montré une meilleure capacité de raisonnement de niveau supérieur que le GPT-4 d'OpenAI, obtenant 50,4 pour cent dans ce test contre 35,7 pour cent pour le GPT-4. Il a également répondu à des questions de mathématiques, codé et compris le raisonnement de manière plus efficace.

A list of benchmark scores comparing AI models from Anthropic, OpenAI, and Google, showing Claude 3 (Opus) as the highest scoring model on all of the tests listed.

Claude 3 modèles comparés à GPT-4, GPT-3.5 et Gemini 1.0 Ultra / Pro.

Image : Anthropique

Les nouveaux modèles s'améliorent également considérablement par rapport au modèle précédent Claude 2.1. Sonnet, le modèle intermédiaire, était deux fois plus rapide que Claude 2 et Claude 2.1. "Il excelle dans les tâches exigeant des réponses rapides, comme la récupération de connaissances ou l'automatisation des ventes," a déclaré Anthropic.

Anthropic a formé les modèles Claude 3 sur un mélange de données internes non publiques et de tiers, ainsi que sur des données disponibles publiquement jusqu'en août 2023. La société indique dans un document présentant les trois modèles qu'ils ont été formés à l'aide de matériel provenant d'Amazon AWS et de Google Cloud. Les deux entreprises ont investi dans Anthropic, avec Amazon injectant 4 milliards de dollars dans la société. Claude 3 sera disponible dans la bibliothèque de modèles Bedrock d'AWS et dans Google Vertex AI.

Vidéos en vedette de The Verge

Anthropic affirme que son dernier bot d'IA peut battre Gemini et ChatGPT

Audition TikTok