Claude3 超越 GPT-4：AI浪潮中，谁将主宰未来？ | byT&R

😀

全文重点速览

🔍 **从零到一：**Anthropic成长史与创始团队说明书
📈 **Claude3模型测评：**性能、特点与竞争力分析
💥 **8大主流大模型测评方法对比：**解析测评方法与框架差异
🚀 **大模型未来展望：**Anthropic与行业竞争格局

01 “守护者联盟” Anthropic 公司说明书

公司背景

Anthropic是一家位于美国加州旧金山的人工智能公司，成立于2021年，主要专注于开发通用AI系统和语言模型，并秉持负责任的AI使用理念。公司以构建可靠、可解释和可控的AI为目标，致力于通过技术创新为行业带来新视角和解决方案。

核心产品

Anthropic的核心产品主要包括Claude系列模型，特别是Claude 3模型家族。Claude 3模型家族包括Claude 3 Haiku、Sonnet、Opus，这些模型支持超过100万个tokens的输入，并新增了多模态功能。

创始团队

创始人包括Dario Amodei（前OpenAI研究副总裁）和Daniela Amodei。团队成员有Jared Kaplan、Sam McCandlish、Tom Brown（GPT-3论文一作）等，多位成员曾参与GPT-2的研发。

战略合作与融资

2023年，Anthropic的估值增加了两倍，达到150亿美元。在过去一年里，共完成五笔融资，总融资额约73亿美元，投资方包括谷歌、Salesforce、亚马逊以及韩国SK Telecom等。其中，亚马逊向Anthropic投资高达 40亿美元、谷歌投资超过20亿美元，均持有Anthropic的少数股权。

营收与市场竞争

据The Information，OpenAI的年化收入在2023年底已突破16亿美元。2023年Anthropic月收入约为800万美元，预计今年将增长约8倍，预测2024年底其年化收入将超过5亿美元。随着Opus模型拉动其付费会员增长，Anthropic有望更快达成乃至超越其年化收入目标。

02 Claude 3 系列的命名浪漫

Claude3 系列的发布确实给人留下了深刻的印象。这个系列一口气发布了三款产品，每一款都有其独特的特点和功能。而这个系列的名字也颇具浪漫气息，仿佛暗示着这些AI产品不仅是科技的结晶，也富含了人性和情感的元素。这让人更期待它们在未来的表现和发展。

🌌 Haiku（俳句）

"Haiku"一词源自日本的短诗形式，通常包含三行，共十七个音节，分布在5-7-5的结构中。俳句以其简洁、含蓄和对自然美的深刻描绘而著名。将这一命名用于 Claude3 模型的产品，可能暗示该模型在生成简洁而富有意境的文本方面的专长，体现出对语言的极致简化与精炼之美，以及寻求在简短文字中捕捉深邃见解的能力。

📖 Sonnet（十四行诗）

"Sonnet"指的是十四行诗，这种形式起源于意大利，流传至英法等国家，成为表达爱情、自然的重要文学形式。十四行诗以其严格的结构、押韵模式和节奏感而闻名，经常被用来表达深邃的情感和复杂的思考。将"Sonnet"作为Claude3模型系列的名称，可能意味着这一模型在处理语言的结构性、节奏感和情感表达上具有特殊的能力，强调了艺术性和表现力的结合。

🎨 Opus（作品）

"Opus"是一个拉丁语词汇，意为“作品”，在音乐、文学和艺术领域广泛使用，用来指代创作者的作品，尤其是在音乐领域，常用来编号和分类作曲家的作品。将"Opus"用作Claude3模型系列的名称，可能象征着该模型是Anthropic公司创造力和技术成就的集大成之作。它可能代表着模型在生成具有创造性、复杂性和深度的内容方面的卓越能力，强调每一次输出都是独一无二、艺术性质的成果。

03 如何理解Claude 3 超过GPT-4的测评“神图”

⭐

先上结论
依据这张测评结果，以Claude3 Opus模型为例，与GPT-4相比，很多通用性文本、推理、跨领域知识理解能力上，并没有明显的差异。

但在Code、Math等能力上，有了显著的提升，MGSM多语言数据问题的测评中，Claude3 Opus 0-shot获得了90.7%的正确率，较GPT-4 8-shot获得的74.5%的正确率有大幅提升。

这也意味上在Claude3系列模型，在一些专业领域如金融、医疗等领域的使用场景中可能获得更好的模型效果。

我们应该如何理解这些大模型的测试呢？

大模型测试的主要方法论主要包括自动评估和人工评估两大类。自动评估方法通过自动计算来迅速得到评估结果，尤其适用于大量数据的情况。而人工评估则是基于人类专家的判断，这种方法虽然速度较慢，但能够提供更高的准确性。

MMLU、GPQA、MATH、MGSM、HumanEval、DROP、F1 Score、BIG-Bench-Hard、ARC-Challenge、HellaSwag等测试项目，都是针对大模型在特定领域的能力进行的测评。

例如，MMLU是一个包含57个多选问答任务的英文评测数据集，涵盖了初等数学、美国历史等多个领域。GSM8K是由OpenAI发布的大模型数学推理能力评测基准，包含8.5K高质量的语言多样化的小学数学单词问题。这些测试项目的广泛度体现在它们覆盖了从数学推理到语言理解等多个NLP任务的能力评估上。

测评目的在于量化大模型在特定任务或特定维度的能力，以便模型之间的比较和选择。通过这些测试，可以帮助大模型研发人员了解不同技术路线和技术方法的实效性，从而把握当下的发展水平和与国外顶尖技术的差距。

测评流程通常包括数据收集、模型训练、自动评估或人工评估、结果分析等步骤。在测试过程中，可能还会涉及到一些创新方法，如自适应动态测试方法，以全面提升大模型基准测试的质量。

主流的大模型测试方法

1. MMLU (Massive Multitask Language Understanding)

MMLU 是一个旨在评估模型跨领域知识理解和推理能力的测试，覆盖了400多个不同学科的多项选择题，从而形成了一个广泛而深入的评测框架。这一测试借助于超过10000个问题来评估模型在从文学、历史到高级科学等多个领域内的表现。

每个问题旨在测试特定领域的深入知识，因此，这不仅要求模型具备广泛的知识，还要求其具备深入解析和应用这些知识的能力。通过细致的评分机制，MMLU 能够揭示模型在理解和推理多样化、专业化内容上的细微差别，为比较不同模型提供了一个复杂而全面的基准。

📑 Exploring and Predicting Transferability across NLP Tasks[1]

2. GPQA (General Purpose Question Answering)

GPQA 测试框架设计用来全面评估模型在处理各种类型问题上的能力，这包括开放式问题、选择题和逻辑推理题等，从而确保测试覆盖从常识到专业知识的广泛范围。这种评测方法利用成千上万的问题集，涉及自然语言处理、常识推理、数据解析等多个方面，要求模型不仅能理解问题本身，还能从给定的信息中提取和推理出正确的答案。此外，GPQA 通过多层次评分系统对模型的回答进行评估，考察其精确度、逻辑性和一致性，提供了对模型在广泛问题解答方面能力的深入理解。

3. MATH

MATH 是专门设计来评估和比较不同模型在解决各类数学问题上的能力的测试。这一评测覆盖从基础的算术到更复杂的高等数学问题，包含数千个问题实例，每个问题都旨在考察模型在特定数学领域的解题策略和能力。此测试不仅评估模型给出正确答案的能力，而且还考察其推理过程和解题方法的正确性和效率。通过对不同难度级别和领域的全面覆盖，MATH 测试提供了对模型数学认知和逻辑应用能力的深入洞察，是衡量AI在数学领域应用潜力的关键基准。

📑 Measuring Mathematical Problem Solving With the MATH Dataset[2]

4. HumanEval

HumanEval 旨在评估模型在编程和代码理解方面的能力，特别关注其解决实际编程问题的实用性。通过提供数百个编程问题，涵盖不同的难度级别和编程概念，HumanEval 测试旨在模拟现实世界的编程挑战，要求模型不仅能生成有效的代码，还能对给定问题进行逻辑推理和解决方案优化。这个测试通过详尽的测试用例和评分标准，对模型的代码生成、问题理解和创新解决方案能力进行综合评估，提供了对模型在软件开发领域潜力的深入理解。

5. DROP (Discrete Reasoning Over the content of Paragraphs)

DROP 测试旨在评估模型在理解和推理复杂文本内容上的能力，特别是在进行数字推理、引用跟踪、事件排序等复杂任务时。这个评测利用了一个涵盖广泛话题的数据集，包含数千个问题，要求模型理解文本中的详细信息并进行复杂的推理。

📑 DROP: A Reading Comprehension Benchmark Requiring Discrete...[3]

6. BIG-bench Hard

BIG-bench Hard 关注于测试模型在特定的、通常更困难的任务上的表现，包括词汇推理、数学推理、常识判断等。该测试旨在挑战模型的极限，检验其在高难度问题上的应对策略。多个研究机构和个人共同参与创建。

7. ARC-Challenge (AI2 Reasoning Challenge)

ARC-Challenge 专注于评估模型在理解科学文本和回答与之相关的问题上的能力，这些问题涉及物理、生物等多个领域，要求模型具备良好的理解和推理能力。

📑 Think you have Solved Question Answering? Try ARC, the AI2...[4]

8.HellaSwag

HellaSwag 是一个旨在测试模型在理解日常、通俗文本（如故事、维基百科文章）并预测其下文的测评方法。通过对模型在非常自然的语境下进行测试，HellaSwag 挑战模型理解和生成连贯、合理、文体一致的文本的能力。

用一张图总结一下主流大模型测评方法

| 测评方法 | 评测目标 | 方法论 | 创造者 | | -------------- | ------------------- | ------------- | ----------------------- | | MMLU | 跨领域知识理解 | 多项选择题 | Hendrycks et al. (FAIR) | | GPQA | 广泛问题解答 | 综合问题回答 | 多个团队 | | MATH | 数学问题解答 | 数学题集 | Dan Hendrycks et al. | | HumanEval | 编程问题解答 | 编程任务 | OpenAI | | DROP | 文本内容推理 | 复杂问题回答 | Allen Institute for AI | | BIG-bench-Hard | 语言模型挑战 | 多样化测试 | Google Research | | ARC-Challenge | 科学推理能力 | 科学问题回答 | Allen Institute for AI | | HellaSwag | 语言理解挑战 | 完成句子/段落 | Allen Institute for AI | | GSM8K | 解决小学水平数据问题 | 数据集多问题测试 | OpenAI | | MGSM | 不同语言背景下的数学问题能力进行的评估 | 大量用不同语言编写的数学题 | |

04 Claude Sonnet vs ChatGPT4 测评

Anthropic发布 Claude 3 模型系列，这一系列模型在众多认知任务上重新定义了行业标准。系列包含三款顶尖模型，分别是：Claude 3 Haiku、Claude 3 Sonnet 与 Claude 3 Opus，它们按能力递增排序。目前在POE上可以使用Claude 3 Sonnet。

我们从以下几个维度进行了测试：

代码复现能力
LinkedIn文案能力
识图分析能力
复杂prompt理解输出能力

代码复现能力

先尝试了复现OpenAI GPTs的页面，但是被礼貌的拒绝了，Sonnet只愿意给我讲解一下他们UI设计原则和经验。

后来我换了一个Midjourney的页面，它就开始勤劳的写代码了。

如果从0-10打分的话，勉强是3分吧。网页主体框架包括导航、卡片布局和Footer等，还贴心的给我用了占位图片。

但是对比网站，发现缺失的元素还很多：

1、顶部导航元素不对

2、左边导航整体消失了

3、卡片增加了创作者名字和两个按钮（虽然按钮还给加了click样式，但还是要扣分）

4、卡片瀑布流的样式也没有复原。

后来担心是Midjourney它没有账号不能登陆导致的。于是我又尝试了下Medium。

左边是生成出来的代码页面，这个绿色我没有想通，它是看到哪里提取出来的主题色。还有这个slogan是怎么总结出来的，但我还挺喜欢的Stay Curious。

我让GPT4同样做了这2个案例，它的复原能力比Claude 3 Sonnet还是差了一些。这个环节Claude 3 Sonnet得一分。

总结一下

目前代码复原UI能力Claude 3 Sonnet的理解度、元素完整度、复杂程度是比GPT4要好不少，Sonnet是六年级，GPT4是三年级。

这次我是用Poe测试的，Poe里面的Sonnet还不能传图片，只能传PDF文件，所以我发的网站链接。不知道会不会影响Sonnet发挥。

LinkedIn文案能力

今天Anthropic 官网官宣Claude 3 以后，我让Sonnet基于官网文章，写一篇LinkedIn帖子。同样，我也让GPT4 做了。

从对比结果来看，GPT4输出的文字更长，内容也更深入一些。但是整体相差不大。两者基本打平。

识图分析能力

我自己更喜欢GPT4的结果，给出的图片上内容比较偏向于详细陈述事实，包含注释和背景图都提到了。

如果我是一个盲人，听GPT4的文字更能想象出这幅可视化图表。Claude 3 Sonnet给出了更多它看到的结论、以及评价这个可视化的展现形式。

| Claude 3 Sonnet | GPT4 | | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | | 这幅图形象地展示了12个不同国家中最具价值的品牌。这些品牌通过展示自身标志的圆形图标来表示，旁边还标有它们的品牌价值，单位是美元。图中心是苹果，以令人震撼的5170亿美元的品牌价值位列全球之首，其图标在视觉上突出显示，彰显了其作为世界价值最高品牌的地位。围绕着苹果，是来自不同国家和行业的其他知名品牌。特别引人注目的有韩国的三星（990亿美元）、法国的路易威登（320亿美元）、瑞士的雀巢（210亿美元）、中国的抖音（840亿美元）、德国的德国电信（730亿美元）以及日本的丰田（530亿美元）。这些品牌散落排列，每个图标中都嵌入了相应国家的旗帜，便于辨认各品牌的起源地。这幅图有效地展示了全球不同国家和领域主要品牌的价值及其相对地位。 | 这张名为“12个国家最具价值品牌”的信息图展示了一系列跨国公司的标志，旁边附有表示各自品牌价值的数字，单位为十亿美元。这里列出了这些品牌及其对应的品牌价值，按它们所属的国家划分：- 苹果（美国）- $5170亿- 三星（韩国）- $990亿- 抖音（中国）- $480亿 - 丰田（日本）- $530亿- 德国电信（德国）- $730亿- 壳牌（英国）- $500亿- 沙特阿美（沙特阿拉伯）- $420亿- 塔塔集团（印度）- $290亿- 路易威登（法国）- $320亿- 雀巢（瑞士）- $210亿- 加拿大道明银行（加拿大）- $190亿- 埃森哲（爱尔兰）- $410亿该信息图还特别提到，过去一年内，苹果的品牌价值增长了74%，再次成为世界上最有价值的品牌。图表下方的说明明确表示，所展示的是公司品牌的估算价值，这与市场价值等其他评估方法不同，数据来源是品牌金融。各国通过在各自品牌旁边或附近放置国旗来标识。整个图表背景采用了一张深色的世界地图。 |

复杂Prompt理解输出能力

我用了一段规则非常复杂的Prompt，Prompt包含1900字，目标是让他们通过学习Claude 3官网介绍文章，制定一个详细的Claude 3品牌全案Campaign，包含一个12个月的路线图Roadmap，以及对应的月度计划，不同Campaign动作的考核维度。

从结果来看，GPT4输出了633个字，Sonnet输出624个字，内容长度差不多。

然后我又把这两个答案，一起扔给他们，让他们进行了打分。GPT4在两边都以1分的优势获胜。打分过程中，GPT4也更有逻辑，并且还给出了评分标准和细项分。

| Claude 3 Sonnet | GPT4 | | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | | A同学的市场营销策略方案得分: 7/10 **优点:**1. 对目标受众进行了细分,并针对不同行业和使用场景量身定制了营销信息。2.采用了多渠道营销策略,包括线上和线下,覆盖面广。3.制定了明确的时间表和关键绩效指标,有利于跟踪和优化营销效果。4.强调内容营销和与行业意见领袖的合作,可以增加品牌影响力。**缺点:**1. 缺乏对核心受众的深入分析,例如他们的需求、痛点和决策过程等。2. 线上营销重心过于集中在网站和邮件营销,忽视了其他潜在的线上渠道。3. 营销策略缺乏与企业整体品牌定位的联系。4. 缺少差异化营销策略,与竞争对手的区隔不够明确。B同学的市场营销策略方案得分: 8/10 优点:1. 对目标受众的分析更加全面,重点关注技术专业人士和创新企业的需求。2. 营销信息突出了Claude 3的技术优势和创新性,符合目标受众的期望。3.渠道策略覆盖面广,线上线下结合,注重与合作伙伴的协同营销。4. 内容营销策略贯穿始终,体现了与目标受众的深度互动和影响力培育。5. 制定了阶段性目标和明确的绩效指标,有利于策略优化和改进。缺点: 1. 对于其他潜在的线下渠道,如活动赞助和线下体验活动等,考虑不足。2. 缺乏与企业整体品牌形象的融合,营销主题稍显单一。3. 针对不同行业的细分策略可以更加详细和具体。总体而言,B同学的营销策略方案在受众分析、定位、渠道选择和内容营销策略等方面做得更好,但A同学的方案在行业细分、时间规划和合作伙伴选择等环节也有一些值得借鉴的地方。两个方案结合后,可以更有针对性地吸引和服务技术人才和创新企业。 | 对A同学和B同学的市场营销方案进行评分和分析时，我们需要考虑几个关键要素：策略的全面性、目标市场的精确性、渠道策略的创新性和执行的实用性。以下是根据这些标准的评分和分析：A同学的方案评分标准全面性：9/10目标市场精确性：8/10渠道策略创新性：7/10执行实用性：8/10优点全面性强：A同学的策略覆盖了从数字营销到传统广告的多个渠道，显示出对市场的全面考虑。目标市场细分：他们强调根据具体用例和行业垂直来细分市场，这有助于更精确地达到目标客户。结合线下活动：通过参加行业会议和贸易展览，他们计划利用面对面的互动来增强客户体验和产品展示。缺点 - 渠道创新性不足：尽管提出了多渠道策略，但缺少对新兴或非传统营销渠道的利用执行细节不够明确：策略中缺少对某些渠道如何具体实现这些计划的详细描述。B同学的方案评分标准全面性：8/10 目标市场精确性：9/10渠道策略创新性：8/10执行实用性：9/10 优点精确的目标市场：B同学在确定目标人群方面非常具体，强调了技术专业人员和业界研究者，这有助于创建更有针对性的营销内容。执行的实用性：B同学的方案具有较高的实用性，提供了明确的时间线和KPIs来衡量成功，这有助于策略的实际执行和评估。渠道策略创新性：通过利用B2B合作和专业技术论坛，B同学展示了对利用行业特定渠道的创新思维。缺点全面性稍微不足：虽然B同学的策略在多个方面都很强大，但在将传统广告与数字策略结合的全面性方面略显不足。线下活动覆盖度：与A同学相比，B同学在策略中对线下活动的利用和覆盖度较少。总结两位同学的方案都展示了对市场营销策略的深入理解，各有优势。A同学的方案在全面性和市场细分上表现较好，但在渠道创新上略显不足；而B同学的方案在目标市场精确性和执行实用性方面优势明显，但在全面性和线下活动的利用上有所不足。综合考虑，B同学的方案稍微领先，因为它在目标市场的精确定位和策略执行的实用性方面表现出更强的优势。然而，A同学的方案在提供一个全面和细分市场策略方面也非常强大。最终的成功将取决于这些策略如何根据反馈进行调整和优化。 |

我们后面会实测更多案例，如果你感兴趣可以在微信号回复”X” ，持续追踪。

05 继续卷么？再度点燃对GPT-5的期待

在科技的世界里，每一次革新都带来了未知的可能性和新的探索。近期，Claude3系列模型的问世无疑点燃了大模型领域竞争的新火花，让人们对于AI领域的顶峰之争再次充满期待。

Claude3一些显著的feature也激发了我们对于他进一步商业化探索的好奇。我们始终坚信，科技进步的道路上不应该只有寡头的身影。自从OpenAI以其独特魅力跻身AI界的焦点后，众多事件不断将其推上舆论的风口浪尖，近期最为瞩目的莫过于最近的马斯克诉讼事件，进一步激发了外界对这个领域的关注。

我们热切期望人工通用智能（AGI）的到来，并希望见证AI在安全性上的创新为社会带来更多利好，构建一个更加美好的未来。

同时，更多优秀的竞争对手秀出肌肉，也让更加期待GPT-4.5、GPT-5的发布，继续关注大模型技术的发展与突破，以及这个领域内竞争格局的多元化和演变。未来的AI世界，应当是充满多元声音和创新思维的热土，每一个进步都值得我们用心观察和深入探讨。

封面图Prompt

minimalistic, a man is thinking hard in a field, flower, green farm, free flowing, stylized digital illustration, with a grain texture, on light green color background --ar 16:9 --style raw

By AI助理Midjourney

参考资料

[1]

Exploring and Predicting Transferability across NLP Tasks: https://arxiv.org/abs/2005.00770

[2]

Measuring Mathematical Problem Solving With the MATH Dataset: https://arxiv.org/abs/2103.03874

[3]

DROP: A Reading Comprehension Benchmark Requiring Discrete...: https://arxiv.org/abs/1903.00161

[4]

Think you have Solved Question Answering? Try ARC, the AI2...: https://arxiv.org/abs/1803.05457

💡

对这个话题感兴趣的小伙伴

欢迎加入我们一起探索交流

在AI与前沿科技不断涌现的新世界

我们一路探索同行

🤖 ❤️ ✨