如何判断你使用的是不是真o1模型

近期，在社交媒体上预热了数月，并以“草莓计划”代号隐秘操作后，OpenAI终于发布了备受期待的新语言模型——它被命名为“o1”。OpenAI官方称『这并非简单的版本迭代，而是能力的飞跃』。官方解释， “o1”代表着人工智能能力的新高度，其在复杂推理任务上的显著进步，足以让版本号重置归一。

“o1”系列目前有两个版本：o1-mini和o1-preview。o1-preview是即将推出的旗舰模型的预览版，它在AI推理领域实现了突破性进展。o1-mini则更注重速度和经济性，尤其擅长编程任务。虽然体积更小，成本降低了80%，但o1-mini依然保留了强大的推理能力。

OpenAI强调“o1”系列模型经由强化学习训练，能够处理复杂的推理任务。但对于大型语言模型来说，“推理能力”究竟意味着什么？

“o1”的推理机制类似于人类解决难题时的深思熟虑。它采用“思维链”的方式，尝试解决问题，并学会了识别和纠正自身错误。它能够将复杂任务分解成更小的、更容易处理的步骤。如果当前策略无效，它会灵活地转换思路，尝试其他方法。这使得o1模型在解决复杂问题时，能够提供比以往模型更优质、更符合逻辑的答案，即使响应速度并非其最主要的优势。

虽然o1已经发布有两个月了，但对于国内用户目前使用o1模型的门槛依然很高，有三种手段可以使用o1：

1、稳定的科学上网，并且通过一些列复杂手段充值199的会员，对于普通用户有较高的使用门槛，OpenAI对国内的网络要求越来越高，不稳定的ip很容易被批量封号。

2、API调用，此方法适用于有一定编程经验的同学，可以通过代理或者科学上网的方式，配合一些开源的套壳使用o1模型。这里最大的问题是成本，目前o1的价格输入每百万token要收费15美元，输出每百万收费60美元。相比之下，GPT-4o的百万token输入收费只有5美元，输出为15美元。日常随便用用就大几十美元出去了。

3、国内转发平台，此类平台为用户提供免科学的使用方式，门槛较低，但此类产品层次不齐，存在fake o1的情况，用其他模型冒充o1，由于很多用户不知道o1模型的擅长领域，往往无法识别真假o1，按照openai官方的表述，o1在涉及数学、编程和科学问题的复杂推理基准测试中，大幅超越了GPT-4o，但在知识储备上略低于GPT-4o。也就是说，我们需要在复杂推理、编程上去使用o1是更合的。

在这里推荐一个一站式AI聚合平台，支持o1、GPT4o、Claude等模型：访问入口

那如何鉴别真假o1模型呢，随着大模型的不断进化，传统的评估标准已经逐渐变得陈旧和不再适用。以经典的“喝水测试”为例（三人三天三桶水，九人九天几桶水），过去广泛应用于检测模型能力，但现如今即便是国内的一些先进模型，也能够轻松答对这些简单的问题。因此，我们亟需引入更为复杂的测试题目来全面考察模型的能力。这里笔者提供一道智力题，可以筛选掉90%的国内外大模型，无需担心造价：

A和B都是张老师的学生。张老师的生日是M月N日（M.N）。两人都知道老师的生日是下列10组中的一天。（3.4，3.5，3.8，6.4，6.7，9.1，9.5，12.1，12.2，12.8）。张老师把M值告诉了A，把N值告诉了B。张老师问他们知道他的生日是哪天吗？ A说：如果我不知道的话，B肯定也不知道。 B说：本来我也不知道，但是现在知道了。 A说：哦，那我也知道了。张老师的生日是?（正确答案是：9.1）

我们看看一些先进模型，在这道题上的表现