OpenAI o1模型在推理模型在物理、化学、生物和编程数学等方面表现接近博士生水平,能解决国际数学奥赛测试83%问题,编程能力超89%其他模型。
OpenAI 于 2024 年 9 月 12 日晚间正式对外发布了一款名为 o1 的新模型(o1-preview 和 o1-mini)。该模型最初的代号为“Q*”,也曾被传为“Strawberry”。在训练 o1 模型中,OpenAI 使用了一种称为强化学习(reinforcement learning)的技术,让模型自行解决问题,通过奖励和惩罚来教导系统。随后 o1 采用“思维链”来处理查询,类似于人类通过逐步推理来解决问题的方式。
OpenAI o1 模型特点
o1 模型具有以下显著特点:
- 强大的推理能力:在解决复杂问题方面表现出色,尤其在科学、编程和数学领域。例如,在 2024 年的 AIME 数学考试中,GPT-4o 平均只解决了 12%的题目,而 o1 模型单次测试的平均解题率达到了 74%,如果算上 64 次测试的平均得分,能达到 83%;重新从 1000 个样本中排名,平均得分甚至可以达到 93%。
- 模仿人类慢思考:o1 模型在回答前会反复思考、拆解、理解和推理,然后给出最终答案,具有人类慢思考特质。
- 版本差异:分为 o1-preview 和 o1-mini 两个版本。o1 mini 版在速度、体积和成本方面做了优化,适合处理数学、编程推理等需要快速处理的任务;o1-preview 版则更擅长解决复杂的问题,推理能力更强。
OpenAI o1 应用场景
o1 模型具有广泛的应用场景:
- 科学研究:医疗研究人员可以用 o1 来标注细胞测序数据。
- 物理学:物理学家可以用它生成量子光学所需的复杂数学公式。
- 软件开发:各个领域的开发人员可以用 o1 来构建和执行多步骤工作流。
- 数学领域:帮助解决复杂的数学问题和竞赛题目。 然而,o1 模型在日常生活中的应用相对欠缺灵活性,例如在处理消费电子产品优惠计算等实际生活问题时表现不够理想。
OpenAI o1 发布的影响
OpenAI 新模型 o1 的发布具有重大意义:
- 行业突破:标志着人工智能在复杂推理任务上的重要进展,代表了人工智能能力的新水平。
- 推动发展:为人工智能行业的发展注入了强大动力,可能促使其他公司加大研发投入,推动技术进步。
- 应用拓展:使得 o1 在医疗、物理、数学等领域的应用更加广泛和深入,为相关领域的研究和工作带来便利。
- 引发思考:让人们对人工智能的未来发展有了更多的期待和思考,例如模型的思考时长和未来可能达到的成就。
与 GPT-4o 相比,o1-preview 在需要大量推理的任务上,如数据分析、编程和数学问题,表现更优,推理能力更强、更高效。但在自然语言处理任务上,o1-preview 的表现不如 GPT-4o,因为其训练重点在推理和解决问题的策略上,而不是在语言的流畅度或文本生成的多样性上。
如何使用 OpenAI o1
由于 OpenAI o1 模型不对免费用户开放,加上国内用户开通 ChatGPT Plus 订阅限制国内信用卡渠道,所以需要借助WildCard 虚拟卡来开通 ChatGPT Plus 才能使用,同样如果想要使用 OpenAI API 接口调用,也需要结果虚拟卡进行充值才能使用,同时还需要 API 消费等级达到 5 才行,所以普通用户最简单的就是直接开通 ChatGPT Plus 就能用上最新的 OpenAI o1 大数据模型。
WildCard 虚拟卡官网:leixue.com/go/wildcard (通过链接或邀请码“LEIXUE”有开卡优惠)