我惊喜地通过了OpenAI预览版的四个AI编码测试

   一般来说,软件公司在5月份发布一个重要的新版本后,不会在短短4个月内再推出另一个主要版本。然而,人工智能行业的创新速度却是非同寻常的...

  

一般来说,软件公司在5月份发布一个重要的新版本后,不会在短短4个月内再推出另一个主要版本。然而,人工智能行业的创新速度却是非同寻常的。

尽管OpenAI在5月中旬推出了全新的gpt - 40模型,但该公司依然忙碌不已。早在去年11月,路透社就曾报道OpenAI正在开发下一代语言模型,当时被称为Q*。今年5月,他们再次确认,正在以“草莓”(Strawberry)的代号进行Q*的开发。

实际上,“草莓”是一个名为“01 -preview”的模型,现在ChatGPT Plus的用户可以选择使用它。您可以从下拉菜单中选择模型:

如您所料,如果有新的ChatGPT模型可用,我会进行测试。这正是我在这里所做的。

新的“草莓”模型专注于推理,将提示和问题分解为多个步骤。OpenAI通过在每个答案前展示推理摘要来体现这种方法。

当01 -preview被问到问题时,它会进行思考,并显示思考所花费的时间。如果您切换下拉菜单,您会看到一些原因。以下是我进行编码测试的一个例子:

AI知道添加错误处理是个好主意,但我发现有趣的是,o1-preview将这一步归类为“法规遵从”。

我还发现01 -预览模型在代码之后提供了更多的说明。在我的第一次测试中,我创建了一个WordPress插件,该模型提供了标题、类结构、管理菜单、管理页面、逻辑、安全措施、兼容性、安装说明、操作说明,甚至测试数据的解释。这比之前的模型提供了更多的信息。

然而,真正的效果还需实践验证。让我们对这个新模型进行标准测试,看看它的表现如何。

1. 编写一个WordPress插件

这个简单的编码测试要求具备PHP编程语言和WordPress框架的知识。这个挑战要求AI编写界面代码和功能逻辑,而不是删除重复的条目,它必须将重复的条目分开,以确保它们不相邻。

01 -预览版表现出色。它首先以输入字段的形式呈现用户界面:

一旦输入数据并点击Randomize Lines,AI就会生成一个带有随机输出数据的输出字段。您可以看到Abigail Williams是如何被复制的,并且根据测试说明,两个条目没有并排列出:

在我对其他llm的测试中,10个模型中只有4个通过了这个测试。01 -预览模型完美地完成了这个测试。

2. 重写字符串函数

我们的第二个测试修复了一个字符串正则表达式,这是一个由用户报告的错误。最初的代码是用来测试输入的数字是否对美元和美分有效。不幸的是,代码只允许整数(所以允许5,但不允许5.25)。

01 -预览LLM成功地重写了代码。这个模型加入了我之前四次进入优胜者圈的LLM测试。

3. 寻找恼人的bug

这个测试是基于一个我难以解决的真实bug创建的。找出根本原因需要了解编程语言(在本例中是PHP)和WordPress API的细微差别。

提供的错误消息在技术上不准确。错误消息引用了我正在运行的调用序列的开始和结束,但错误与代码的中间部分有关。

并不是只有我一个人在努力解决这个问题。我测试的其他三个llm无法确定问题的根本原因,并推荐了更明显(但错误的)解决方案,即改变调用序列的开始和结束。

01 -预览模型提供了正确的解决方案。在它的解释中,该模型还指出了我错误使用的功能的WordPress API文档,提供了一个额外的资源来了解它为什么会提出这样的建议。这非常有帮助。

4. 编写一个s图书馆的

这一挑战要求AI整合三个独立编码领域的知识,即Applescript语言、Chrome DOM(网页的内部结构)和Keyboard Maestro(单个程序员的专业编程工具)。

回答这个问题需要理解这三种技术,以及它们是如何协同工作的。

再一次,01 -preview成功了,在其他10个llm中,只有3个解决了这个问题。

一个非常健谈的聊天机器人

用于01 -preview的新推理方法当然不会削弱ChatGPT在编程测试中获胜的能力。特别是,我最初的WordPress插件测试的输出,似乎比以前的版本更复杂。

ChatGPT在其工作开始时提供了推理步骤,并在最后提供了一些解释性数据,这很好。然而,解释可能显得有些冗长。我要求01 -preview用c#编写“Hello world”,c#是编程中最规范的测试行。gpt - 40是这样回应的:

这是o1-preview对相同测试的反应:

我想说,哇,对吧?这是来自ChatGPT的大量聊天内容。您也可以打开推理下拉菜单,获取更多信息:

所有这些信息都很棒,但有很多文本需要过滤。我更喜欢简洁的解释,从主要答案中删除下拉框中的附加信息选项。

然而,ChatGPT的01预览模型表现出色。我期待着它在与gpt - 40功能(如文件分析和网络访问)更充分地集成后的工作效果。

您试过用01 -preview编码吗?您的经历是什么?请在下面的评论中告诉我们。

您可以在社交媒体上关注我每天的项目更新。一定要订阅我的每周更新时事通讯,并在Twitter/X @DavidGewirtz, Facebook Facebook.com/DavidGewirtz, Instagram Instagram.com/DavidGewirtz和YouTube YouTube.com/DavidGewirtzTV上关注我。

本文来自作者[admin]投稿,不代表qnwor号立场,如若转载,请注明出处:https://m.qnwor.cn/cskp/202507-2534.html

(10)

文章推荐

  • 美国恢复对最大客户沙特阿拉伯的进攻性武器销售将增加收入

      美国决定解除对沙特阿拉伯出售进攻性武器的禁令,这一举措不仅使中东地区的一个重要安全伙伴重新回归,也使华盛顿的主要客户得以恢复。拜登政府本月推翻了持续三年的政策,该政策最初旨在对沙特在也门战争中的参与施加压力——考虑到美国现在也需要遏制胡塞武装,或许美国会对这一

    2025年06月13日
    9
  • 西尔莎·罗南和丈夫杰克·洛登以已婚夫妇的身份首次亮相红毯

      西尔莎·罗南与丈夫杰克·洛登首次以夫妻身份共同出现在红毯上。第76届黄金时段艾美奖于9月15日周日举行,这是他们自今年早些时候结婚以来的首次红毯亮相。两人身着协调的服装,30岁的罗南选择了一件深蓝色的路易威登礼服,并搭配了宝格丽珠宝。34岁的洛登则身穿与之相配

    2025年06月19日
    7
  • 特拉利足球的考试可以以后再做,这关乎生死存亡

      这是克里足球的较量,所有人都希望自己永远不必参与,但到今晚6点,NaGaeil或KerinsO'Rahillys将面临降级的危险,进入下赛季的中级联赛。去年此时,奥斯丁·斯塔克斯队在输给肯梅尔·三叶草队后降级,而落基山脉队在首次挑战后未能直接反弹,特拉利

    2025年06月21日
    6
  • 随着大胆的新细节浮出水面,欧盟就一系列标志性步骤爆发了巨大的争吵

    两个欧盟成员国之间就欧洲大陆最著名城市之一的一系列历史性举措爆发了一场大争吵。西班牙台阶与圣彼得大教堂和罗马斗兽场一起是罗马最珍贵的地标,1953年好莱坞偶像格里高利·派克和奥黛丽·赫本主演的电影《罗马假日》中,西班牙台阶在美国成名。但是,一份报告揭露通往三一教堂的楼

    2025年06月21日
    11
  • 法庭称,敌对团体之间的“杀人”仇恨导致儿童在操场上被枪杀

      在一次法庭审理中,闭路电视录像揭示了两个武装团体之间的“致命”争斗,一辆被盗的汽车向儿童游乐场开火,导致一名11岁女孩和一名15岁男孩受伤。陪审员被告知,这两名受害者在五一假期的下午于伍尔弗汉普顿谢利路的公园内被子弹击中腿部,枪击事件引发了一场“如同电影般”

    2025年06月23日
    7
  • 随着佛罗里达州准备大规模疏散,米尔顿的飓风强度上升到四级

    佛罗里达州劳德代尔堡-周一,米尔顿在向包括坦帕和奥兰多在内的佛罗里达州人口中心移动的途中迅速增强为四级飓风,可能会在坦帕湾引发危险的风暴潮,并为可能的大规模疏散做好准备。不到两周前,灾难性的飓风“海伦”席卷了佛罗里达州的海岸线。位于迈阿密的国家飓风中心表示,预计这场

    2025年06月30日
    8
  • 菲律宾马科斯开设第一家电动汽车电池厂

      在马尼拉,总统马科斯于周一为菲律宾首个电动汽车电池工厂举行揭幕仪式,称其为清洁能源的“未来”。这家由澳大利亚人投资的磷酸铁锂工厂计划到2030年每年生产20千兆瓦时的电池,能够为约1.8万辆电动汽车或近50万套家庭电池系统提供电力。

    2025年07月08日
    9
  • 飓风过后,墨西哥总统敦促保险公司尽快赔付

    路透墨西哥城8月10日电---墨西哥总统奥夫拉多尔周五敦促保险公司加快赔付速度,此前强飓风奥蒂斯对墨西哥阿卡普尔科的海滩度假胜地和周边贫困社区造成严重破坏。在周三登陆之前,风暴以意想不到的速度增强,成为墨西哥太平洋沿岸有史以来最强大的风暴。在阿

    2025年07月15日
    7
  • 以色列从加沙地下隧道救出一名人质

    耶路撒冷——(美联社)——周二,以色列从加沙地下隧道救出一名人质,释放了10月7日哈马斯袭击事件中被绑架的数十名人质中的一名。经过10个月的战争,这次救援给以色列人带来了难得的欢乐时刻,但也痛苦地提醒人们,数十名人质仍被囚禁,国际调停者正试图促成停火,让他们获释。

    2025年07月27日
    16
  • 专家分析大麻旅游及其对旅游业的影响

    到2030年,全球大麻旅游和旅游业有望成为4440亿美元的产业。根据国际大麻旅游协会(CTAI)最近的一份报告,截至2023年,与大麻相关的旅游已经扩大到571.8亿美元的业务。CTAI创始主席BrianApplegarth在最近的2024年国际大麻旅行和旅游状况报告中表示:“随

    2025年08月01日
    3

发表回复

本站作者后才能评论

评论列表(4条)

  • admin
    admin 2025年07月28日

    我是qnwor号的签约作者“admin”!

  • admin
    admin 2025年07月28日

    希望本篇文章《我惊喜地通过了OpenAI预览版的四个AI编码测试》能对你有所帮助!

  • admin
    admin 2025年07月28日

    本站[qnwor号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • admin
    admin 2025年07月28日

    本文概览:   一般来说,软件公司在5月份发布一个重要的新版本后,不会在短短4个月内再推出另一个主要版本。然而,人工智能行业的创新速度却是非同寻常的...

    联系我们

    邮件:qnwor号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们