[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]-科技快讯中文网

2025

02-25

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

科技资讯

jinting

围观4068次

0条评论

发布日期：2025年02月25日 20:26:20

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

挑战认知边界：Claude 3.7以14000行代码震撼登场，重新定义AI智商极限！

　　 Claude 3.7新鲜出炉全网热议，到底有多强？

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

　　首批实测结果出炉！简明扼要地说，它在编写程序和处理实际任务方面表现出色，能力超群。

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

　　仅凭一个样本，就能迅速生成3200多行代码，从而开发出一款极具可玩性的游戏。

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

　　像什么跳跃、打怪、恢复生命值、收集金币……各种复杂的游戏机制都得到了完美的展现。

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

　　有意思的是，这款游戏与MetaQuest中的VR游戏《霓虹奥德赛（Neon Odyssey）》同名。

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

　　最近有报道指出，有人仅用三个提示，便成功运用C语言模拟了真实物理情景下的流体运动。这一成就不仅展示了编程与物理学的完美结合，也让人不禁思考教育体系中如何更好地融合这些学科知识。这种创新的方法或许能够激发更多人对科学的兴趣，特别是在编程和物理学领域，这无疑为未来的科学研究开辟了新的道路。通过这样的技术手段，我们或许能更深入地理解自然界中的复杂现象，从而推动相关领域的进一步发展。

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

　　实测发现，作为一个观察者，我发现Claude3.7Sonnet在处理逻辑问题时展现出了非凡的能力，甚至能够迅速理解一些看似简单的网络梗。这不仅体现了其强大的分析能力，也反映了当前人工智能技术的进步。对于新闻中的现象，我认为这表明了现代AI系统在理解和应对复杂信息方面的显著提升。随着技术的发展，我们或许可以期待这些系统在未来能更好地辅助人类解决实际问题。

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

　　在Claude官方看来，其最大的优势就是“更擅长现实世界中的任务”，并且在更新公告中还不忘内涵一波隔壁OpenAI。

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

　　另外趁着模型上新，Claude背后的Anthropic新一轮融资曝光：35亿美元（约254亿人民币）。比预先目标20亿翻了近一倍。

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

　　由此，包括正在筹集的现金在内，Anthropic估值已经达到了615亿美元（约4462亿人民币）。

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

　　一句话生成《我的世界》，新模型编程能力嘎嘎乱杀

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

　　从更多网友鲜测来看，Claude 3.7 Sonnet尤为擅长编程和Web开发。

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

　　一上手，他们便将注意力转向了通过物理模拟来测试AI对现实世界理解能力的任务。

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

　　【更懂物理规律】

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

　　例如，一位日本小伙子利用它制作了一幅精美的“太阳系运转图”，太阳、八大行星以及被除名的冥王星均囊括其中，让他感到十分震撼：

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

　　 1374行代码，Claude 3.7 Sonnet唰一下就完成了！

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

　　不仅生成速度快，还实现了实时交互。点击某个行星，右上角还会显示一些小科普。

[Claude 3.7 AI巨擘再创奇迹！3200行代码一气呵成，挑战智商极限！]

　　要知道，即使不将其制作成动画，仅仅全面理解这些天体的运行规律，就已经让大多数人感到困难。

　　尽管Claude的作品在美观性方面或许还有改进的空间，但他对于行星运行规律的准确理解，并能够将其转化为代码这一点是值得肯定的。

　　另外，对于每一个新模型都要被拉出来遛一遛的“空间内弹小球”挑战，Claude 3.7 Sonnet当然也没逃过：

　　编写一个Python脚本，实现球在四维体内部弹跳。

　　本月初，o3-mini在某项挑战中表现突出，赢得了“可能是最懂现实物理的LLM”的美誉。这个成绩不仅体现了o3-mini在理解和处理复杂物理问题上的卓越能力，也标志着人工智能技术在理解和模拟现实世界物理现象方面取得了显著进展。这无疑为未来的科学研究和技术应用开辟了新的可能性。随着人工智能模型越来越擅长解决实际问题，我们有理由期待它们在未来能带来更多突破性的成果。

　　相较于缓慢的o3-mini，Claude3.7Sonnet选择了以速度取胜，诠释了“天下武功，唯快不破”的理念。

　　在小小的四维空间内，小球的弹跳速度已经快到产生了残影，这确实需要一位眼力极佳的裁判才能准确判断比赛结果（doge）。在这个高速变幻的四维空间竞赛中，选手们的表现令人叹为观止。小球以超乎想象的速度弹跳，其轨迹几乎难以用肉眼追踪。这样高难度的比赛不仅考验着运动员的技术与反应能力，也对裁判的专业水平提出了前所未有的挑战。确保比赛公平公正地进行，需要裁判拥有卓越的眼力和精准的判断力。这样的赛事无疑为观众带来了极致的视觉享受，同时也推动了竞技体育技术的发展。

　　与此同时，除了物理模拟，利用Claude3.7Sonnet编写各种小游戏竟然成为一众网友的最佳选择。这一现象不仅反映了现代技术带来的无限可能性，也揭示了大众对于创新娱乐方式的渴望。通过编程实现游戏设计，既能够激发开发者的创造力，也为广大玩家提供了丰富的娱乐资源。这种趋势无疑为数字娱乐产业注入了新的活力，同时也提醒我们关注技术如何更好地服务于人类的生活与娱乐需求。

　　【游戏成最热场景】

　　挑战生成爆火游戏《Flappy bird》，Claude 3.7 Sonnet一眼完胜o3 mini-high。

　　游戏中，玩家需要操控一只小鸟，飞跃由多种不同长度的水管构成的障碍物。

　　先看Claude 3.7 Sonnet，一次性生成的代码就高度还原了游戏理念：

　　高档位推理模式下的o3 mini，只有一个小方块在画面中原地鬼畜，基本看不出游戏的亚子。

　　一时间，这一惨烈对比直接将Claude 3.7 Sonnet推上了新的高度：

　　同时，随着难度进一步升级，这句评价的含金量还在上升。

　　除了简单还原游戏理念，生成更加精致且支持上下左右交互的“大制作”也完全能够实现。这样的技术进步无疑为游戏开发者提供了更为广阔的创作空间，使得游戏不仅在视觉效果上有了质的飞跃，还在互动性方面实现了新的突破。玩家可以期待更加沉浸式的游戏体验，这不仅会丰富游戏市场的多样性，也将推动整个行业向更高层次发展。随着技术的不断迭代，未来的游戏作品将更加注重细节与创新，带给玩家前所未有的感官享受和互动乐趣。

　　在早期测试中，知名博主Rowan Cheung就用它一句话创建了克隆版《我的世界》，而且能立即在Artifacts中玩。

　　请提供需要修改的新闻内容，以便我进行相应的调整。

　　使用Phaser.js开发一款横版平台游戏，玩家仅需通过箭头键即可控制角色进行移动和跳跃。在游戏的左上角会实时显示玩家的得分情况。这款以Phaser.js为开发框架的游戏，在设计上充分考虑了操作的简便性和游戏体验的流畅性。只采用箭头键进行操作的设计使得游戏不仅易于上手，同时也考验了玩家对于节奏感和方向感的把握。此外，左上角实时更新的得分情况不仅可以激发玩家的竞争心理，还增加了游戏的趣味性和挑战性。这类注重基础操作与即时反馈的游戏设计，无疑能够吸引到广泛的玩家群体，尤其是那些喜欢怀旧游戏风格的玩家。同时，这样的设计也为开发者提供了更多创意发挥的空间，可以在此基础上进一步丰富游戏内容和玩法。

　　这还不算完，更有创意的网友仅用5个线索，就为Apple Watch设计了一款与心率监测相连的贪吃蛇游戏。

　　你越紧张，蛇移动得越快，你越冷静，就越容易。

　　笑死，知名博主Pietro Schirano借机又调侃了Anthropic一波：

　　除了在各种游戏中应用Claude3.7Sonnet之外，其在实际开发场景中的实例同样令人瞩目。

　　【生产力提效Max】

　　目前，Claude平台已提供GitHub集成，开发人员可以将其代码存储库直接连接到Claude。

　　设置完成后，它会显示特定项目的容量百分比，这样用户就知道自己使用了多少容量。

　　知名博主elvis特别提到了“Artifacts”功能，直连后这将极大地方便今后对代码的修改。

　　在实际应用中，有人利用它来制作动画天气卡，动态的云彩和飘落的雨滴都表现得十分逼真，并且还可以自由调整其移动速度。

　　当然，制作网页这项工作，乍一看可能觉得没什么特别，那么我们就请出几位选手来挑战扒取同一个HTML网页的内容。

　　要完成的目标是这样婶儿的：

　　 Claude3.7Sonnet以其极高的还原度著称，并且在缺乏图标素材时，巧妙地使用emoji填补了左侧边栏的按钮位置：

　　而其他几位选手o1-mini-high、Grok 3以及Gemini 2.0 Pro依次作答如下，有的只简单地列举了数据，甚至还有的干脆只给了个表格：

　　尽管编写程序的能力确实令人印象深刻，但有人在cursor平台上试用后表示，效果似乎还有待提升。从整体上看，这项技术无疑展示了其潜力，但在实际应用过程中仍面临一些挑战。尤其是在处理复杂任务时，软件的稳定性和用户界面的友好程度显得尤为重要。希望开发团队能够继续优化产品，以满足广大用户的期待。

　　增加了超过15个文件，整体效果良好，似乎一次能够处理更多的内容。

　　【“数字母”问题埋下小彩蛋】

　　而且Claude团队也非常“时髦”，在3.7 Sonnet当中埋下了关于strawberry数r的彩蛋。

　　不过虽然这种幽默的态度十分可嘉，但是换了个词可能还是会掉链子。

　　虽然数错了，Claude还不忘纠正拼写错误，坦率地指出了你的“密西西比”拼写有误，正确的拼写确实包含4个s。

　　【实测：识破逻辑陷阱，弱智吧也能招架】

　　 Claude3.7Sonnet的逻辑推理能力不仅在编程领域有所展现，还表现在它能够在存在误导信息的情况下进行准确推理。

　　即便不在推理模式下开启，Claude3.7Sonnet依旧能在包含误导信息的推理测试中获得与o3-mini相当的成绩。

　　这项测试，使用的GitHub上一个名为Misguided Attention的Benchmark。

　　其中包含了很多经典谜题……的改编版本，考验的就是大模型能不能做到不被表象迷惑。

　　举个例子，电车难题我们都很熟悉：

　　在某城市的一个繁忙路口，有五个人被绑在主电车轨道上，而在另一条备用轨道上，只有一人处于同样的困境。此时，一辆失控的电车正疾驰而来，而旁边恰好有一个可以控制电车方向的摇杆。如果你拉动这个摇杆，就可以使电车转向备用轨道。这个道德两难的问题再次引发了公众的广泛讨论。面对这种极端情况，人们不禁会思考：生命的价值是否可以量化？当面临必须做出选择时，我们的决定又反映了怎样的伦理观？这个问题不仅考验着个体的道德判断力，也促使我们反思社会制度和法律如何更好地保护每一个个体的生命安全。这样的事件提醒我们，需要更深入地探讨和制定相关的伦理准则和社会政策，以避免类似的悲剧再次发生。

　　但在这套Benchmark里，这道题被改编成了这个样子：

　　在一个电车轨道上，有五个人被绑在那里已经死亡，而在另一条备用轨道上有一个人还活着。此时，一辆失控的电车正快速驶来，而你恰好可以操作一个把手，将电车转向备用轨道。这个道德困境引发了广泛的讨论。从伦理学的角度来看，这个问题似乎是在探讨个体生命的价值以及如何在紧急情况下做出决策。面对这种两难的选择，人们往往会被迫权衡不同的价值观和道德标准。一方面，选择不采取任何行动可能意味着更多无辜生命的丧失，而另一方面，主动干预则涉及到是否可以为了多数人的利益牺牲少数人。这样的问题没有简单的答案，但它确实促使我们思考如何在复杂的现实情况中找到最佳的解决方案。

　　在面对o3-mini-high的选择时，他毫不犹豫地决定让电车冲向活人，并坚称这样做可以减少整体的受害者数量。

　　 Claude 3.7（未开启拓展思考）就能够发现这其中的门道，表示这是一个变体，并选择了不伤害还活着的人。

　　再比如物理学当中的名场面——薛定谔的猫，在这套基准当中，这只猫的“猫设”被改成了一只死去的猫。

　　一只死猫与某种核同位素、一瓶毒药和一个辐射探测器一同被放置在一个盒子里。若辐射探测器检测到辐射存在，它会触发毒药的释放。一天之后，盒子被打开，此时猫还存活吗？

　　 Claude3.7也精准地抓住了要点，正确地指出猫的存活概率为0。这一回答显示了模型在处理特定类型的问题时具备高度的准确性和逻辑性。在面对这类涉及明确数据或概率的问题时，Claude3.7的表现令人信服，能够迅速给出符合逻辑的答案。这不仅证明了其强大的计算和推理能力，同时也展示了其在处理具体信息时的可靠性和准确性。这种能力对于需要精确答案的应用场景来说是非常宝贵的，但也提醒我们在使用这类模型时，要清楚它们的优势和局限性。

　　也是有一些弱智吧的味道了，既然如此，那我们就加试几个弱智吧问题看看。（doge）

　　依旧未能启动思考模式，Claude3.7准确指出了我们问题中存在的逻辑漏洞。

　　像这种因果倒置的低级错误，Claude3.7也能够及时识别出来，相比之下，o3-mini-high的回答似乎更容易被误导。

　　最后，我们让Claude 3.7解释了一些中文中有趣的语言现象。

　　结果，“虽然成品咖啡中确实含有咖啡因，但这并不影响整体解释的可靠性。”

　　【One More Thing】

　　关于Claude 3.7 Sonnet的命名，Anthropic首席产品官Mike Krieger揭秘了这当中的过程。

　　由于之前Claude3.5Sonnet发布过一次更新，团队最初考虑将其命名为3.5Sonnet更新版或者最新版，又或者命名为3.5Sonnet v3。

　　或许是觉得仅称作3.5无法充分展现该模型的实力，随后将其更新为3.6版本，最终确定版本号为介于3.5和4之间的3.7。

　　参考链接：

　　 [1]https://x.com/rowancheung/status/1894106441536946235[

　　 2]https://x.com/mckaywrigley/status/1894123739178270774

　　 [3]https://x.com/omarsar0/status/1894145008556519602

　　 [4]https://www.reddit.com/r/singularity/comments/1ix9sl2/shots_fired_direct_sting_against_openai_from/

　　 [5]https://www.reddit.com/r/singularity/comments/1ixawwd/the_most_interesting_strawberry_solution_so_far/

　　 [6[https://www.wsj.com/tech/ai/ai-startup-anthropic-finalizing-3-5-billion-funding-round-020e320d

首页 > 科技资讯

2025

02-25