mirror of
https://github.com/ErlichLiu/DeepClaude.git
synced 2026-04-25 05:05:57 +03:00
[GH-ISSUE #53] Benchmark结果 #32
Labels
No labels
bug
documentation
duplicate
enhancement
good first issue
help wanted
invalid
pull-request
question
wontfix
No milestone
No project
No assignees
1 participant
Notifications
Due date
No due date set.
Dependencies
No dependencies set.
Reference
starred/DeepClaude#32
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Originally created by @wuhanhui on GitHub (Feb 25, 2025).
Original GitHub issue: https://github.com/ErlichLiu/DeepClaude/issues/53
claude 3.7出了,有测试过r1+claude 3.7的效果吗?
@suyoumo commented on GitHub (Feb 25, 2025):
我打算今天开始测一下,结果会发布到我的仓库DeepClaude_Benchmark
@suyoumo commented on GitHub (Mar 3, 2025):
测试完了,已更新到仓库
@Fangziyang0910 commented on GitHub (Mar 3, 2025):
话说为什么测出来差了这么多?是火山api的问题吗?还是评测方式有问题?
@suyoumo commented on GitHub (Mar 3, 2025):
可能和api有关系吧,不过控制变量看搭配效果就行,用的是官方的评测代码,有兴趣的可以复现试试,我接下来打算测v3和r1然后再单独测v3,看看下降是不是普遍现象,比如字节提供的api不是满血api,int8量化之类的
@GowayLee commented on GitHub (Mar 3, 2025):
V3我也测了一下, 使用的是派欧算力云的
@suyoumo commented on GitHub (Mar 3, 2025):
那你可以再测一下deepseek r1的效果,看有没有50
@suyoumo commented on GitHub (Mar 3, 2025):
edit 方式我记得得是diff,这样才控制变量了,你看看那个排行榜
@suyoumo commented on GitHub (Mar 4, 2025):
已更新火山的deepseek v3结果
@GowayLee commented on GitHub (Mar 4, 2025):
哦哦ok, 下次注意了
@GowayLee commented on GitHub (Mar 6, 2025):
我自己在使用这边DeepClaude服务端做测试的时候, Aider总是报这个错误
仿佛一直在重试, DeepClaude服务端这边也显示它一直在发请求重试, 这导致Benchmark进度无法被推进. @yuanhang110 请教一下您是如何配置测试环境的.
@suyoumo commented on GitHub (Mar 6, 2025):
这个我最开始也碰到了这个问题,我记得应该是返回的格式有问题,具体哪忘了,改了有一段时间了,你可以看看我DeepClaude_Pro这个仓库的代码,就是我把官方代码改造成支持openai格式和支持aider评测了
这个我最开始也碰到了这个问题,我记得应该是返回的格式有问题,具体哪忘了,改了有一段时间了,你可以看看我DeepClaude_Pro这个仓库的代码,就是我把官方代码改造成支持openai格式和支持aider评测了
@suyoumo commented on GitHub (Mar 6, 2025):
我想起来了,好像就是那个流式输出的要求,你得让它支持比如环境变量就配置,默认最后的结果非流式输出
@zwldarren commented on GitHub (Mar 8, 2025):
@yuanhang110 请问能不能再多测试一下deepclaude是否真的能提高性能。我仔细看了原始仓库和benchmark,aider官方说的R1+Sonnet指的是
R1 is configured in aider’s standard architect role with Sonnet as editor,而不是说把R1的Thinking喂给Sonnet作为输入。而原始的DeepClaude项目其实和那个benchmark没什么关系,甚至引用都已经在上个月被删掉了。https://aider.chat/2025/01/24/r1-sonnet.html#thinking-output
@suyoumo commented on GitHub (Mar 9, 2025):
我觉得引用去不去掉问题不大,这个榜单中的前sota的64仍然是r1+sonnet,具体测试结果来说这种组合应该是有用的,只是可能不如架构师模型,那么其实如果实现架构师模型在deepclaude项目中就会带来提升空间,不过问题是,如果是采取模型结果组合方式,2个模型的输出时间是累加的,用户体验会下降,具体可以去看我项目中的数据
@suyoumo commented on GitHub (Mar 9, 2025):
然后我其实测试了r1+claude3.5和r1+claude3.7,都是有提升的,然后就算提升幅度不大,金额也是下降的,所以还是有用的,只是说确实理论上和官方的架构师方式会有差距