[GH-ISSUE #53] Benchmark结果 #32

Open
opened 2026-02-27 01:55:54 +03:00 by kerem · 15 comments
Owner

Originally created by @wuhanhui on GitHub (Feb 25, 2025).
Original GitHub issue: https://github.com/ErlichLiu/DeepClaude/issues/53

claude 3.7出了,有测试过r1+claude 3.7的效果吗?

Originally created by @wuhanhui on GitHub (Feb 25, 2025). Original GitHub issue: https://github.com/ErlichLiu/DeepClaude/issues/53 claude 3.7出了,有测试过r1+claude 3.7的效果吗?
Author
Owner

@suyoumo commented on GitHub (Feb 25, 2025):

我打算今天开始测一下,结果会发布到我的仓库DeepClaude_Benchmark

<!-- gh-comment-id:2682674075 --> @suyoumo commented on GitHub (Feb 25, 2025): 我打算今天开始测一下,结果会发布到我的仓库DeepClaude_Benchmark
Author
Owner

@suyoumo commented on GitHub (Mar 3, 2025):

claude 3.7出了,有测试过r1+claude 3.7的效果吗?

测试完了,已更新到仓库

<!-- gh-comment-id:2693444176 --> @suyoumo commented on GitHub (Mar 3, 2025): > claude 3.7出了,有测试过r1+claude 3.7的效果吗? 测试完了,已更新到仓库
Author
Owner

@Fangziyang0910 commented on GitHub (Mar 3, 2025):

话说为什么测出来差了这么多?是火山api的问题吗?还是评测方式有问题?

<!-- gh-comment-id:2694122508 --> @Fangziyang0910 commented on GitHub (Mar 3, 2025): 话说为什么测出来差了这么多?是火山api的问题吗?还是评测方式有问题?
Author
Owner

@suyoumo commented on GitHub (Mar 3, 2025):

话说为什么测出来差了这么多?是火山api的问题吗?还是评测方式有问题?

可能和api有关系吧,不过控制变量看搭配效果就行,用的是官方的评测代码,有兴趣的可以复现试试,我接下来打算测v3和r1然后再单独测v3,看看下降是不是普遍现象,比如字节提供的api不是满血api,int8量化之类的

<!-- gh-comment-id:2695052269 --> @suyoumo commented on GitHub (Mar 3, 2025): > 话说为什么测出来差了这么多?是火山api的问题吗?还是评测方式有问题? 可能和api有关系吧,不过控制变量看搭配效果就行,用的是官方的评测代码,有兴趣的可以复现试试,我接下来打算测v3和r1然后再单独测v3,看看下降是不是普遍现象,比如字节提供的api不是满血api,int8量化之类的
Author
Owner

@GowayLee commented on GitHub (Mar 3, 2025):

V3我也测了一下, 使用的是派欧算力云的

Image
<!-- gh-comment-id:2695062220 --> @GowayLee commented on GitHub (Mar 3, 2025): V3我也测了一下, 使用的是派欧算力云的 <img width="616" alt="Image" src="https://github.com/user-attachments/assets/7ed189d3-ac3b-4de6-bd01-7ff9d28fc634" />
Author
Owner

@suyoumo commented on GitHub (Mar 3, 2025):

V3我也测了一下, 使用的是派欧算力云的

Image

那你可以再测一下deepseek r1的效果,看有没有50

<!-- gh-comment-id:2695072898 --> @suyoumo commented on GitHub (Mar 3, 2025): > V3我也测了一下, 使用的是派欧算力云的 > > <img alt="Image" width="616" src="https://private-user-images.githubusercontent.com/109811387/418673746-7ed189d3-ac3b-4de6-bd01-7ff9d28fc634.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3NDEwMjI4MzIsIm5iZiI6MTc0MTAyMjUzMiwicGF0aCI6Ii8xMDk4MTEzODcvNDE4NjczNzQ2LTdlZDE4OWQzLWFjM2ItNGRlNi1iZDAxLTdmZjlkMjhmYzYzNC5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjUwMzAzJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI1MDMwM1QxNzIyMTJaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT02ZGM1ZjkzM2Q5NDBiMjRiMTViODhmM2JjMTAwZWVkMzI2YTIwNmFlZTRiOTg0ZDc0MzdhNGM3ZDY1YmE2ODc5JlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCJ9.HoKXe_UCPhKJP-aPPwu63QHwPqh_jLLvq9uePxAT_-U"> 那你可以再测一下deepseek r1的效果,看有没有50
Author
Owner

@suyoumo commented on GitHub (Mar 3, 2025):

V3我也测了一下, 使用的是派欧算力云的

Image

edit 方式我记得得是diff,这样才控制变量了,你看看那个排行榜

<!-- gh-comment-id:2695075588 --> @suyoumo commented on GitHub (Mar 3, 2025): > V3我也测了一下, 使用的是派欧算力云的 > > <img alt="Image" width="616" src="https://private-user-images.githubusercontent.com/109811387/418673746-7ed189d3-ac3b-4de6-bd01-7ff9d28fc634.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3NDEwMjI4MzIsIm5iZiI6MTc0MTAyMjUzMiwicGF0aCI6Ii8xMDk4MTEzODcvNDE4NjczNzQ2LTdlZDE4OWQzLWFjM2ItNGRlNi1iZDAxLTdmZjlkMjhmYzYzNC5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjUwMzAzJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI1MDMwM1QxNzIyMTJaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT02ZGM1ZjkzM2Q5NDBiMjRiMTViODhmM2JjMTAwZWVkMzI2YTIwNmFlZTRiOTg0ZDc0MzdhNGM3ZDY1YmE2ODc5JlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCJ9.HoKXe_UCPhKJP-aPPwu63QHwPqh_jLLvq9uePxAT_-U"> edit 方式我记得得是diff,这样才控制变量了,你看看那个排行榜
Author
Owner

@suyoumo commented on GitHub (Mar 4, 2025):

话说为什么测出来差了这么多?是火山api的问题吗?还是评测方式有问题?

可能和api有关系吧,不过控制变量看搭配效果就行,用的是官方的评测代码,有兴趣的可以复现试试,我接下来打算测v3和r1然后再单独测v3,看看下降是不是普遍现象,比如字节提供的api不是满血api,int8量化之类的

已更新火山的deepseek v3结果

<!-- gh-comment-id:2696417999 --> @suyoumo commented on GitHub (Mar 4, 2025): > > 话说为什么测出来差了这么多?是火山api的问题吗?还是评测方式有问题? > > 可能和api有关系吧,不过控制变量看搭配效果就行,用的是官方的评测代码,有兴趣的可以复现试试,我接下来打算测v3和r1然后再单独测v3,看看下降是不是普遍现象,比如字节提供的api不是满血api,int8量化之类的 已更新火山的deepseek v3结果
Author
Owner

@GowayLee commented on GitHub (Mar 4, 2025):

edit 方式我记得得是diff,这样才控制变量了,你看看那个排行榜

哦哦ok, 下次注意了

<!-- gh-comment-id:2696517649 --> @GowayLee commented on GitHub (Mar 4, 2025): > edit 方式我记得得是diff,这样才控制变量了,你看看那个排行榜 哦哦ok, 下次注意了
Author
Owner

@GowayLee commented on GitHub (Mar 6, 2025):

那你可以再测一下deepseek r1的效果,看有没有50

我自己在使用这边DeepClaude服务端做测试的时候, Aider总是报这个错误

Image

仿佛一直在重试, DeepClaude服务端这边也显示它一直在发请求重试, 这导致Benchmark进度无法被推进. @yuanhang110 请教一下您是如何配置测试环境的.

<!-- gh-comment-id:2703847613 --> @GowayLee commented on GitHub (Mar 6, 2025): > 那你可以再测一下deepseek r1的效果,看有没有50 我自己在使用这边DeepClaude服务端做测试的时候, Aider总是报这个错误 <img width="727" alt="Image" src="https://github.com/user-attachments/assets/339313ad-ad6b-45c9-a23f-d3d2bbf1027a" /> 仿佛一直在重试, DeepClaude服务端这边也显示它一直在发请求重试, 这导致Benchmark进度无法被推进. @yuanhang110 请教一下您是如何配置测试环境的.
Author
Owner

@suyoumo commented on GitHub (Mar 6, 2025):

这个我最开始也碰到了这个问题,我记得应该是返回的格式有问题,具体哪忘了,改了有一段时间了,你可以看看我DeepClaude_Pro这个仓库的代码,就是我把官方代码改造成支持openai格式和支持aider评测了

那你可以再测一下deepseek r1的效果,看有没有50

我自己在使用这边DeepClaude服务端做测试的时候, Aider总是报这个错误

Image 仿佛一直在重试, DeepClaude服务端这边也显示它一直在发请求重试, 这导致Benchmark进度无法被推进. [@yuanhang110](https://github.com/yuanhang110) 请教一下您是如何配置测试环境的.

这个我最开始也碰到了这个问题,我记得应该是返回的格式有问题,具体哪忘了,改了有一段时间了,你可以看看我DeepClaude_Pro这个仓库的代码,就是我把官方代码改造成支持openai格式和支持aider评测了

<!-- gh-comment-id:2704625407 --> @suyoumo commented on GitHub (Mar 6, 2025): 这个我最开始也碰到了这个问题,我记得应该是返回的格式有问题,具体哪忘了,改了有一段时间了,你可以看看我DeepClaude_Pro这个仓库的代码,就是我把官方代码改造成支持openai格式和支持aider评测了 > > 那你可以再测一下deepseek r1的效果,看有没有50 > > 我自己在使用这边DeepClaude服务端做测试的时候, Aider总是报这个错误 > > <img alt="Image" width="727" src="https://private-user-images.githubusercontent.com/109811387/419926915-339313ad-ad6b-45c9-a23f-d3d2bbf1027a.jpg?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3NDEyODU2ODMsIm5iZiI6MTc0MTI4NTM4MywicGF0aCI6Ii8xMDk4MTEzODcvNDE5OTI2OTE1LTMzOTMxM2FkLWFkNmItNDVjOS1hMjNmLWQzZDJiYmYxMDI3YS5qcGc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjUwMzA2JTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI1MDMwNlQxODIzMDNaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT0xYjFjNzRjODFkYWJiNmY2ZmFiOTVhYmQ2NjRlNzFkOTlmZjk3MjE0NzMxNjU0ZDEzOTA5MjRlZThjMWE5MjNiJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCJ9.2VCtSJUQ_29Zd9k3unKb3HmfASz6LPXm-d2HrKGjNho"> > 仿佛一直在重试, DeepClaude服务端这边也显示它一直在发请求重试, 这导致Benchmark进度无法被推进. [@yuanhang110](https://github.com/yuanhang110) 请教一下您是如何配置测试环境的. 这个我最开始也碰到了这个问题,我记得应该是返回的格式有问题,具体哪忘了,改了有一段时间了,你可以看看我DeepClaude_Pro这个仓库的代码,就是我把官方代码改造成支持openai格式和支持aider评测了
Author
Owner

@suyoumo commented on GitHub (Mar 6, 2025):

这个我最开始也碰到了这个问题,我记得应该是返回的格式有问题,具体哪忘了,改了有一段时间了,你可以看看我DeepClaude_Pro这个仓库的代码,就是我把官方代码改造成支持openai格式和支持aider评测了

那你可以再测一下deepseek r1的效果,看有没有50

我自己在使用这边DeepClaude服务端做测试的时候, Aider总是报这个错误
Image
仿佛一直在重试, DeepClaude服务端这边也显示它一直在发请求重试, 这导致Benchmark进度无法被推进. [@yuanhang110](https://github.com/yuanhang110) 请教一下您是如何配置测试环境的.

这个我最开始也碰到了这个问题,我记得应该是返回的格式有问题,具体哪忘了,改了有一段时间了,你可以看看我DeepClaude_Pro这个仓库的代码,就是我把官方代码改造成支持openai格式和支持aider评测了

我想起来了,好像就是那个流式输出的要求,你得让它支持比如环境变量就配置,默认最后的结果非流式输出

<!-- gh-comment-id:2704628401 --> @suyoumo commented on GitHub (Mar 6, 2025): > 这个我最开始也碰到了这个问题,我记得应该是返回的格式有问题,具体哪忘了,改了有一段时间了,你可以看看我DeepClaude_Pro这个仓库的代码,就是我把官方代码改造成支持openai格式和支持aider评测了 > > > > 那你可以再测一下deepseek r1的效果,看有没有50 > > > > > > 我自己在使用这边DeepClaude服务端做测试的时候, Aider总是报这个错误 > > <img alt="Image" width="727" src="https://private-user-images.githubusercontent.com/109811387/419926915-339313ad-ad6b-45c9-a23f-d3d2bbf1027a.jpg?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3NDEyODU2ODMsIm5iZiI6MTc0MTI4NTM4MywicGF0aCI6Ii8xMDk4MTEzODcvNDE5OTI2OTE1LTMzOTMxM2FkLWFkNmItNDVjOS1hMjNmLWQzZDJiYmYxMDI3YS5qcGc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjUwMzA2JTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI1MDMwNlQxODIzMDNaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT0xYjFjNzRjODFkYWJiNmY2ZmFiOTVhYmQ2NjRlNzFkOTlmZjk3MjE0NzMxNjU0ZDEzOTA5MjRlZThjMWE5MjNiJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCJ9.2VCtSJUQ_29Zd9k3unKb3HmfASz6LPXm-d2HrKGjNho"> > > 仿佛一直在重试, DeepClaude服务端这边也显示它一直在发请求重试, 这导致Benchmark进度无法被推进. [[@yuanhang110](https://github.com/yuanhang110)](https://github.com/yuanhang110) 请教一下您是如何配置测试环境的. > > 这个我最开始也碰到了这个问题,我记得应该是返回的格式有问题,具体哪忘了,改了有一段时间了,你可以看看我DeepClaude_Pro这个仓库的代码,就是我把官方代码改造成支持openai格式和支持aider评测了 我想起来了,好像就是那个流式输出的要求,你得让它支持比如环境变量就配置,默认最后的结果非流式输出
Author
Owner

@zwldarren commented on GitHub (Mar 8, 2025):

@yuanhang110 请问能不能再多测试一下deepclaude是否真的能提高性能。我仔细看了原始仓库和benchmark,aider官方说的R1+Sonnet指的是 R1 is configured in aider’s standard architect role with Sonnet as editor,而不是说把R1的Thinking喂给Sonnet作为输入。而原始的DeepClaude项目其实和那个benchmark没什么关系,甚至引用都已经在上个月被删掉了。

https://aider.chat/2025/01/24/r1-sonnet.html#thinking-output

<!-- gh-comment-id:2708292460 --> @zwldarren commented on GitHub (Mar 8, 2025): @yuanhang110 请问能不能再多测试一下deepclaude是否真的能提高性能。我仔细看了原始仓库和benchmark,aider官方说的R1+Sonnet指的是 `R1 is configured in aider’s standard architect role with Sonnet as editor`,而不是说把R1的Thinking喂给Sonnet作为输入。而原始的DeepClaude项目其实和那个benchmark没什么关系,甚至引用都已经在上个月被删掉了。 https://aider.chat/2025/01/24/r1-sonnet.html#thinking-output
Author
Owner

@suyoumo commented on GitHub (Mar 9, 2025):

@yuanhang110 请问能不能再多测试一下deepclaude是否真的能提高性能。我仔细看了原始仓库和benchmark,aider官方说的R1+Sonnet指的是 R1 is configured in aider’s standard architect role with Sonnet as editor,而不是说把R1的Thinking喂给Sonnet作为输入。而原始的DeepClaude项目其实和那个benchmark没什么关系,甚至引用都已经在上个月被删掉了。

https://aider.chat/2025/01/24/r1-sonnet.html#thinking-output

我觉得引用去不去掉问题不大,这个榜单中的前sota的64仍然是r1+sonnet,具体测试结果来说这种组合应该是有用的,只是可能不如架构师模型,那么其实如果实现架构师模型在deepclaude项目中就会带来提升空间,不过问题是,如果是采取模型结果组合方式,2个模型的输出时间是累加的,用户体验会下降,具体可以去看我项目中的数据

<!-- gh-comment-id:2708850858 --> @suyoumo commented on GitHub (Mar 9, 2025): > [@yuanhang110](https://github.com/yuanhang110) 请问能不能再多测试一下deepclaude是否真的能提高性能。我仔细看了原始仓库和benchmark,aider官方说的R1+Sonnet指的是 `R1 is configured in aider’s standard architect role with Sonnet as editor`,而不是说把R1的Thinking喂给Sonnet作为输入。而原始的DeepClaude项目其实和那个benchmark没什么关系,甚至引用都已经在上个月被删掉了。 > > https://aider.chat/2025/01/24/r1-sonnet.html#thinking-output 我觉得引用去不去掉问题不大,这个榜单中的前sota的64仍然是r1+sonnet,具体测试结果来说这种组合应该是有用的,只是可能不如架构师模型,那么其实如果实现架构师模型在deepclaude项目中就会带来提升空间,不过问题是,如果是采取模型结果组合方式,2个模型的输出时间是累加的,用户体验会下降,具体可以去看我项目中的数据
Author
Owner

@suyoumo commented on GitHub (Mar 9, 2025):

@yuanhang110 请问能不能再多测试一下deepclaude是否真的能提高性能。我仔细看了原始仓库和benchmark,aider官方说的R1+Sonnet指的是 R1 is configured in aider’s standard architect role with Sonnet as editor,而不是说把R1的Thinking喂给Sonnet作为输入。而原始的DeepClaude项目其实和那个benchmark没什么关系,甚至引用都已经在上个月被删掉了。

https://aider.chat/2025/01/24/r1-sonnet.html#thinking-output

然后我其实测试了r1+claude3.5和r1+claude3.7,都是有提升的,然后就算提升幅度不大,金额也是下降的,所以还是有用的,只是说确实理论上和官方的架构师方式会有差距

<!-- gh-comment-id:2708852898 --> @suyoumo commented on GitHub (Mar 9, 2025): > [@yuanhang110](https://github.com/yuanhang110) 请问能不能再多测试一下deepclaude是否真的能提高性能。我仔细看了原始仓库和benchmark,aider官方说的R1+Sonnet指的是 `R1 is configured in aider’s standard architect role with Sonnet as editor`,而不是说把R1的Thinking喂给Sonnet作为输入。而原始的DeepClaude项目其实和那个benchmark没什么关系,甚至引用都已经在上个月被删掉了。 > > https://aider.chat/2025/01/24/r1-sonnet.html#thinking-output 然后我其实测试了r1+claude3.5和r1+claude3.7,都是有提升的,然后就算提升幅度不大,金额也是下降的,所以还是有用的,只是说确实理论上和官方的架构师方式会有差距
Sign in to join this conversation.
No milestone
No project
No assignees
1 participant
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference
starred/DeepClaude#32
No description provided.