[GH-ISSUE #53] Benchmark结果

kerem commented

2026-02-27 01:55:54 +03:00

Owner

Originally created by @wuhanhui on GitHub (Feb 25, 2025).
Original GitHub issue: https://github.com/ErlichLiu/DeepClaude/issues/53

claude 3.7出了，有测试过r1+claude 3.7的效果吗？

Originally created by @wuhanhui on GitHub (Feb 25, 2025). Original GitHub issue: https://github.com/ErlichLiu/DeepClaude/issues/53 claude 3.7出了，有测试过r1+claude 3.7的效果吗？

kerem added the

help wanted

label

2026-02-27 01:55:54 +03:00

kerem commented

2026-02-27 01:55:55 +03:00

Author

Owner

@suyoumo commented on GitHub (Feb 25, 2025):

我打算今天开始测一下，结果会发布到我的仓库DeepClaude_Benchmark

@suyoumo commented on GitHub (Feb 25, 2025): 我打算今天开始测一下，结果会发布到我的仓库DeepClaude_Benchmark

kerem commented

2026-02-27 01:55:55 +03:00

Author

Owner

@suyoumo commented on GitHub (Mar 3, 2025):

claude 3.7出了，有测试过r1+claude 3.7的效果吗？

测试完了，已更新到仓库

@suyoumo commented on GitHub (Mar 3, 2025): > claude 3.7出了，有测试过r1+claude 3.7的效果吗？测试完了，已更新到仓库

kerem commented

2026-02-27 01:55:55 +03:00

Author

Owner

@Fangziyang0910 commented on GitHub (Mar 3, 2025):

话说为什么测出来差了这么多？是火山api的问题吗？还是评测方式有问题？

@Fangziyang0910 commented on GitHub (Mar 3, 2025): 话说为什么测出来差了这么多？是火山api的问题吗？还是评测方式有问题？

kerem commented

2026-02-27 01:55:55 +03:00

Author

Owner

@suyoumo commented on GitHub (Mar 3, 2025):

话说为什么测出来差了这么多？是火山api的问题吗？还是评测方式有问题？

可能和api有关系吧，不过控制变量看搭配效果就行，用的是官方的评测代码，有兴趣的可以复现试试，我接下来打算测v3和r1然后再单独测v3，看看下降是不是普遍现象，比如字节提供的api不是满血api，int8量化之类的

@suyoumo commented on GitHub (Mar 3, 2025): > 话说为什么测出来差了这么多？是火山api的问题吗？还是评测方式有问题？可能和api有关系吧，不过控制变量看搭配效果就行，用的是官方的评测代码，有兴趣的可以复现试试，我接下来打算测v3和r1然后再单独测v3，看看下降是不是普遍现象，比如字节提供的api不是满血api，int8量化之类的

kerem commented

2026-02-27 01:55:55 +03:00

Author

Owner

@GowayLee commented on GitHub (Mar 3, 2025):

V3我也测了一下, 使用的是派欧算力云的

@GowayLee commented on GitHub (Mar 3, 2025): V3我也测了一下, 使用的是派欧算力云的 <img width="616" alt="Image" src="https://github.com/user-attachments/assets/7ed189d3-ac3b-4de6-bd01-7ff9d28fc634" />

kerem commented

2026-02-27 01:55:55 +03:00

Author

Owner

@suyoumo commented on GitHub (Mar 3, 2025):

V3我也测了一下, 使用的是派欧算力云的

那你可以再测一下deepseek r1的效果，看有没有50

@suyoumo commented on GitHub (Mar 3, 2025): > V3我也测了一下, 使用的是派欧算力云的 > > <img alt="Image" width="616" src="https://private-user-images.githubusercontent.com/109811387/418673746-7ed189d3-ac3b-4de6-bd01-7ff9d28fc634.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3NDEwMjI4MzIsIm5iZiI6MTc0MTAyMjUzMiwicGF0aCI6Ii8xMDk4MTEzODcvNDE4NjczNzQ2LTdlZDE4OWQzLWFjM2ItNGRlNi1iZDAxLTdmZjlkMjhmYzYzNC5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjUwMzAzJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI1MDMwM1QxNzIyMTJaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT02ZGM1ZjkzM2Q5NDBiMjRiMTViODhmM2JjMTAwZWVkMzI2YTIwNmFlZTRiOTg0ZDc0MzdhNGM3ZDY1YmE2ODc5JlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCJ9.HoKXe_UCPhKJP-aPPwu63QHwPqh_jLLvq9uePxAT_-U"> 那你可以再测一下deepseek r1的效果，看有没有50

kerem commented

2026-02-27 01:55:55 +03:00

Author

Owner

@suyoumo commented on GitHub (Mar 3, 2025):

V3我也测了一下, 使用的是派欧算力云的

edit 方式我记得得是diff，这样才控制变量了，你看看那个排行榜

@suyoumo commented on GitHub (Mar 3, 2025): > V3我也测了一下, 使用的是派欧算力云的 > > <img alt="Image" width="616" src="https://private-user-images.githubusercontent.com/109811387/418673746-7ed189d3-ac3b-4de6-bd01-7ff9d28fc634.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3NDEwMjI4MzIsIm5iZiI6MTc0MTAyMjUzMiwicGF0aCI6Ii8xMDk4MTEzODcvNDE4NjczNzQ2LTdlZDE4OWQzLWFjM2ItNGRlNi1iZDAxLTdmZjlkMjhmYzYzNC5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjUwMzAzJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI1MDMwM1QxNzIyMTJaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT02ZGM1ZjkzM2Q5NDBiMjRiMTViODhmM2JjMTAwZWVkMzI2YTIwNmFlZTRiOTg0ZDc0MzdhNGM3ZDY1YmE2ODc5JlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCJ9.HoKXe_UCPhKJP-aPPwu63QHwPqh_jLLvq9uePxAT_-U"> edit 方式我记得得是diff，这样才控制变量了，你看看那个排行榜

kerem commented

2026-02-27 01:55:55 +03:00

Author

Owner

@suyoumo commented on GitHub (Mar 4, 2025):

话说为什么测出来差了这么多？是火山api的问题吗？还是评测方式有问题？

可能和api有关系吧，不过控制变量看搭配效果就行，用的是官方的评测代码，有兴趣的可以复现试试，我接下来打算测v3和r1然后再单独测v3，看看下降是不是普遍现象，比如字节提供的api不是满血api，int8量化之类的

已更新火山的deepseek v3结果

@suyoumo commented on GitHub (Mar 4, 2025): > > 话说为什么测出来差了这么多？是火山api的问题吗？还是评测方式有问题？ > > 可能和api有关系吧，不过控制变量看搭配效果就行，用的是官方的评测代码，有兴趣的可以复现试试，我接下来打算测v3和r1然后再单独测v3，看看下降是不是普遍现象，比如字节提供的api不是满血api，int8量化之类的已更新火山的deepseek v3结果

kerem commented

2026-02-27 01:55:55 +03:00

Author

Owner

@GowayLee commented on GitHub (Mar 4, 2025):

edit 方式我记得得是diff，这样才控制变量了，你看看那个排行榜

哦哦ok, 下次注意了

@GowayLee commented on GitHub (Mar 4, 2025): > edit 方式我记得得是diff，这样才控制变量了，你看看那个排行榜哦哦ok, 下次注意了

kerem commented

2026-02-27 01:55:55 +03:00

Author

Owner

@GowayLee commented on GitHub (Mar 6, 2025):

那你可以再测一下deepseek r1的效果，看有没有50

我自己在使用这边DeepClaude服务端做测试的时候, Aider总是报这个错误

仿佛一直在重试, DeepClaude服务端这边也显示它一直在发请求重试, 这导致Benchmark进度无法被推进. @yuanhang110 请教一下您是如何配置测试环境的.

@GowayLee commented on GitHub (Mar 6, 2025): > 那你可以再测一下deepseek r1的效果，看有没有50 我自己在使用这边DeepClaude服务端做测试的时候, Aider总是报这个错误 <img width="727" alt="Image" src="https://github.com/user-attachments/assets/339313ad-ad6b-45c9-a23f-d3d2bbf1027a" /> 仿佛一直在重试, DeepClaude服务端这边也显示它一直在发请求重试, 这导致Benchmark进度无法被推进. @yuanhang110 请教一下您是如何配置测试环境的.

kerem commented

2026-02-27 01:55:55 +03:00

Author

Owner

@suyoumo commented on GitHub (Mar 6, 2025):

这个我最开始也碰到了这个问题，我记得应该是返回的格式有问题，具体哪忘了，改了有一段时间了，你可以看看我DeepClaude_Pro这个仓库的代码，就是我把官方代码改造成支持openai格式和支持aider评测了

那你可以再测一下deepseek r1的效果，看有没有50

我自己在使用这边DeepClaude服务端做测试的时候, Aider总是报这个错误
仿佛一直在重试, DeepClaude服务端这边也显示它一直在发请求重试, 这导致Benchmark进度无法被推进. [@yuanhang110](https://github.com/yuanhang110) 请教一下您是如何配置测试环境的.

这个我最开始也碰到了这个问题，我记得应该是返回的格式有问题，具体哪忘了，改了有一段时间了，你可以看看我DeepClaude_Pro这个仓库的代码，就是我把官方代码改造成支持openai格式和支持aider评测了

@suyoumo commented on GitHub (Mar 6, 2025): 这个我最开始也碰到了这个问题，我记得应该是返回的格式有问题，具体哪忘了，改了有一段时间了，你可以看看我DeepClaude_Pro这个仓库的代码，就是我把官方代码改造成支持openai格式和支持aider评测了 > > 那你可以再测一下deepseek r1的效果，看有没有50 > > 我自己在使用这边DeepClaude服务端做测试的时候, Aider总是报这个错误 > > <img alt="Image" width="727" src="https://private-user-images.githubusercontent.com/109811387/419926915-339313ad-ad6b-45c9-a23f-d3d2bbf1027a.jpg?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3NDEyODU2ODMsIm5iZiI6MTc0MTI4NTM4MywicGF0aCI6Ii8xMDk4MTEzODcvNDE5OTI2OTE1LTMzOTMxM2FkLWFkNmItNDVjOS1hMjNmLWQzZDJiYmYxMDI3YS5qcGc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjUwMzA2JTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI1MDMwNlQxODIzMDNaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT0xYjFjNzRjODFkYWJiNmY2ZmFiOTVhYmQ2NjRlNzFkOTlmZjk3MjE0NzMxNjU0ZDEzOTA5MjRlZThjMWE5MjNiJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCJ9.2VCtSJUQ_29Zd9k3unKb3HmfASz6LPXm-d2HrKGjNho"> > 仿佛一直在重试, DeepClaude服务端这边也显示它一直在发请求重试, 这导致Benchmark进度无法被推进. [@yuanhang110](https://github.com/yuanhang110) 请教一下您是如何配置测试环境的. 这个我最开始也碰到了这个问题，我记得应该是返回的格式有问题，具体哪忘了，改了有一段时间了，你可以看看我DeepClaude_Pro这个仓库的代码，就是我把官方代码改造成支持openai格式和支持aider评测了

kerem commented

2026-02-27 01:55:55 +03:00

Author

Owner

@suyoumo commented on GitHub (Mar 6, 2025):

这个我最开始也碰到了这个问题，我记得应该是返回的格式有问题，具体哪忘了，改了有一段时间了，你可以看看我DeepClaude_Pro这个仓库的代码，就是我把官方代码改造成支持openai格式和支持aider评测了

那你可以再测一下deepseek r1的效果，看有没有50

我自己在使用这边DeepClaude服务端做测试的时候, Aider总是报这个错误

仿佛一直在重试, DeepClaude服务端这边也显示它一直在发请求重试, 这导致Benchmark进度无法被推进. [@yuanhang110](https://github.com/yuanhang110) 请教一下您是如何配置测试环境的.

这个我最开始也碰到了这个问题，我记得应该是返回的格式有问题，具体哪忘了，改了有一段时间了，你可以看看我DeepClaude_Pro这个仓库的代码，就是我把官方代码改造成支持openai格式和支持aider评测了

我想起来了，好像就是那个流式输出的要求，你得让它支持比如环境变量就配置，默认最后的结果非流式输出

@suyoumo commented on GitHub (Mar 6, 2025): > 这个我最开始也碰到了这个问题，我记得应该是返回的格式有问题，具体哪忘了，改了有一段时间了，你可以看看我DeepClaude_Pro这个仓库的代码，就是我把官方代码改造成支持openai格式和支持aider评测了 > > > > 那你可以再测一下deepseek r1的效果，看有没有50 > > > > > > 我自己在使用这边DeepClaude服务端做测试的时候, Aider总是报这个错误 > > <img alt="Image" width="727" src="https://private-user-images.githubusercontent.com/109811387/419926915-339313ad-ad6b-45c9-a23f-d3d2bbf1027a.jpg?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3NDEyODU2ODMsIm5iZiI6MTc0MTI4NTM4MywicGF0aCI6Ii8xMDk4MTEzODcvNDE5OTI2OTE1LTMzOTMxM2FkLWFkNmItNDVjOS1hMjNmLWQzZDJiYmYxMDI3YS5qcGc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjUwMzA2JTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI1MDMwNlQxODIzMDNaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT0xYjFjNzRjODFkYWJiNmY2ZmFiOTVhYmQ2NjRlNzFkOTlmZjk3MjE0NzMxNjU0ZDEzOTA5MjRlZThjMWE5MjNiJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCJ9.2VCtSJUQ_29Zd9k3unKb3HmfASz6LPXm-d2HrKGjNho"> > > 仿佛一直在重试, DeepClaude服务端这边也显示它一直在发请求重试, 这导致Benchmark进度无法被推进. [[@yuanhang110](https://github.com/yuanhang110)](https://github.com/yuanhang110) 请教一下您是如何配置测试环境的. > > 这个我最开始也碰到了这个问题，我记得应该是返回的格式有问题，具体哪忘了，改了有一段时间了，你可以看看我DeepClaude_Pro这个仓库的代码，就是我把官方代码改造成支持openai格式和支持aider评测了我想起来了，好像就是那个流式输出的要求，你得让它支持比如环境变量就配置，默认最后的结果非流式输出

kerem commented

2026-02-27 01:55:55 +03:00

Author

Owner

@zwldarren commented on GitHub (Mar 8, 2025):

@yuanhang110 请问能不能再多测试一下deepclaude是否真的能提高性能。我仔细看了原始仓库和benchmark，aider官方说的R1+Sonnet指的是 R1 is configured in aider’s standard architect role with Sonnet as editor，而不是说把R1的Thinking喂给Sonnet作为输入。而原始的DeepClaude项目其实和那个benchmark没什么关系，甚至引用都已经在上个月被删掉了。

https://aider.chat/2025/01/24/r1-sonnet.html#thinking-output

@zwldarren commented on GitHub (Mar 8, 2025): @yuanhang110 请问能不能再多测试一下deepclaude是否真的能提高性能。我仔细看了原始仓库和benchmark，aider官方说的R1+Sonnet指的是 `R1 is configured in aider’s standard architect role with Sonnet as editor`，而不是说把R1的Thinking喂给Sonnet作为输入。而原始的DeepClaude项目其实和那个benchmark没什么关系，甚至引用都已经在上个月被删掉了。 https://aider.chat/2025/01/24/r1-sonnet.html#thinking-output

kerem commented

2026-02-27 01:55:55 +03:00

Author

Owner

@suyoumo commented on GitHub (Mar 9, 2025):

@yuanhang110 请问能不能再多测试一下deepclaude是否真的能提高性能。我仔细看了原始仓库和benchmark，aider官方说的R1+Sonnet指的是 R1 is configured in aider’s standard architect role with Sonnet as editor，而不是说把R1的Thinking喂给Sonnet作为输入。而原始的DeepClaude项目其实和那个benchmark没什么关系，甚至引用都已经在上个月被删掉了。

https://aider.chat/2025/01/24/r1-sonnet.html#thinking-output

我觉得引用去不去掉问题不大，这个榜单中的前sota的64仍然是r1+sonnet，具体测试结果来说这种组合应该是有用的，只是可能不如架构师模型，那么其实如果实现架构师模型在deepclaude项目中就会带来提升空间，不过问题是，如果是采取模型结果组合方式，2个模型的输出时间是累加的，用户体验会下降，具体可以去看我项目中的数据

@suyoumo commented on GitHub (Mar 9, 2025): > [@yuanhang110](https://github.com/yuanhang110) 请问能不能再多测试一下deepclaude是否真的能提高性能。我仔细看了原始仓库和benchmark，aider官方说的R1+Sonnet指的是 `R1 is configured in aider’s standard architect role with Sonnet as editor`，而不是说把R1的Thinking喂给Sonnet作为输入。而原始的DeepClaude项目其实和那个benchmark没什么关系，甚至引用都已经在上个月被删掉了。 > > https://aider.chat/2025/01/24/r1-sonnet.html#thinking-output 我觉得引用去不去掉问题不大，这个榜单中的前sota的64仍然是r1+sonnet，具体测试结果来说这种组合应该是有用的，只是可能不如架构师模型，那么其实如果实现架构师模型在deepclaude项目中就会带来提升空间，不过问题是，如果是采取模型结果组合方式，2个模型的输出时间是累加的，用户体验会下降，具体可以去看我项目中的数据

kerem commented

2026-02-27 01:55:55 +03:00

Author

Owner

@suyoumo commented on GitHub (Mar 9, 2025):

@yuanhang110 请问能不能再多测试一下deepclaude是否真的能提高性能。我仔细看了原始仓库和benchmark，aider官方说的R1+Sonnet指的是 R1 is configured in aider’s standard architect role with Sonnet as editor，而不是说把R1的Thinking喂给Sonnet作为输入。而原始的DeepClaude项目其实和那个benchmark没什么关系，甚至引用都已经在上个月被删掉了。

https://aider.chat/2025/01/24/r1-sonnet.html#thinking-output

然后我其实测试了r1+claude3.5和r1+claude3.7，都是有提升的，然后就算提升幅度不大，金额也是下降的，所以还是有用的，只是说确实理论上和官方的架构师方式会有差距

@suyoumo commented on GitHub (Mar 9, 2025): > [@yuanhang110](https://github.com/yuanhang110) 请问能不能再多测试一下deepclaude是否真的能提高性能。我仔细看了原始仓库和benchmark，aider官方说的R1+Sonnet指的是 `R1 is configured in aider’s standard architect role with Sonnet as editor`，而不是说把R1的Thinking喂给Sonnet作为输入。而原始的DeepClaude项目其实和那个benchmark没什么关系，甚至引用都已经在上个月被删掉了。 > > https://aider.chat/2025/01/24/r1-sonnet.html#thinking-output 然后我其实测试了r1+claude3.5和r1+claude3.7，都是有提升的，然后就算提升幅度不大，金额也是下降的，所以还是有用的，只是说确实理论上和官方的架构师方式会有差距

Rows
Columns

[GH-ISSUE #53] Benchmark结果 #32