Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

测试精度对不齐 #15

Closed
tackhwa opened this issue Oct 21, 2024 · 8 comments
Closed

测试精度对不齐 #15

tackhwa opened this issue Oct 21, 2024 · 8 comments

Comments

@tackhwa
Copy link

tackhwa commented Oct 21, 2024

System Info

  • transformers version: 4.38.2
  • flash-attn version: 2.5.8
  • Platform: Ubuntu 20.04.6 LTS
  • Python version: 3.10.14
  • PyTorch version: 2.1.0+cu121
  • GPU: NVIDIA A100-SXM4-80GB
  • CPU: Intel(R) Xeon(R) Platinum 8369B CPU @ 2.90GHz

我对 Janus-1.3B 进行了测试,发现得到的精度和论文里的不一样,以下是我测试得到的精度:

MME-perception MMBench_DEV_EN_V11 POPE MMMU_DEV_VAL MMVet(使用 DeepSeek-V2.5 为评判)
1029.1 47.13 84.41 31.44 41.67
  • POPE, MMMU, MMVet 的精度可以说是都对的的上,但是 MME-perceptionMMB 的进度差了太多了,我这里怀疑是不是环境以及模型配置和官方的不一样所导致的,所以这里想请问官方的测试环境以及参数设置,以及会不会开放测试代码。
@tackhwa
Copy link
Author

tackhwa commented Oct 21, 2024

测试代码请详见:PR-531

@charlesCXK
Copy link
Collaborator

@tackhwa
经过对比,我们发现你的测试配置和我们有些出入。我们这两天会在 VLMEvalKit 上发布测试代码。

@tackhwa tackhwa closed this as completed Oct 21, 2024
@charlesCXK
Copy link
Collaborator

@tackhwa
你好,evaluation 代码已经弄好,可以成功复现论文中的结果,我们向 VLMEvalKit 提交了 pull request:open-compass/VLMEvalKit#541

@tackhwa
Copy link
Author

tackhwa commented Oct 23, 2024

@tackhwa 你好,evaluation 代码已经弄好,可以成功复现论文中的结果,我们向 VLMEvalKit 提交了 pull request:open-compass/VLMEvalKit#541

好的,我已经使用该脚本成功复现论文里的精度了,看来是 prompt 不同导致我之前的脚本复现不了论文里的精度。

@StiphyJay
Copy link

@tackhwa 你好,evaluation 代码已经弄好,可以成功复现论文中的结果,我们向 VLMEvalKit 提交了 pull request:open-compass/VLMEvalKit#541

好的,我已经使用该脚本成功复现论文里的精度了,看来是 prompt 不同导致我之前的脚本复现不了论文里的精度。

你好,我直接跑出来精度有些偏差,请问是必须要在.env里提供对应的API跑出来的精度才能对上吗?

@tackhwa
Copy link
Author

tackhwa commented Feb 19, 2025

@tackhwa 你好,evaluation 代码已经弄好,可以成功复现论文中的结果,我们向 VLMEvalKit 提交了 pull request:open-compass/VLMEvalKit#541

好的,我已经使用该脚本成功复现论文里的精度了,看来是 prompt 不同导致我之前的脚本复现不了论文里的精度。

你好,我直接跑出来精度有些偏差,请问是必须要在.env里提供对应的API跑出来的精度才能对上吗?

是的,我记得官方好像当时用的是4o作为评判,但是我用deepseek2.5跑出来的结果也大差不差。

@StiphyJay
Copy link

@tackhwa 你好,evaluation 代码已经弄好,可以成功复现论文中的结果,我们向 VLMEvalKit 提交了 pull request:open-compass/VLMEvalKit#541

好的,我已经使用该脚本成功复现论文里的精度了,看来是 prompt 不同导致我之前的脚本复现不了论文里的精度。

你好,我直接跑出来精度有些偏差,请问是必须要在.env里提供对应的API跑出来的精度才能对上吗?

是的,我记得官方好像当时用的是4o作为评判,但是我用deepseek2.5跑出来的结果也大差不差。

你好,再请教一下,如果不使用4o,采用deePseek2.5的话API的话,只需要在.env里配置一下deepseek的API key就可以了吗?还是说也要有其他地方的改动。

@tackhwa
Copy link
Author

tackhwa commented Feb 20, 2025

以前的代码不支持deepseek2.5作为评判,我是改了源代码的,忘了哪个文件了,好像是run.py里。你看看run.py里的代码吧。

@tackhwa 你好,evaluation 代码已经弄好,可以成功复现论文中的结果,我们向 VLMEvalKit 提交了 pull request:open-compass/VLMEvalKit#541

好的,我已经使用该脚本成功复现论文里的精度了,看来是 prompt 不同导致我之前的脚本复现不了论文里的精度。

你好,我直接跑出来精度有些偏差,请问是必须要在.env里提供对应的API跑出来的精度才能对上吗?

是的,我记得官方好像当时用的是4o作为评判,但是我用deepseek2.5跑出来的结果也大差不差。

你好,再请教一下,如果不使用4o,采用deePseek2.5的话API的话,只需要在.env里配置一下deepseek的API key就可以了吗?还是说也要有其他地方的改动。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants