测试精度对不齐 #15

tackhwa · 2024-10-21T00:23:27Z

System Info

transformers version: 4.38.2
flash-attn version: 2.5.8
Platform: Ubuntu 20.04.6 LTS
Python version: 3.10.14
PyTorch version: 2.1.0+cu121
GPU: NVIDIA A100-SXM4-80GB
CPU: Intel(R) Xeon(R) Platinum 8369B CPU @ 2.90GHz

我对 Janus-1.3B 进行了测试，发现得到的精度和论文里的不一样，以下是我测试得到的精度：

MME-perception	MMBench_DEV_EN_V11	POPE	MMMU_DEV_VAL	MMVet（使用 DeepSeek-V2.5 为评判）
1029.1	47.13	84.41	31.44	41.67

POPE, MMMU, MMVet 的精度可以说是都对的的上，但是 MME-perception 和 MMB 的进度差了太多了，我这里怀疑是不是环境以及模型配置和官方的不一样所导致的，所以这里想请问官方的测试环境以及参数设置，以及会不会开放测试代码。

The text was updated successfully, but these errors were encountered:

tackhwa · 2024-10-21T01:01:35Z

测试代码请详见：PR-531

charlesCXK · 2024-10-21T09:55:31Z

@tackhwa
经过对比，我们发现你的测试配置和我们有些出入。我们这两天会在 VLMEvalKit 上发布测试代码。

charlesCXK · 2024-10-23T05:53:10Z

@tackhwa
你好，evaluation 代码已经弄好，可以成功复现论文中的结果，我们向 VLMEvalKit 提交了 pull request：open-compass/VLMEvalKit#541

tackhwa · 2024-10-23T07:13:36Z

@tackhwa 你好，evaluation 代码已经弄好，可以成功复现论文中的结果，我们向 VLMEvalKit 提交了 pull request：open-compass/VLMEvalKit#541

好的，我已经使用该脚本成功复现论文里的精度了，看来是 prompt 不同导致我之前的脚本复现不了论文里的精度。

StiphyJay · 2025-02-19T04:33:20Z

@tackhwa 你好，evaluation 代码已经弄好，可以成功复现论文中的结果，我们向 VLMEvalKit 提交了 pull request：open-compass/VLMEvalKit#541

好的，我已经使用该脚本成功复现论文里的精度了，看来是 prompt 不同导致我之前的脚本复现不了论文里的精度。

你好，我直接跑出来精度有些偏差，请问是必须要在.env里提供对应的API跑出来的精度才能对上吗？

tackhwa · 2025-02-19T08:53:38Z

@tackhwa 你好，evaluation 代码已经弄好，可以成功复现论文中的结果，我们向 VLMEvalKit 提交了 pull request：open-compass/VLMEvalKit#541

好的，我已经使用该脚本成功复现论文里的精度了，看来是 prompt 不同导致我之前的脚本复现不了论文里的精度。

你好，我直接跑出来精度有些偏差，请问是必须要在.env里提供对应的API跑出来的精度才能对上吗？

是的，我记得官方好像当时用的是4o作为评判，但是我用deepseek2.5跑出来的结果也大差不差。

StiphyJay · 2025-02-20T02:19:11Z

@tackhwa 你好，evaluation 代码已经弄好，可以成功复现论文中的结果，我们向 VLMEvalKit 提交了 pull request：open-compass/VLMEvalKit#541

好的，我已经使用该脚本成功复现论文里的精度了，看来是 prompt 不同导致我之前的脚本复现不了论文里的精度。

你好，我直接跑出来精度有些偏差，请问是必须要在.env里提供对应的API跑出来的精度才能对上吗？

是的，我记得官方好像当时用的是4o作为评判，但是我用deepseek2.5跑出来的结果也大差不差。

你好，再请教一下，如果不使用4o，采用deePseek2.5的话API的话，只需要在.env里配置一下deepseek的API key就可以了吗？还是说也要有其他地方的改动。

tackhwa · 2025-02-20T09:43:46Z

以前的代码不支持deepseek2.5作为评判，我是改了源代码的，忘了哪个文件了，好像是run.py里。你看看run.py里的代码吧。

@tackhwa 你好，evaluation 代码已经弄好，可以成功复现论文中的结果，我们向 VLMEvalKit 提交了 pull request：open-compass/VLMEvalKit#541

好的，我已经使用该脚本成功复现论文里的精度了，看来是 prompt 不同导致我之前的脚本复现不了论文里的精度。

你好，我直接跑出来精度有些偏差，请问是必须要在.env里提供对应的API跑出来的精度才能对上吗？

是的，我记得官方好像当时用的是4o作为评判，但是我用deepseek2.5跑出来的结果也大差不差。

你好，再请教一下，如果不使用4o，采用deePseek2.5的话API的话，只需要在.env里配置一下deepseek的API key就可以了吗？还是说也要有其他地方的改动。

tackhwa closed this as completed Oct 21, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

测试精度对不齐 #15

测试精度对不齐 #15

tackhwa commented Oct 21, 2024

tackhwa commented Oct 21, 2024

charlesCXK commented Oct 21, 2024

charlesCXK commented Oct 23, 2024

tackhwa commented Oct 23, 2024 •

edited

Loading

StiphyJay commented Feb 19, 2025

tackhwa commented Feb 19, 2025

StiphyJay commented Feb 20, 2025

tackhwa commented Feb 20, 2025 •

edited

Loading

测试精度对不齐 #15

测试精度对不齐 #15

Comments

tackhwa commented Oct 21, 2024

System Info

我对 Janus-1.3B 进行了测试，发现得到的精度和论文里的不一样，以下是我测试得到的精度：

tackhwa commented Oct 21, 2024

charlesCXK commented Oct 21, 2024

charlesCXK commented Oct 23, 2024

tackhwa commented Oct 23, 2024 • edited Loading

StiphyJay commented Feb 19, 2025

tackhwa commented Feb 19, 2025

StiphyJay commented Feb 20, 2025

tackhwa commented Feb 20, 2025 • edited Loading

tackhwa commented Oct 23, 2024 •

edited

Loading

tackhwa commented Feb 20, 2025 •

edited

Loading