Markdown Tester

该测评脚本用于评价markdown文档相似性，从段落、标题、表格和公式四个维度进行评价：

指标	说明
段落识别率	段落匹配的个数（段落编辑距离小于0.2） / 预测出的总段落数
段落召回率	段落匹配的个数（段落编辑距离小于0.2）/ 总的段落数
段落f1	2 * (段落识别率 * 段落召回率) / (段落识别率 + 段落召回率)
标题识别率	标题匹配的个数（标题编辑距离小于0.2） / 预测出的总标题数
标题召回率	标题匹配的个数（标题编辑距离小于0.2）/ 总的标题数
标题f1	2 * (标题识别率 * 标题召回率) / (标题识别率 + 标题召回率)
标题树状编辑距离	所有标题树编辑距离分数之和（pred，包含文字）/ 总标题数量（gt）
表格文本全对率	文本全对的表格个数（pred）/ 总表格个数（gt）
表格树状编辑距离	所有表格树编辑距离分数之和（pred，包含文字）/ 总表格数量（gt）
表格结构树状编辑距离	所有表格树编辑距离分数之和（pred，不包含文字）/ 总表格数量（gt）
公式识别率	公式匹配的个数（公式编辑距离小于0.2） / 预测出的总公式数
公式召回率	公式匹配的个数（公式编辑距离小于0.2）/ 总的公式数
公式f1	2 * ( 公式识别率 * 公式召回率) / (公式识别率 + 公式召回率)
阅读顺序指标	计算预测值和真值中，所有匹配段落的编辑距离

使用方法

./install.sh

dataset/
├── pred/
│   ├── gpt-4o/
│   ├── vendor_A/
│   ├── vendor_B/
│   ├── ...
├── gt/

python run_test.py --pred_path path_to_pred_md  --gt_path path_to_gt_md

其中：

表格

雷达图

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
dataset		dataset
doc		doc
font		font
tester		tester
.gitignore		.gitignore
README.md		README.md
install.sh		install.sh
requirements.txt		requirements.txt
run_test.py		run_test.py
utils.py		utils.py