wedetect-ref 4B finetune和infer问题

您好：
首先感谢您的工作！最近在用wedetect进行一些实验，但遇到一些问题未能解决：
1. 训练：
在H200上我用约4000张图片对wedetect-ref 4B stage3进行微调，但训练非常缓慢，观察到GPU利用率只有30%左右，而CPU负载很高。单卡训练一个epoch大约需要30+小时。调整batch size、prefetch batch等参数训练速度都没有改善。
2. 推理：
预先提取了proposal并保存在本地，推理时直接降proposal送给wedetect-ref，H200单图推理速度大约30s，和paper中5.3fps差距较大。

此外，FA2、bf16等条件已确认没问题。
以下是我trainning log与资源使用情况截图：
训练：
![Image](https://github.com/user-attachments/assets/a20a1f78-5738-47c2-9f61-cb08140f3c53)
GPU：
<img width="716" height="72" alt="Image" src="https://github.com/user-attachments/assets/cbb5b61a-279e-47a9-9553-ddded8f9eaa3" />
CPU：
![Image](https://github.com/user-attachments/assets/95ef86c4-5cf7-4678-8d46-28df4625a8f8)


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

wedetect-ref 4B finetune和infer问题 #16

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

wedetect-ref 4B finetune和infer问题 #16

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions