您好:
首先感谢您的工作!最近在用wedetect进行一些实验,但遇到一些问题未能解决:
- 训练:
在H200上我用约4000张图片对wedetect-ref 4B stage3进行微调,但训练非常缓慢,观察到GPU利用率只有30%左右,而CPU负载很高。单卡训练一个epoch大约需要30+小时。调整batch size、prefetch batch等参数训练速度都没有改善。
- 推理:
预先提取了proposal并保存在本地,推理时直接降proposal送给wedetect-ref,H200单图推理速度大约30s,和paper中5.3fps差距较大。
此外,FA2、bf16等条件已确认没问题。
以下是我trainning log与资源使用情况截图:
训练:

GPU:

CPU:

您好:
首先感谢您的工作!最近在用wedetect进行一些实验,但遇到一些问题未能解决:
在H200上我用约4000张图片对wedetect-ref 4B stage3进行微调,但训练非常缓慢,观察到GPU利用率只有30%左右,而CPU负载很高。单卡训练一个epoch大约需要30+小时。调整batch size、prefetch batch等参数训练速度都没有改善。
预先提取了proposal并保存在本地,推理时直接降proposal送给wedetect-ref,H200单图推理速度大约30s,和paper中5.3fps差距较大。
此外,FA2、bf16等条件已确认没问题。



以下是我trainning log与资源使用情况截图:
训练:
GPU:
CPU: