租赁GPU云服务器是否能提高算力节省训练时间? #13891
Answered
by
TOMORINAONAO
lin19951031
asked this question in
Q&A
-
大家好,不好意思又来叨扰了。 目前小弟用了1张4060显卡在第一阶段(标记模型)训练 3W+ 的数据图片(epoch_num 3000)就已经需要 3个月+ 的时间。代表如果后续增加数据量训练时间只会增加不会减少,不晓得能不能透过租赁GPU服务器缩减训练时长或有没有办法可以加速。 谢谢指教。 |
Beta Was this translation helpful? Give feedback.
Answered by
TOMORINAONAO
Sep 23, 2024
Replies: 1 comment 4 replies
-
需要3000个epoch这么多么,我也不是很专业,不过我自己更改字典训练也只是选择50epoch和100epoch。我是简繁体合一起训练,12000的字典,1000多w的数据,50个epoch准确率有85左右。我的场景下绝大部分都可以识别准确,个别涉及字母或符号的会出错。 |
Beta Was this translation helpful? Give feedback.
4 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
首先分场景,我的场景是英文、中文简体、中文繁体,然后是包含横排和竖排文字,所以我准备了六种数据集。每一种都准备了一二百万张,每行的字数从五个字到三十来字的都有(我的目标场景是文档场景识别,所以文字长度参考了常见文档长度,图片背景颜色同理)。
paddleocr官方也给过参考意见说每一个字符出现要在200次以上,同时要平衡各字符的比例不要差太多。
我个人的经验是训练出来的模型识别文字效果都很好,标点符号的识别相比官方模型有所下降,然后就在合成数据的时候额外多加了很多符号。