Skip to content

租赁GPU云服务器是否能提高算力节省训练时间? #13891

Answered by TOMORINAONAO
lin19951031 asked this question in Q&A
Discussion options

You must be logged in to vote

第一次尝试使用训练,所以对参数的拿捏比较没有底。可以向您请教您的数据量大概在多少张?每张标记的字数是多少吗?谢谢您。

首先分场景,我的场景是英文、中文简体、中文繁体,然后是包含横排和竖排文字,所以我准备了六种数据集。每一种都准备了一二百万张,每行的字数从五个字到三十来字的都有(我的目标场景是文档场景识别,所以文字长度参考了常见文档长度,图片背景颜色同理)。
paddleocr官方也给过参考意见说每一个字符出现要在200次以上,同时要平衡各字符的比例不要差太多。
我个人的经验是训练出来的模型识别文字效果都很好,标点符号的识别相比官方模型有所下降,然后就在合成数据的时候额外多加了很多符号。

Replies: 1 comment 4 replies

Comment options

You must be logged in to vote
4 replies
@lin19951031
Comment options

@TOMORINAONAO
Comment options

Answer selected by lin19951031
@TOMORINAONAO
Comment options

@lin19951031
Comment options

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Category
Q&A
Labels
None yet
2 participants