先对pdf数据格式做统一的处理,二值化,尽可能保证文字为纯黑,背景为白,图片不考虑
拉高对比度,或者根据文字rgb和背景rgb的差做二值化,两大问题:一:避免浅色文字和拍照时带阴影的背景被同时变白或变黑,错误二值化;二:水印与文字要区分开
对图片做最大池化,再二值化区分文字区域和空白区域,根据黑色区域的像素位置(可以先对黑色区域画框)反向计算出图片中的文本区域,根据文本区域做第一步裁剪,可以理解为换分段落,将分段排序,再做单行文本切割和文字识别。

标签: none

添加新评论