@文本提取一秒搞定 华为OCR技术到底厉害在哪?( 二 )


Step2:校正+优化 , OCR是个完美主义
通常情况下 , 检测和识别出的文本通常需要再次核对以保证其正确性 。这是由于在AR场景中 , 通过OCR技术检测到镜头画面的文字 , 将文本区域高亮后展示给用户 , 得到的文档往往都不是很完美 , 很可能带有倾斜或重影;而文字追踪功能保证当镜头移动导致拍摄画面抖动时 , 检测到的文本区域保持在原来的位置不变 。
在这基础上 , 需先进行图像预处理 , 做角度矫正和去噪 , 接着对文档版面进行分析 , 将各个字符送入训练好的OCR识别模型进行字符识别 , 得到结果 , 最后还需要对其进行识别结果的校正和优化 。
Step3:定帧后 , 拖一拖 , 复制文字轻松搞定
当用户希望屏幕画面固定不动 , 可以点击检测到的文本行 , 这时屏幕会定帧 , 用户可手动选择对检测和识别到的文字内容进行拖选 , 其效果类似于在文本文档里 , 用鼠标对文本内容进行拖选 。
要实现文本区域内拖选的功能 , 就需要用到整行拖选技术 。文字整行拖选技术主要是根据OCR检测模型输出文本区域的坐标 , 通过识别用户的点击事件 , 实时记录用户点击的位置 , 并通过上层UX对用户拖选到的区域进行高亮 。经历一系列的操作 , 最后把可复制的文字呈现在用户面前 。
@文本提取一秒搞定 华为OCR技术到底厉害在哪?
文章图片

文章图片

文本提取有哪些难点与挑战?
看似简单操作的文本提取 , 实际要克服的困难可不少 。文字的字体、字号、颜色等不统一 , 容易被误识别;语言种类繁多 , 中文、英文、数字等多种语言混合出现 , 识别难度大;识别时,不可预测光线变化、图片不清、背景复杂干扰等等 , 这些都给文本提取带来了不小的困难 。
对于上述的困难 , 基于华为OCR技术于业内领先的深度学习文字定位功能和文字识别技术 , 无论是生活中复杂多变场景 , 还是不同光照条件 , 华为OCR技术能支持多场景、任意版面的文字识别提取 , 具备英文和数字、多语种(包括中文、日文、韩语、阿拉伯语、英语和欧洲五国语言等)、以及超过7000个常用汉字的简繁体识别能力 , 同时还具有多种垂直场景的识别能力 , 支持识别如身份证、银行卡、名片、驾驶证等 ,满足生活中大部分场景的文本提取需求 。
OCR技术作为AI技术的支撑 , 是一种强有力的识别方式 。文字提取、识别物品、扫描习题、翻译外文时大多都需要依靠OCR技术 , 使用方法简单方便 。如果你正好有华为手机 , 不妨体验一下 。


推荐阅读