|12306验证码为什么那么变态?都是这项深度学习应用给逼的( 三 )
现在有了二维码 , 主持人说想要和春晚互动的观众朋友 , 扫描屏幕下方的二维码就可以了 , 操作起来就简单太多了 。 所以 , 现在满大街都是二维码 , 就是因为二维码更为便捷 。
不过 , 二维码只能解决两套记录体系并行问题的很小一部分 , 其它手段譬如内置芯片也只能治标不治本 , 毕竟我们人类社会几千年来都以纸作为信息的记录介质 , 已经产生了太多不可能符合机器读取要求的信息 , 要从根本上解决两套记录体系并行的问题 , 还是需要机器具备和人一样的“看图识字”的能力 , 也就是最终还得依靠OCR 。
本文插图
那么 , 现在的OCR技术发展到什么水平 , 又解决了什么实际问题了呢?
我认为 , 一项应用技术最重要的不是听起来有多前沿多高端 , 而是能解决什么实实在在的问题 。 我们说OCR突飞猛进 , 是因为OCR和深度学习结合以后 , 只需要简单拍照 , 就可以直接从图片中提取相应的文字 , 在很多应用场景已经有点“扫码即可”的意思了 。
很多纸质的表格 , 譬如前面说的银行各类业务的表格 , 现在只需要简单地拍照就可以一下完成信息录入 。 以前我们拿到纸质名片 , 还需要手工敲字记录 , 现在很多APP都提供一项功能 , 只要对名片进行拍照 , 就能自动提取上面的文字 。
同时 , OCR带来的不仅仅是简化录入 , 很多传统的软件功能 , 也因为OCR技术的发展 , 而带来了全新的使用体验 。 就说我印象最深的翻译软件 , 翻译软件当然不是什么新产品 , 大家应该都用过 。
但一直以来使用翻译软件都有一个限制 , 那就是不管软件本身的翻译能力有多强 , 你得先录入原文然后才能看到译文 , 这有一个什么问题呢?有一些外语的原文我不知道怎么通过英文键盘输入 , 譬如日文、德文、法文 , 相信不是专门学这些语言的朋友都有和我同样的困扰 。
现在有了OCR就方便多了 , 只需要直接拍照就能提取文字 , 不但解决了输入问题 , 效率还要高得多 , 有些翻译软件干脆就在原图上P上译文 , 更加直接明了 , 让我对翻软件有一种耳目一新的感觉 。
除了翻译软件 , OCR给我们熟悉的产品带来的改变还有很多 , 毕竟只要可以从图片中准确提取文字 , 就有太多的地方等待着我们发挥广阔的想象力 。 譬如说 , 通过OCR技术 , 即使是扫描生成的PDF也支持文本搜索了 。
如果觉得这个例子太小 , 那就说搜索引擎 , 现在的搜索引擎还笨得很 , 输入文字只能搜到文字 , 输入图片只能搜到图片 , 文字和图片是泾渭分明 , 如果你想用文字搜带有这段文字的图片呢?对不起不行 。
不过使用了OCR , 以后也可以以文搜图了 。 譬如你翻老照片时找到一张你光着屁股坐在一块写着一段文字的石头上 , 你想知道这张照片在哪拍的 。 可是现在你去搜这段文字 , 很可能要么就什么都找不到 , 要么就找到一大堆无关的内容 。
未来如果搜索引擎支持搜索图中文字的功能 , 你就能马上找到带有这段文字的其它照片 , 没准其中就有你想要找的内容 。
本文插图
OCR就介绍到这里 , 相信大家对于OCR是什么 , 能做什么 , 未来会有怎样的发展已经有了初步的了解 。 可是 , OCR技术的原理是什么 , 传统的做法是什么 , 现在和深度学习又是怎样结合在一起?
我推荐大家阅读前面提过的这本专门介绍这些问题的书 , 《深度实践OCR:基于深度学习的文字识别》 。 这本书对OCR的介绍很全面 , 先从OCR的发展历程和经典的技术原理说起 , 然后介绍了深度学习的主要技术 , 最后再仔细介绍OCR和深度学术如何结合 , 而且还对如何通过代码实现进行了详细说明 。 看完这本书 , 对OCR的全貌、原理和应用 , 应该就能有比较清晰的了解 。
推荐阅读
- 情感|华为今天如此成功,看一下任正非的岳父是谁,你就知道为什么
- 华为手机|泪奔!等等党的心酸,为什么有些手机它偏不降价?
- 36氪|为什么说远程办公也许会毁了硅谷?
- 硅谷|为什么说远程办公也许会毁了硅谷?
- 科技造就未来|Apple为什么要使用ARM?为什么不从头开始?
- |为什么我店铺流量狂掉?淘宝竞争这么激烈还能不能做?
- 科学,探月|嫦娥五号年内升空 我们为什么要去月亮上“挖土”?
- 科学|嫦娥五号年内升空 我们为什么要去月亮上“挖土”?
- 华为手机|千元机中,为什么很多消费者首选红米?
- 怜雪的纪实|网上电脑为什么比实体店电脑便宜很多?
