电脑使用技巧|Excel催化剂-Unicode文本及Html转义字符转换

文本文件的批量性操作 , Excel催化剂已经有非常多的功能 , 常听说许多人对Excel催化剂的印象是功能太杂 , 但试问 , 不是活在真空世界中做数据分析 , 面对一大堆杂乱的数据环境 , 没有足够“杂”的功能来应付 , 真的可以称得上数据神器么?
本篇的两个小功能 , 处理下一般数据采集获取到的非理想文本数据:带unicode字符串的文本和带html特殊符号的文本 。这些功能也是从实际需求中来 。为了让数据处理更加得心应手 , 功能仍然不断新增 。网页采集数据常有的不完善一、html编码问题
【电脑使用技巧|Excel催化剂-Unicode文本及Html转义字符转换】这里说的网页采集 , 当然可以最原始的从网页上复制粘贴回来的数据 , 更自动化的 , 就是使用网页采集工具批量性获取到的数据 。
网页html文本 , 有转义字符如: (大于号>) 、(空格)等 , 这些因为html上有特定的含义 , 需要转义成其他输入字符 。
更多的可见下文截图:
电脑使用技巧|Excel催化剂-Unicode文本及Html转义字符转换
文章图片

文章图片

最终我们还原后 , 应该得到下面的文本才是想要的 。
电脑使用技巧|Excel催化剂-Unicode文本及Html转义字符转换
文章图片

文章图片

二、Unicode格式文本
我们采集到的数据中 , 可能会是以下展示的样式 , 非英文、数字的比如中文 , 用了Unicode字符表示(\u开头的) 。
电脑使用技巧|Excel催化剂-Unicode文本及Html转义字符转换
文章图片

文章图片

我们需要这样的格式 , 才是人阅读和使用的文本 。
电脑使用技巧|Excel催化剂-Unicode文本及Html转义字符转换
文章图片

文章图片

解决办法
既然这么大的共性情况 , 肯定是将它落实到功能上固化 , 有再次出现时可以立马解决 , 这就是Excel催化剂越来越“杂”的由来 。
处理一个文件 , 你说在线转换下就可以 , 处理100个、1000个呢 , 还会这样去做吗?在Excel催化剂里 , 必然是批量性操作最佳使用场合 。自定义函数处理Excel单元格内容
如果数据已经落到Excel的单元格里 , 在做网页采集功能时 , 其实已经将此成套的网页采集相关会用到的功能都做成了自定义函数 。
如下的将html的转义字符解码
电脑使用技巧|Excel催化剂-Unicode文本及Html转义字符转换
文章图片

文章图片

同样地 , Unicode字符串还原为原字符 , 也有自定义函数 。
电脑使用技巧|Excel催化剂-Unicode文本及Html转义字符转换
文章图片

文章图片

除此以外 , 还有大量的转换Utf8、从json提取、从xml提取指定元素、Url转码和还原等一大堆自定义函数 。
电脑使用技巧|Excel催化剂-Unicode文本及Html转义字符转换
文章图片

文章图片

电脑使用技巧|Excel催化剂-Unicode文本及Html转义字符转换
文章图片

文章图片

上述自定义函数使用场景 , 数据源在Excel单元格或提取结果存储在Excel单元格 , 另如果是对整个文件的转换 , 就是本篇开发的两个小功能 。


推荐阅读