批量随机键值的查询优化( 三 )

如果键值数据有比较明显的业务特征，我们可以考虑按照实际业务场景使用日期、部门之类的字段来对数据进行拆分。如：将属于部门 A 的 1000 条记录均分在 10 份数据中，每份数据就有 100 条记录。在利用多线程查询属于部门 A 的记录时，每个线程就会从各自对应的数据中取数相应的这 100 条记录了。
对于没有什么特征的数据，尤其是随机数，可以考虑按整数的尾数取余数来分成 N 份数据。这样可以尽可能地确保每份数据中数据量的均匀分配。
4.2 举例

本文插图
基于以上数据结构，数据拆分以及建立组表：

本文插图
A2：使用循环函数，创建名为“键值名 _ 键值取 N 的余数.ctx”的组表文件，其结构同为 (#id,data) 。
A3：用循环函数将游标数据分别追加到 N 个原组表上。此处 N 为参数，假设 N=4 ，当循环第一次时，拼出的 eval 函数参数为：channel(A1).select(id%4==0).attach(A2(1).append(~.cursor())) 。意思是对游标 A1 创建管道，将管道中记录按键值 id 取 4 的余数，将余数值等于 0 的记录过滤出来。 attach 是对当前管道的附加运算，表示取和当前余数值对应的原组表，将当前管道中筛选过滤出的记录，以游标记录的方式追加到 A2(1) ，即第 1 个组表。
多线程并行创建索引：

本文插图
A1：使用 fork 执行多线程时，需要注意环境中的并行限制数是否设置合理。
多线程并行查询：

本文插图
【批量随机键值的查询优化】
需要注意的是，将待查找的批量键值用和拆分组表数据同样的规则拆分后，在各自对应的组表中进行查找。并且取数动作应当在多线程并行内完成，而不是将各自的游标返回后再取数。
五、数据追加
对于大数据来说，新数据的追加是不可避免的。数据追加通常要考虑原数据与追加数据的关系，较简单的情况是连续有序的数据，直接在原数据尾部追加新数据，对追加后的数据，还需要更新索引。如果新数据与原数据，整体不是连续有序，就需要在追加数据时做归并运算，并随后更新索引。尤其是当原数据变得很大时，原数据与新数据的频繁归并、每次追加后更新索引，都会带来极高的时间成本和磁盘损耗问题。
这种情况可以建立一份临时数据区来存放每次追加的新数据，当这个临时数据区达到一定规模（在数据增量较为稳定的情况下也可以按时间来决定，比如每个月初），就将临时数据区（小数据）与原数据（大数据）进行一次归并，并更新索引。查找时可以将大小两份数据在逻辑上合并为一份数据后进行查找。
无序的数据追加时，因为索引就是排序的，要重建索引也会面临以上有序数据追加时的问题，还是需要大小两份数据的办法，等积累多了再重建索引。
5.1 举例

本文插图
SPL提供了补文件的功能，可以方便地应对复杂的数据追加场景。
单个文件时，利用补文件追加数据：

本文插图
A1：add.txt 是新增数据（这里假设数据来自文本文件，实际也可能来自数据库等其他数据来源），与已有文件结构相同，均为 (#id,data) ，其中 id 有序。

批量随机键值的查询优化( 三 )

推荐阅读

干紫菜能生吃吗

『军事聊聊聊』最值得入手的是它，奇迹暖暖：联盟梦幻工坊34件套装大起底

双离合是自动挡吗双离合是什么意思

热门美剧|官方计划引入新角色，DC剧《蝙蝠女侠》未来：首季女主退出

曾令旭|又一个小丁？曾令旭开始投篮，媒体人：想拿身体做赌注强行复出！

#国际之识#患者死亡率竟高达50％，英国重症监护房坚持只接受最严重病人

情感日记文字简单，纯粹，知道自己想要什么，真正的成熟

解放碑“包姐”的麻辣生活

特朗普金色头发变得花白|特朗普金色头发变得花白引发美国网友关注

李玉成|85岁马玉琴感冒加重，李玉成却被新欢追到家里，网友：丢人现眼

坐飞机的流程和注意事项怎么坐飞机

苦瓜肉片

2020年大牌口红推荐一下

成功人士的三大特点成功人士的特点

红酒酒精度高还是啤酒酒精度高红酒酒精度比啤酒高吗

时尚街拍酱搭|舒适休闲，时髦百搭，简单洁白的运动套装穿搭

澳洲留学：莫纳什大学申请条件和申请时间介绍

吓人|墨香家族祖传厨艺太吓人，魏无羡是食物终结者，谢怜做饭要人命

央视新闻客户端|霞姐带你追火星Vlog丨揭秘“天问一号”如何在太空保持轨道 如何入环火轨道

偶尔吃一次榴莲会不会胖偶尔吃一次榴莲会不会胖一点