美国“存储Twitter”,中国也要给博文“建档”( 六 )

当时 , 美国政府开始推行财政紧缩政策 , 国会图书馆经费紧张 , 此前其在数据收集上已花费一大笔资金 , 没有更多资金投入到数据的挖掘、利用和开放上 。 2018年 , 这一项目再次遇到困难 , Twitter信息爆炸式增长 , 服务器不堪重负 , 美国国会图书馆表示将不再收集Twitter上所有公开推文 , 而是保存他们认为重要的(比如特朗普的?) , 到现在为止 , 这一项目也仅限于数据存储 , 依然未能实现对数据的挖掘、利用和开放 , 当然我们不用怀疑这样做的价值:数据就是资产 , 未来终可挖掘 。

不只是美国 , 澳大利亚、法国、瑞典和荷兰等国都在90年代启动了国家级的互联网数据收集策略 , 相对而言 , 中国“国家图书馆互联网信息战略保存项目”虽然来得较晚 , 却有望基于当下更加成熟的技术和更加独特的模式 , 实现互联网信息存储、利用和开放的多赢 。

国家图书馆凭什么存储整个互联网?

或许是看到了美国国会图书馆与Twitter合作遇到的困难 , “国家图书馆互联网信息战略保存项目”采取了截然不同的模式 。

与美国国会图书馆将Twitter内容存储到合作方的服务器不同 , “国家图书馆互联网信息战略保存项目”采取社会化、分布式和分级式的数据保存机制 , 国家图书馆根据保存规范、数据遴选机制和服务需要提供使用需求 , 互联网公司负责内容存储 , 这样可以避免数据的重复存储 。

将所有互联网数据进行二次存储本身就不现实 。 互联网内容十分多元 , 比如首家参与到这一项目的微博 , 覆盖的数据类型比Twitter更多样 , 不只是有短文字 , 还有短视频、图片和文章等大杂烩内容 , 财报显示 , 2018年12月微博月活已达4.62亿 , 12月日均活跃用户数突破2亿关口 , 微博上的存量内容 , 截至2018年12月已有多达2000多亿条博文、500多亿张图片、4亿个视频和近5000亿互动 , 每天博文增量超过1亿 , 数据量巨大 。 如此海量数据 , 再转存到单独服务器即不可能 , 亦无必要 。


推荐阅读