美国“存储Twitter”，中国也要给博文“建档”( 六 ) 原标题：美国

当时，美国政府开始推行财政紧缩政策，国会图书馆经费紧张，此前其在数据收集上已花费一大笔资金，没有更多资金投入到数据的挖掘、利用和开放上。 2018年，这一项目再次遇到困难， Twitter信息爆炸式增长，服务器不堪重负，美国国会图书馆表示将不再收集Twitter上所有公开推文，而是保存他们认为重要的（比如特朗普的？），到现在为止，这一项目也仅限于数据存储，依然未能实现对数据的挖掘、利用和开放，当然我们不用怀疑这样做的价值：数据就是资产，未来终可挖掘。

不只是美国，澳大利亚、法国、瑞典和荷兰等国都在90年代启动了国家级的互联网数据收集策略，相对而言，中国“国家图书馆互联网信息战略保存项目”虽然来得较晚，却有望基于当下更加成熟的技术和更加独特的模式，实现互联网信息存储、利用和开放的多赢。

国家图书馆凭什么存储整个互联网？

或许是看到了美国国会图书馆与Twitter合作遇到的困难， “国家图书馆互联网信息战略保存项目”采取了截然不同的模式。

与美国国会图书馆将Twitter内容存储到合作方的服务器不同， “国家图书馆互联网信息战略保存项目”采取社会化、分布式和分级式的数据保存机制，国家图书馆根据保存规范、数据遴选机制和服务需要提供使用需求，互联网公司负责内容存储，这样可以避免数据的重复存储。

将所有互联网数据进行二次存储本身就不现实。互联网内容十分多元，比如首家参与到这一项目的微博，覆盖的数据类型比Twitter更多样，不只是有短文字，还有短视频、图片和文章等大杂烩内容，财报显示， 2018年12月微博月活已达4.62亿， 12月日均活跃用户数突破2亿关口，微博上的存量内容，截至2018年12月已有多达2000多亿条博文、500多亿张图片、4亿个视频和近5000亿互动，每天博文增量超过1亿，数据量巨大。如此海量数据，再转存到单独服务器即不可能，亦无必要。