美国“存储Twitter”，中国也要给博文“建档”( 五 ) 原标题：美国

首先，数据高速膨胀。项目启动三年后， 2013年Gnip终于实现了对1700亿条推文的存储，当时已需要每天存储用户创造的4亿条内容，这对存储空间的消耗十分惊人。移动互联网时代，随着越来越多人使用Twitter ，每天产生的内容高速膨胀，而且短视频等新的内容形式被不断引入——数据大爆炸是整个互联网面临的问题。

其次，数据峰值问题。 Gnip直言，这一项目真正的挑战来自高峰时期对tweets的收集，比如2011年3月日本海啸期等事件的爆发，当时，每秒钟产生的tweet信息数量有好几千。

再次，数据利用问题。碎片化的数据多且杂，要利用它们就需要大数据挖掘等技术。美国国会图书馆的想法是，先把数据存下来再说，怎么用来不及考虑，甚至连归类都来不及做，到现在，这些数据也仅仅是存储下来而已。

最后，数据开放问题。既然是公共图书馆，最大价值就是对全社会开放，数字内容也不例外。在美国国会图书馆启动“Twitter保存项目”后，全世界研究人员都很感兴趣，他们很快收到来自世界各地研究人员的约400个查询请求，查询的主题涉及文化、政治、医疗、经济等诸多方面，然而数据量太大，技术实现不了——即使对2006年和2010年间产生的tweet查阅一边也需要24个小时。