美国“存储Twitter”,中国也要给博文“建档”( 五 )

首先 , 数据高速膨胀 。 项目启动三年后 , 2013年Gnip终于实现了对1700亿条推文的存储 , 当时已需要每天存储用户创造的4亿条内容 , 这对存储空间的消耗十分惊人 。 移动互联网时代 , 随着越来越多人使用Twitter , 每天产生的内容高速膨胀 , 而且短视频等新的内容形式被不断引入——数据大爆炸是整个互联网面临的问题 。

其次 , 数据峰值问题 。 Gnip直言 , 这一项目真正的挑战来自高峰时期对tweets的收集 , 比如2011年3月日本海啸期等事件的爆发 , 当时 , 每秒钟产生的tweet信息数量有好几千 。

再次 , 数据利用问题 。 碎片化的数据多且杂 , 要利用它们就需要大数据挖掘等技术 。 美国国会图书馆的想法是 , 先把数据存下来再说 , 怎么用来不及考虑 , 甚至连归类都来不及做 , 到现在 , 这些数据也仅仅是存储下来而已 。

最后 , 数据开放问题 。 既然是公共图书馆 , 最大价值就是对全社会开放 , 数字内容也不例外 。 在美国国会图书馆启动“Twitter保存项目”后 , 全世界研究人员都很感兴趣 , 他们很快收到来自世界各地研究人员的约400个查询请求 , 查询的主题涉及文化、政治、医疗、经济等诸多方面 , 然而数据量太大 , 技术实现不了——即使对2006年和2010年间产生的tweet查阅一边也需要24个小时 。

美国“存储Twitter”,中国也要给博文“建档”

----美国“存储Twitter” , 中国也要给博文“建档”//----江苏龙网 http://www.jiangsulong.com //

美国国会图书馆在2013年公布的白皮书中写到:

“让研究人员获得这些数据的技术水平要明显落后于这些数据的产生和传播的技术水平 。 现在技术不足 , 而开发这些技术的成本非常高 。 ”


推荐阅读