美国“存储Twitter”,中国也要给博文“建档”( 六 )
当时 , 美国政府开始推行财政紧缩政策 , 国会图书馆经费紧张 , 此前其在数据收集上已花费一大笔资金 , 没有更多资金投入到数据的挖掘、利用和开放上 。 2018年 , 这一项目再次遇到困难 , Twitter信息爆炸式增长 , 服务器不堪重负 , 美国国会图书馆表示将不再收集Twitter上所有公开推文 , 而是保存他们认为重要的(比如特朗普的?) , 到现在为止 , 这一项目也仅限于数据存储 , 依然未能实现对数据的挖掘、利用和开放 , 当然我们不用怀疑这样做的价值:数据就是资产 , 未来终可挖掘 。
不只是美国 , 澳大利亚、法国、瑞典和荷兰等国都在90年代启动了国家级的互联网数据收集策略 , 相对而言 , 中国“国家图书馆互联网信息战略保存项目”虽然来得较晚 , 却有望基于当下更加成熟的技术和更加独特的模式 , 实现互联网信息存储、利用和开放的多赢 。
国家图书馆凭什么存储整个互联网?
或许是看到了美国国会图书馆与Twitter合作遇到的困难 , “国家图书馆互联网信息战略保存项目”采取了截然不同的模式 。
与美国国会图书馆将Twitter内容存储到合作方的服务器不同 , “国家图书馆互联网信息战略保存项目”采取社会化、分布式和分级式的数据保存机制 , 国家图书馆根据保存规范、数据遴选机制和服务需要提供使用需求 , 互联网公司负责内容存储 , 这样可以避免数据的重复存储 。
将所有互联网数据进行二次存储本身就不现实 。 互联网内容十分多元 , 比如首家参与到这一项目的微博 , 覆盖的数据类型比Twitter更多样 , 不只是有短文字 , 还有短视频、图片和文章等大杂烩内容 , 财报显示 , 2018年12月微博月活已达4.62亿 , 12月日均活跃用户数突破2亿关口 , 微博上的存量内容 , 截至2018年12月已有多达2000多亿条博文、500多亿张图片、4亿个视频和近5000亿互动 , 每天博文增量超过1亿 , 数据量巨大 。 如此海量数据 , 再转存到单独服务器即不可能 , 亦无必要 。
推荐阅读
- 道恩·强森|因长相像巨石强森,美国男子走红,本尊回应:他更酷
- 哈文|哈文晒照透露思乡之情,在国外陪伴女儿读书,守护长眠美国的李咏
- 谷爱凌|“天才少女”谷爱凌:弃美国国籍加入中国国籍,坐拥千万独栋别墅
- 漫威|《美国队长3:英雄内战》影评:漫威最重要的一部电影
- 亚当|美国富豪在巴黎旅游出轨法国嫩模,小三成功上位后遭灭口
- 国籍|美国籍却取中国名,被问是哪国人,她回答:我为有中国血统自豪
- 陈冠希|陈冠希与女儿直播画面过于亲密,嘴对嘴亲吻惹争议,美国超大豪宅曝光
- 刘蓝溪|61岁琼瑶女郎在美国去世!生前露面笑容温暖,婚后息影剃度出家
- Vogue|打破东亚人历史登上美国《VOGUE》封面,全面开挂的她凭什么?
- 舒畅|曾说汶川地震是“报应”的美国女星,现因疫情失去家人,苍天有眼
