中国网络信息博物馆是由北京大学计算机科学技术系网络实验室2001年开发,2002年初运行至今的一个网页持续搜集、组织存储与再访问系统。十五年来,李晓明课题组积累、磨合了一套大规模、增量式、低成本的技术,收藏了70多亿网页文本数据,涵盖上千万个网站,且大量网页具有多个版本。据了解,这是我国唯一一份时间跨度如此之长、收藏规模如此之大的互联网内容历史数据。

既为基于数据共享的网络大数据研究提供了公开的基础。既为基于数据共享的网络大数据研究提供了公开的基础。既为基于数据共享的网络大数据研究提供了公开的基础。既为基于数据共享的网络大数据研究提供了公开的基础。既为基于数据共享的网络大数据研究提供了公开的基础。既为基于数据共享的网络大数据研究提供了公开的基础。2016年10月21日,中国计算机学会2016年度颁奖大会在山西太原国际会议中心举行。由北京大学信息科学技术学院网络与信息系统研究所李晓明教授、闫宏飞副教授和谢正茂助理研究员等完成的项目“中国网页信息博物馆及其数据开放”获年度科学技术二等奖。

课题组基于天网搜索引擎的高效网页爬虫技术和天网格式的网页存储,使得该项工作得以在普通实验室环境和资源条件下长期开展,并保证了磁盘存储空间的优化利用和网页处理效率。

今年7月14日,实验室将InfoMall所包含的内容整理成中国互联网网页历史数据,无偿捐赠给CCF,实现了大数据的开放共享。这一率先之举,既为基于数据共享的网络大数据研究提供了公开的基础,也为促进其他数据开放共享提供了示范和经验。

相关文章