简介:社交媒体信息是互联网信息的一部分,已成为web2.0时代一种不可忽视的资源。社交媒体信息记载着社会公众的日常行为,其中有价值的信息可作为社交媒体档案长期保存,因为它是社会记忆的重要组成部分。但是很多社交媒体信息在得到有效保存前就已经丢失。通过对近几年学术界互联网档案研究热点的归纳分析,总结得出目前学界有关以内容为研究对象的社交媒体档案收集研究薄弱的结论。在借鉴传统档案收集方法的基础上,结合社交媒体的特点,梳理出社交媒体档案的收集范围以及方法,最后基于互联网爬虫技术提出基于内容的社交媒体档案的收集流程。