简介:摘要目的分析国家针对青少年艾滋病防治投放的核心知识宣传信息与“百度知道”文本挖掘词频差异。方法采用网络数据采集方法(即数据爬虫),采集并整理截至2018年6月11日“百度知道”上在线查询者关于艾滋病提问的相关信息;国家针对青少年艾滋病投放的核心宣传信息(简称核心知识宣传信息)由《大众人群艾滋病知识知晓率问卷》和《青年学生人群艾滋病知识知晓率问卷》,及14条针对青年学生艾滋病防治宣传教育核心知识构成。根据官方分类将所有数据分为预防,检测和治疗,危险性认识、症状和传播,法律法规、歧视与政策4类。利用中文文本分词、词频统计、对比分析和词频可视化呈现等文本挖掘方法比较去除无用词后以上两方面信息的差异。结果“百度知道”信息中,预防,检测和治疗,危险性认识、症状和传播,法律法规、歧视与政策类词频数量分别为18 942、43 140、73 437和33 859个;核心知识宣传信息中,4类词频数量分别为371、241、208和136个。核心知识宣传信息的语义相关词词频中,占总词频比例最高的为预防类(32.3%,162个),最低的为法律法规类(14.1%,71个);“百度知道”信息的语义相关词词频中,最高的为检测与治疗类(51.7%,51 264个),最低的为预防类(11.4%,11 272个)。两方面信息完全重复词占核心知识宣传信息词频比例为59.3%~63.9%;完全重复词占“百度知道”信息4类词频比例相对较低,预防类、检测与治疗类均大于45%,症状和传播类为34.3%(14 781个),法律法规类最低,仅为17.0%(5 744个)。结论对比官方投放和“百度知道”,法律法规类和预防类词频对比差异较大,建议在核心知识宣传中结合青少年需求和兴趣增补和改进相关内容。