简介:利用社交媒体平台的带时间的签到数据和少量带标注的样本,通过快捷有效的算法对未标记地点进行智能标记。算法首先对签到数据的用户特征和时间特征进行有效抓取,并通过信息熵对数据进行验证和筛选,然后利用杰卡德相似系数对地点之间的相似性关系进行概括,接着使用松弛标记法对地点的标签概率进行计算,最后构造支持向量机分类器,利用带标注的样本对分类器进行训练,从而导入未标记数据进行标记。
简介:Tri—Training是半监督协同训练的代表性算法之一,它运用统计技术标记置信度,并结合噪音学习理论进行无标记样本分类。当扩充样本训练集不满足噪音学习理论时,会进行随机采样,针对传统Tri-Training算法随机选取基础分类器的扩充训练样本集会引入噪声这一缺陷,通过更改扩充样本训练集选取方式,剔除可能提高分类误差的样本。在健康大数据集上进行一系列验证试验,实验结果表明,改进的算法优于原始算法,降低分类错误率。
社交地点分类算法设计与实现
基于改进Tri-Training算法的健康大数据分类模型研究