简介:ThebackdoororinformationleakofWebserverscanbedetectedbyusingWebMiningtechniquesonsomeabnormalWeblogandWebapplicationlogdata.ThesecurityofWebserverscanbeenhancedandthedamageofillegalaccesscanbeavoided.Firstly,thesystemfordiscoveringthepatternsofinformationleakagesinCGIscriptsfromWeblogdatawasproposed.Secondly,thosepatternsforsystemadministratorstomodifytheircodesandenhancetheirWebsitesecuritywereprovided.Thefollowingaspectsweredescribed:oneistocombinewebapplicationlogwithweblogtoextractmoreinformation,sowebdataminingcouldbeusedtomineweblogfordiscoveringtheinformationthatfirewallandInformationDetectionSystemcannotfind.AnotherapproachistoproposeanoperationmoduleofwebsitetoenhanceWebsitesecurity.Inclusterserversession,Density-BasedClusteringtechniqueisusedtoreduceresourcecostandobtainbetterefficiency.
简介:摘要基于LDD的预取策略如DDP考虑了数据距离,但是没有考虑数据的访问概率和更新频率和数据大小,针对以上问题提出基于价值的数据预取(CDP)策略,一些重要的数据预取因素如访问概率、更新频率、数据项大小、数据距离和有效范围等都包含在价值函数里,根据价值函数值的大小来选择被预取的数据。通过实验对比,CDP比DDP策略更有效的提高缓存的命中率。
简介:用户访问数据中往往存在大量无用或与当前信息挖掘无关的数据,我们通过数据清洗从挖掘对象中去除不相关的数据,并实现了用户识别、会话识别、格式化等步骤,对WEB信息进行预处理,为进一步的操作提供了较好的数据格式,提高了挖掘效率。同时,因特网上的信息往往具有非结构化或半结构化特性,难以得到传统数据挖掘技术的支持,我们通过事务识别技术解决了这一问题,将访问序列组织成逻辑单元以表示事务或用户会话,将所有事务组成一个事务数据库,识别出事务后就可以利用对传统数据挖掘的方法对WEB数据进行挖掘:事务识别技术有多种实现形式,不同形式有不同的应用场合,本文根据特定挖掘任务,实现了以时间维来分割事务的算法,并给出了一些实验数据。