简介:本文用文本挖掘的方法分析不同层次的大学生英语写作在词汇和主题构思方面的特征。分析的数据来至中国词网公司2016年举行的全国大学生百万同题写作项目收集的部分(2000篇)作文文本。不同层次学生分别来自四川和重庆的三所985高校和8所普通二本院校。研究问题包括:两类学生整体分数差异、词汇量、词频分布、词汇丰富度特征、主题词汇关联以及主题聚类特征。结果表明:985高校学生作文分数明显高于普通二本院校学生;词汇量、词汇丰富度方面,前者也明显高于后者,而词频分布和使用频度高的实义词汇的分布特征相似;与主题词共现程度高的组词,两者相似度高;985高校学生文本提取出三个主题,而普通二本院校学生文本呈现五个主题。