学科分类
/ 1
8 个结果
  • 简介:摘要传统的生存分析方法虽在生物医学领域已有广泛应用,但需满足一些前提假设。随机生存森林方法可克服这一弱点。本文以美国梅奥诊所的肝脏原发性胆汁肝硬化的数据为例,从随机生存森林的原理、建模步骤、实例演示和适用性讨论等方面进行阐述,以期为读者进行生存分析提供新的思路和方法。

  • 标签: 模型,统计学 人工智能 随机生存森林
  • 简介:

  • 标签:
  • 简介:摘要目的建立随机森林模型预测急性心肌梗死(acute myocardial infarction,AMI)患者并发急性肾损伤(acute kidney injury, AKI)。方法使用温州医科大学附属东阳医院大数据平台,筛选出1 363例患AMI的病例,确定30个变量后,统计分析样本临床特点,将样本划分为75%的训练集建立随机森林模型,以及25%的测试集进行验证,使用R语言进行数据的筛选及模型的建立。最后根据特异性、敏感性、准确性、受试者特征工作特征曲线(relative operating characteristic curve, ROC曲线)等来评估模型性能,同时与其他三种常用的机器学习算法(神经网络,朴素贝叶斯,支持向量机)的模型性能进行比较。结果AMI合并AKI的患者的人口学信息、心血管疾病的危险因素、入院时的生命体征、实验室检查等与未合并急性肾损伤的患者存在差异性。模型评估后得出测试集的ROC曲线下面积为0.893,特异度为0.791,灵敏度为0.866,其中入院首次肌酐、首次尿素、D-二聚体、年龄、机械通气是其最重要的影响因素。在本研究中,多种机器学习算法比较后,随机森林模型较有优势。结论建立的随机森林模型具有帮助预测AMI并发AKI的潜力。

  • 标签: 急性心肌梗死 急性肾损伤 随机森林 预测模型
  • 作者: 庞海玉 朱兰 徐涛 刘青 李兆艾 龚健 王玉玲 汪俊涛 夏志军 郎景和
  • 学科: 医药卫生 >
  • 创建时间:2021-09-05
  • 出处:《中华妇产科杂志》 2021年第08期
  • 机构:中国医学科学院北京协和医学院北京协和医院医学科学研究中心 疑难重症及罕见病国家重点实验室 100730,中国医学科学院北京协和医学院北京协和医院妇产科 国家妇产疾病临床研究中心 100730,中国医学科学院基础医学研究所北京协和医学院基础学院流行病及统计学系 100005,甘肃省妇幼保健院妇产科,兰州 730050,山西省儿童医院 山西省妇幼保健院妇产科,太原 030013,南京医科大学附属无锡妇幼保健院妇产科 214001,广东省佛山市妇幼保健院妇产科 528000,贵阳市妇幼保健院妇产科 550001,中国医科大学附属盛京医院妇产科,沈阳 110004
  • 简介:摘要目的应用机器学习中的随机森林算法探讨中国女性尿失禁(UI)发病的危险因素,并评价各危险因素对于UI发病的预测效果。方法采用多阶段分层整群抽样,在全国调查55 477例成年女性UI情况;基线调查于2014年2月至2016年1月完成,2018年6月至12月电话随访;最终纳入基线无UI且随访UI诊断指标数据完整的对象。采用欠采样技术,按照1∶1的比例从随访时未发生UI的人群中随机抽取与随访对新发UI相等人数作为对照,将这些调查对象的研究数据按照7∶3的比例随机分成训练集和测试集。将单因素分析中P<0.2的候选变量,带入训练集并采用随机森林算法建模,在训练集筛选UI发病的危险因素,根据重要性对危险因素排序,并在测试集中验证。结果共30 658例(55.26%,30 658/55 477)完成随访,中位随访时间3.7年。纳入本研究的24 985例基线无UI的对象中,随访调查UI发病人数为1 757例(7.03%,1 757/24 985),其中压力性UI 1 117例(4.47%,1 117/24 985),急迫性UI 243例(0.97%,243/24 985),混合性UI 397例(1.59%,397/24 985)。随机森林模型固定特征数量为2个、决策树数量为300棵时,平均袋外估计误差率最低,此时模型分类准确率为64.3%,敏感度为64.2%,特异度为64.4%。根据Gini系数平均下降量,得到预测UI发病的前10位影响因素依次为:年龄、分娩次数、分娩方式、体质指数(BMI)、绝经状态、糖尿病史、教育程度、盆腔手术史、城乡分布、婚姻状况。结论应用机器学习中的随机森林算法,从复杂的多因素中识别出预测中国女性UI发病的前10位影响因素,依次为:年龄、分娩次数、分娩方式、BMI、绝经状态、糖尿病史、教育程度、盆腔手术史、城乡分布、婚姻状况。

  • 标签: 尿失禁 危险因素 随机分配 算法 机器学习 纵向研究 随机森林
  • 简介:摘要目的探讨家庭早期的风险因素与青少年内化问题的关系。方法随机选取746名青少年进行家庭早期风险因素的评估和内化问题的调查。采用Welch's ANOVA检验和事后两两比较分析三个不同风险因素水平在内化问题得分上的差异。采用独立样本t检验比较经历风险因素种类≥5种与<5种青少年的内化问题得分,以及Pearson相关分析对个体经历家庭风险因素的个数与内化问题得分进行相关性检验。利用随机森林回归分析检验影响内化问题的变量重要性(variable importance,VI)。结果不同水平的家庭早期风险因素在焦虑抑郁因子、退缩因子上的得分差异均有统计学意义(均P<0.05);经历5种以上(包括5种)风险因素青少年的焦虑抑郁[(7.7±3.5)分]、退缩因子[(8.8±4.0)分]以及躯体因子[(4.1±3.7)分]显著高于经历5种风险因素以下青少年的得分[(5.5±3.8)分,(6.7±3.4)分,(2.6±3.6)分](t=7.25,7.54,6.51,均P<0.01);个体经历风险因素的累积个数分别与焦虑抑郁、退缩因子、躯体因子得分呈正相关(r=0.29,0.30,0.26,均P<0.01);父母婚姻关系和家庭成员的健康状况是焦虑抑郁(VI=0.84,P=0.002;VI=0.56,P=0.022)、退缩因子(VI=0.58,P=0.013;VI=0.89,P=0.001)以及躯体因子(VI=0.58,P=0.014;VI=0.65,P= 0.011)的重要变量。结论父母婚姻关系及家庭成员的健康状况是影响内化问题的"特异性"因素,同时经历风险水平越高,个体出现内化问题的可能性越大。

  • 标签: 风险因素 内化问题 青少年 随机森林回归
  • 简介:摘要目的构建预测电离辐射诱导DNA双链断裂(DSB)水平的随机森林分类模型,初步研究DSB在基因组中的分布规律。方法将GRCh38参考基因组分为50 kb的片段,根据MCF-7细胞的测序数据把片段分为电离辐射诱导的DSB低水平和高水平区域,以8种表观遗传学特征作为输入,随机将数据集的2/3列为训练集,1/3列为测试集,构建含100棵决策树的随机森林分类模型。分析分类模型中表观遗传学的特征重要性,展示这些标记在不同DSB水平区域的富集差异。结果随机森林分类模型在测试集上预测的准确率为99.4%,精准率为98.9%,召回率为99.9%,受试者操作特征曲线下面积为0.994。8个特征中H3K36me3和DNase标记的重要性最高,富集分析表明DSB高水平区域的这两类标记明显高于DSB低水平区域。结论以表观遗传学数据作为特征输入,随机森林分类模型可在50 kb基因组区域上准确预测电离辐射诱导的DSB水平,分析表明这些DSB可能主要分布在基因组中转录活跃的部位。

  • 标签: 电离辐射 DNA双链断裂 随机森林 分类模型 表观遗传学
  • 简介:摘要目的探讨血液检测指标及其变化情况与空腹血糖受损的关系,进行风险预测研究。方法以2018年1月至2019年12月在山东第一医科大学第一附属医院健康管理中心进行健康体检、2次体检时间间隔6个月及以上、第1年进行健康体检时无糖尿病史且空腹血糖正常者为研究对象,以第2年空腹血糖水平为因变量,分别以第1年一般检查和血液检查指标、第2年一般检查和血液检查指标的变化量为自变量构建模型。首先使用随机森林模型筛选自变量,然后拟合Logistic回归模型计算自变量的效应值。结果共纳入研究对象4 416人,经1年随访,基线血糖正常者中3.45%(133/3 851)发展为糖尿病前期血糖,0.42%(16/3 851)发展为糖尿病血糖。利用血液检测指标预测1年后空腹血糖变化情况的灵敏度为67.1%,特异度为100.0%,年龄偏大(OR值为1.024,95%CI 1.014~1.035)、收缩压偏高(OR值为1.018,95%CI 1.011~1.025)、体质量指数偏高(OR值为1.079,95%CI 1.036~1.125)、尿酸偏高(OR值为1.003,95%CI 1.002~1.005)、谷氨酰转肽酶偏高(OR值为1.006,95%CI 1.003~1.010)、肌酐偏低(OR值为0.971,95%CI 0.957~0.985)、AST/ALT偏低(OR值为0.614,95%CI 0.411~0.917)、估算的肾小球滤过率偏低(OR值为0.972,95%CI 0.958~0.988)者1年后出现空腹血糖受损的可能性大。利用血液检测指标的变化情况预测1年后空腹血糖变化情况的灵敏度为65.2%,特异度为99.7%,1年内三酰甘油升高(OR值为1.152,95%CI 1.057~1.257)、碱性磷酸酶升高(OR值为1.021,95%CI 1.012~1.030)、白蛋白升高(OR值为1.087,95%CI 1.029~1.148)、AST升高(OR值为1.006,95%CI 1.003~1.009)、体质量增加(OR值为1.049,95%CI 1.019~1.081)者出现空腹血糖受损的可能性大。结论年龄偏大、收缩压偏高、体质量指数偏高、尿酸偏高、谷氨酰转肽酶偏高、肌酐偏低、AST/ALT偏低、估算的肾小球滤过率偏低者1年后出现空腹血糖受损的可能性大,1年内三酰甘油升高、碱性磷酸酶升高、白蛋白升高、AST升高、体质量增加者出现空腹血糖受损的可能性大。当体检者出现以上情况时,应注意监测血糖,及时进行干预,以阻止或延缓糖尿病的发生发展。

  • 标签: 空腹血糖 血液检测 风险预测 随机森林
  • 简介:摘要目的探讨血液检测指标及其变化情况与空腹血糖受损的关系,进行风险预测研究。方法以2018年1月至2019年12月在山东第一医科大学第一附属医院健康管理中心进行健康体检、2次体检时间间隔6个月及以上、第1年进行健康体检时无糖尿病史且空腹血糖正常者为研究对象,以第2年空腹血糖水平为因变量,分别以第1年一般检查和血液检查指标、第2年一般检查和血液检查指标的变化量为自变量构建模型。首先使用随机森林模型筛选自变量,然后拟合Logistic回归模型计算自变量的效应值。结果共纳入研究对象4 416人,经1年随访,基线血糖正常者中3.45%(133/3 851)发展为糖尿病前期血糖,0.42%(16/3 851)发展为糖尿病血糖。利用血液检测指标预测1年后空腹血糖变化情况的灵敏度为67.1%,特异度为100.0%,年龄偏大(OR值为1.024,95%CI 1.014~1.035)、收缩压偏高(OR值为1.018,95%CI 1.011~1.025)、体质量指数偏高(OR值为1.079,95%CI 1.036~1.125)、尿酸偏高(OR值为1.003,95%CI 1.002~1.005)、谷氨酰转肽酶偏高(OR值为1.006,95%CI 1.003~1.010)、肌酐偏低(OR值为0.971,95%CI 0.957~0.985)、AST/ALT偏低(OR值为0.614,95%CI 0.411~0.917)、估算的肾小球滤过率偏低(OR值为0.972,95%CI 0.958~0.988)者1年后出现空腹血糖受损的可能性大。利用血液检测指标的变化情况预测1年后空腹血糖变化情况的灵敏度为65.2%,特异度为99.7%,1年内三酰甘油升高(OR值为1.152,95%CI 1.057~1.257)、碱性磷酸酶升高(OR值为1.021,95%CI 1.012~1.030)、白蛋白升高(OR值为1.087,95%CI 1.029~1.148)、AST升高(OR值为1.006,95%CI 1.003~1.009)、体质量增加(OR值为1.049,95%CI 1.019~1.081)者出现空腹血糖受损的可能性大。结论年龄偏大、收缩压偏高、体质量指数偏高、尿酸偏高、谷氨酰转肽酶偏高、肌酐偏低、AST/ALT偏低、估算的肾小球滤过率偏低者1年后出现空腹血糖受损的可能性大,1年内三酰甘油升高、碱性磷酸酶升高、白蛋白升高、AST升高、体质量增加者出现空腹血糖受损的可能性大。当体检者出现以上情况时,应注意监测血糖,及时进行干预,以阻止或延缓糖尿病的发生发展。

  • 标签: 空腹血糖 血液检测 风险预测 随机森林