-
焦虑是各类精神症状中较为常见的一种,职业人群因为受到各种职业性有害因素或其他有害因素的影响而出现焦虑症状,而这种症状会导致工人出现抑郁、倦怠、职业紧张和工作能力下降。焦虑在大部分国家的精神疾患中发病率均最高,却常因不能被识别而得不到适当的诊断和治疗[1]。对易感人群进行简短而有效的问卷筛查,可以帮助早期识别焦虑症状,并行进一步检查、诊断是否患有焦虑障碍。
随机森林(random forest,RF)是Breiman等[2]在2001年提出来的基于决策树的组合分类器[3]。而决策树由于其易于理解和对结果的解释性强,以及能够同时处理数值型和常规型属性数据,不要求把数据一般化,不需要去掉多余的或者空白的属性而受到广泛应用。随机森林在继承了决策树众多优势的同时,作为新兴的机器学习算法具有不可忽视的优势:其运行稳健,对数据集不做要求,不存在过拟合与共线性等问题[4]。已有多项研究将随机森林应用于基因组学数据分析[5-6]、代谢组学数据[7]、临床试验数据[8-9]以及体检数据[10]分析。职业健康监护数据资料中包括多种类型的变量,其分布和取值范围各不相同,适合使用随机森林的数据挖掘方法进行分析。本研究以职业健康监护各项检查指标为基础,利用随机森林模型分析其对广泛性焦虑量表测量结果的判别效果,探讨随机森林在职业健康监护数据挖掘方法中的应用。其间不考虑两者因果关系,单纯看模型对袋外数据的预测效果。
1. 对象与方法
1.1 对象
选取2014年在深圳市职业病防治院进行职业健康监护的2 654名工人,其接触的主要职业性有害因素为放射线、高温、噪声。对象入选标准:完成职业健康监护必检项目,完成调查表,所有研究对象均签署知情同意书。
1.2 方法
1.2.1 焦虑情况问卷调查
采用广泛性焦虑量表GAD-7 [11-12],量表分“紧张、焦虑或愤怒,易被激怒,害怕什么可怕的事情发生,担心很多事情,疲劳、坐不住,不能停止或不能控制的担心,很难放松”等7个焦虑相关问题。每个问题按“根本没有”= 0分,“偶有存在”= 1分,“超一半天数存在”= 2分,“几乎每天存在”= 3分来计分。7项总分范围0 ~ 21分。问卷调查现场设质量控制员检查所有调查表是否有漏项和错项,并设质控督导组进行现场督导,发现问题及时与现场负责人、调查员交换意见并确定解决。
1.2.2 职业健康监护数据内容
整理研究对象的基本资料、各项基础生理指标和生化指标资料,内容主要包括基础信息、肾功能、肝功能、淋巴细胞微核率、血脂、血常规、甲状腺功能、心电图、尿常规、双肾输尿管膀胱B超、甲状腺B超、肝胆脾胰B超、血糖、纯音测听、肺功能。进行数据清理,根据临床标准将计量资料整理为有序分类资料。
1.2.3 随机森林分析步骤
本研究通过自助法从原始N个数据中有放回地抽取n个训练样本(bootstrap抽样)用来建立n棵决策树,其中每次抽取的训练样本数量为原始数据量N的2/3,未被抽到的1/3的原始数据组成了n个袋外数据(out-of-bag,OOB)。对于每一次取样组成的训练集建立一棵决策树,在树的每一个节点随机选择p’个特征进行分类(p’ < p,p表示特征数目,即基本生理生化指标的总个数,p’一般取值为p的平方根)[9],以Gini准则不纯度度量方法比较分类效果并最终确定一个最具分类能力的变量在该节点进行分类。每棵决策树都进行最大限度的生长,不做修剪。每次抽样所产生的袋外数据用来预测决策树的分类正确率,用于评价每棵树的性能。最后将每棵树的分类结果综合起来,按投票多少决定数据的分类[13]。而基于每次OOB数据得到的对分类效果的评价汇总,得到误差率的OOB估计(OOB estimate of error rate)[14-15]。使用估计误差率的OOB对模型分类效果进行评价。见图 1。所有统计分析均在R3.2.2软件上实现,其中随机森林使用R语言软件包RandomForest分析。
2. 结果
2.1 工人焦虑基本情况
2 654名工人中,回收问卷2 455份,根据纳入排除标准,最后有2 376人纳入本研究,其广泛性焦虑量表得分均值为4.14分,中位数为4分,得分为4分及以上的人数占总人数的50.21%。本研究以广泛性焦虑量表得分中位数将研究对象分为数量相近的两组,以保证每组都有足够的样本进入训练集训练模型,故以4分为界,得分≥ 4分的对象为焦虑高分组(1 183人),<4分为焦虑低分组(1 193人)。见表 1。
表 1 广泛性焦虑量表各得分人数及累计百分比量表得分 人数 累计人数 累计百分比/% 0 428 428 18.01 1 246 674 28.37 2 260 934 39.31 3 249 1 183 49.79 4 203 1 386 58.33 5 190 1 576 66.33 6 213 1 789 75.29 7 284 2 073 87.25 8 73 2 146 90.32 9 46 2 192 92.26 10 40 2 232 93.94 11 38 2 270 95.54 12 44 2 314 97.39 13 13 2 327 97.94 14 20 2 347 98.78 15 9 2 356 99.16 16 2 2 358 99.24 17 4 2 362 99.41 18 3 2 365 99.54 19 6 2 371 99.79 21 5 2 376 100 2.2 随机森林分类模型建立和评价
经过整理焦虑高分组和焦虑低分组2 376名研究对象的职业健康监护数据,并进行数据预处理,将原始数据中各种类型的变量转换成随机森林可以使用的数据类型,共获得82个变量,采用随机森林对数据进行分类。以降低OOB数据误差率为目标,经过多次试验和参数调整后确定森林中树的数量为500,树的每个节点随机尝试使用$\sqrt {82} $≈ 9个特征变量进行分类并选取最优的一个特征变量。训练过程见图 2。随着随机森林中树的数量逐渐增加,分类错误率逐渐下降,当树的数量为300时模型趋于稳定。
最终随机森林分类结果的混淆矩阵如下:焦虑高分组1 183例中正确分类1 010例,错分173例,错分率14.62%;焦虑低分组正确分类1 122例,错分71例,错分率5.95%。随机森林得到的OOB误差率估计为10.27%。
重要性评分是算法的一个中间过程,是进行变量筛选时用到的参数。82个变量名称及重要性评分见表 2。
表 2 随机森林分类结果各变量名称及重要性评分序号 检查项目 项目名称 重要性评分 重要性排序 1 基础信息 性别 9.554 07 56 2 基础信息 年龄 27.828 59 1 3 基础信息 身高 16.844 99 46 4 基础信息 体质量 17.540 97 45 5 基础信息 脉率 22.083 85 15 6 基础信息 腰围 18.220 75 39 7 肾功能 尿素 19.377 16 33 8 肾功能 尿酸 24.527 06 2 9 肾功能 肌酐 22.969 25 9 10 肝功能 间接胆红素 19.686 53 32 11 肝功能 碱性磷酸酶 22.328 21 14 12 肝功能 人血白蛋白 22.641 99 11 13 肝功能 血清球蛋白 20.641 72 27 14 肝功能 血清总蛋白 23.401 62 6 15 肝功能 直接胆红素 18.818 30 35 16 肝功能 天门冬氨酸氨基转移酶 17.744 87 43 17 肝功能 总胆红素 20.611 76 28 18 肝功能 白球比 20.673 54 26 19 肝功能 丙氨酸氨基转移酶 18.534 35 36 20 肝功能 谷氨酰转肽酶 19.865 80 31 21 淋巴细胞微核率 淋巴细胞转化率 15.899 53 49 22 淋巴细胞微核率 分析细胞数 6.5023 18 60 23 淋巴细胞微核率 微核率 5.5422 21 62 24 淋巴细胞微核率 微核细胞率 5.2283 65 64 25 血脂 甘油三酯 23.252 97 7 26 血脂 高密度脂蛋白胆固醇 21.367 31 22 27 血脂 总胆固醇 22.595 83 12 28 血脂 低密度脂蛋白胆固醇 22.500 13 13 29 血常规 淋巴细胞百分比率 22.038 73 16 30 血常规 血中性粒细胞百分比率 21.723 48 19 31 血常规 血中性粒细胞绝对值 21.444 47 20 32 血常规 血红细胞压积 12.069 61 51 33 血常规 平均红细胞体积 20.674 32 25 34 血常规 平均红细胞血红蛋白量 18.072 33 41 35 血常规 平均红细胞血红蛋白水平 18.469 37 37 36 血常规 红细胞分布宽度 17.941 07 42 37 血常规 红细胞分布宽度 22.009 88 18 38 血常规 血小板分布宽度 20.250 43 29 39 血常规 血小板平均体积 16.660 14 47 40 血常规 血小板比积 16.484 97 48 41 血常规 单核细胞百分数 19.186 69 34 42 血常规 嗜酸性粒细胞百分数 20.105 14 30 43 血常规 嗜碱性粒细胞百分数 12.130 94 50 44 血常规 单核细胞绝对值 18.373 56 38 45 血常规 嗜酸性粒细胞绝对值 17.604 35 44 46 血常规 嗜碱性粒细胞绝对值 10.036 43 53 47 血常规 大血小板比例 20.828 55 24 48 血常规 血白细胞计数 21.266 03 23 49 血常规 红细胞计数 21.414 47 21 50 血常规 血红蛋白浓度 18.174 34 40 51 血常规 血小板计数 22.747 07 10 52 血常规 淋巴细胞绝对值 22.038 41 17 53 甲状腺功能 游离T3 23.700 25 5 54 甲状腺功能 游离T4 23.244 60 8 55 甲状腺功能 促甲状腺素 23.901 13 4 56 心电图 心率 1.993 45 76 57 心电图 P-R间期 1.292 40 80 58 心电图 QRS时间 4.4813 92 69 59 心电图 电轴 1.9294 90 77 60 心电图 心律 8.2770 74 57 61 心电图 心电图特征 2.0270 67 75 62 尿常规 尿胆红素 1.855 46 78 63 尿常规 尿胆原 3.227 14 71 64 尿常规 尿蛋白 5.287 88 63 65 尿常规 尿糖 0.212 63 82 66 尿常规 尿酮体 7.013 77 59 67 尿常规 尿隐血 5.976 39 61 68 尿常规 亚硝酸盐 0.245 18 81 69 尿常规 尿白细胞 3.840 46 70 70 尿常规 尿pH值 10.016 29 54 71 尿常规 镜检 4.728 46 67 72 尿常规 尿比重 9.575 63 55 73 双肾输尿管膀胱B超 肾脏B超 2.620 25 72 74 双肾输尿管膀胱B超 输尿管B超 4.504 07 68 75 甲状腺B超 甲状腺彩超 2.515 55 73 76 肝胆脾胰B超 胰腺B超 4.867 42 65 77 肝胆脾胰B超 肝脏B超 4.765 37 66 78 肝胆脾胰B超 胆囊B超 1.581 97 79 79 肝胆脾胰B超 脾脏B超 7.864 88 58 80 血糖 葡萄糖 23.972 98 3 81 纯音测听 纯音测听 2.198 84 74 82 肺功能 肺功能 11.444 78 52 3. 讨论
广泛性焦虑症(generalized anxiety disorder,GAD)是一种过度的、不可控的非理性担心,这种过度的担心往往使人出现各种躯体症状,包括外在行为如坐立不安、肌肉紧张、吞咽困难、颤抖,以及内在变化如胃酸过多堆积、疲劳、头痛、恶心、多汗、皮疹等,这些外在和内在变化会引起人体内的一些生理生化指标变化,从而影响体检数据[16],此外焦虑症状与躯体性疾病、精神疾病之间还存在着广泛的相互作用、相互影响[17],从而干扰日常生活,出现家庭问题、人际关系问题或工作困难[18]。
本研究通过GAD-7问卷调查初步了解了该企业工人的广泛性焦虑情况,并采用随机森林的数据挖掘方法,利用体检数据拟合其广泛性焦虑程度。从结果中可以看出,根据某位员工的体检数据,如果随机森林模型将其划分为焦虑高分组,则该员工焦虑量表得分低于4分的概率为14.62%;如果随机森林模型将其划分为焦虑低分组,则该员工焦虑量表得分高于或等于4分的概率为5.95%,该随机森林模型的袋外数据误差率估计为10.27%。所以该方法提供了一种利用现有体检数据而不用问卷的广泛性焦虑程度测量方法,对广泛性焦虑程度进行早期识别、筛查和干预提供了新思路,值得进一步研究和探索。
近年来,职业健康监护工作在全国各地蓬勃开展,检查覆盖率逐步上升[19-20],但如何提高职业健康监护质量,其数据如何进一步有效利用尚需进一步探索[21]。传统的数据分析方法效果一般,主要是描述性横断面分析[22-23]能够得出的结论也有限,但这些数据特殊性恰恰是许多数据挖掘算法所擅长和能解决的。随机森林作为一种以决策树为基础的数据挖掘方法以稳健、不易过拟合、易于理解等优势而获得广泛使用,能够处理健康监护数据所具有的多变量、多类型、非线性的特性。
但该方法的应用也存在一定的缺陷和局限性,首先算法是以提高判别和预测的准确性进行迭代的,运算的中间过程可解释性较差,其他一些机器学习类方法比如人工神经网络一般都将中间过程视为黑箱;其次,本研究的随机森林算法并不能证明病因和症状之间的因果关系以及其他疾病对体检结果的影响,仅是对现有体检数据的一种再利用方法,具有一定的局限性;其三,GAD-7问卷一般将7分作为划分焦虑的阈值,但本研究以7分分成样本数量较为悬殊的两组进行分类时效果并不理想。可能是因为其中一组的样本量太少而导致进入训练集的样本数不足使模型欠佳引起的。
本研究将职业健康监护数据与随机森林相结合,以员工职业健康监护数据中的各项基础生理生化指标为自变量对其广泛性焦虑情况进行判别和预测,结果表明随机森林建模稳健且不易过拟合,能够为职业人群的心理性疾病早期发现、筛选和干预提供帮助。
-
[1] 江朝强. 有机溶剂中毒预防指南[M]. 北京:化学工业出版社,2006:253-256. [2] 梁友信. 职业卫生与职业医学[M]. 6版. 北京:人民卫生出版社,2011:134-138. [3] 中华人民共和国卫生部. GBZ 68-2008职业性苯中毒诊断标准[S]. 北京:人民卫生出版社,2009. [4] 中华人民共和国卫生部. GBZ 94-2002职业性肿瘤诊断标准[S]. 北京:人民卫生出版社,2002. [5] 汤丽霞. 低浓度苯作业致慢性苯中毒1例[J]. 工业卫生与职业卫生,2006,32(1):59-60. [6] 魏付有,黎新平. 慢性重度苯中毒(白血病)1例诊断的回顾[J]. 职业卫生与病伤,2010,25(1):35-36. [7] 何凤生. 中华职业医学[M]. 6版. 北京:人民卫生出版社,1999:459-471. -
期刊类型引用(1)
1. 卢耀勤, 刘继文. 数据挖掘在职业卫生领域的研究现状. 中国职业医学. 2019(02): 243-246 . 百度学术
其他类型引用(1)
计量
- 文章访问数: 234
- HTML全文浏览量: 16
- PDF下载量: 17
- 被引次数: 2