1新疆维吾尔自治区地质矿产勘查开发局地球物理化学探矿大队 新疆 昌吉 831500
2新疆伊犁州伊宁县自然资源局新疆 伊宁 835100
摘要:为了解区域地球化学中独立随机变量对任意两个变量间Pearson相关性的影响。本文利用随机变量的方差、变异系数,推导第三独立变量(C)改变任意随机变量(A,B)间相关系数的公式,并将其应用于区域地球化学数据分析中。结果表明:第三独立随机变量与原变量的方差比、第三独立变量与原变量的变异系数比,会明显改变随机变量间的相关系数值。第三变量参与造成原变量间的相关(不相关),可能是运算过程产生的;在判断变量间的相关关系及分布时,避免其它变量的参与,或者区域化变量间做运算后,不要进行相关性分析。
关键词:区域地球化学; Pearson相关性; 假相关 ;
Pearson相关系数提出以来,在各个学术领域得到广泛研究和应用[1~7]。区域地球化学中样品的各测试值作为随机变量,常用来讨论其之间的相关性。通常利用散点图直观反映其相关性或计算两者之间相关系数并进行显著性检验讨论其相关是否显著,这并不会存在假相关显现,但越来越多的学者开始对散点图横纵坐标轴的参数值进行数学变形后,再用来讨论参数含量/参数总量与参数总量之间的因果关系或相关关系(对原参数进行数学变换后再利用散点图讨论)[8~11],这种情况是否真实反应地球化学参数之间的内在联系?地球化学参数间的关系是否受到第三变量的影响,而造成参数间的假相关?本文通过对变量之间Pearson相关性的研究探讨了该类问题,并进行了严格的数学建模,所得结论在地球化学领域具有普适性。
1、第三变量参与的和(差)过程对随机变量间相关性的影响
区域地球化学各参数作为随机变量,设变量为A(x)、B(y),数学期望E(x)、E(y),方差为D(x)、D(y),协方差Cov(A,B)=Cov(x,y),第三变量C(z)与A、B相互独立,Cov(x,z)=0、Cov(y,z)=0;A与B相关系数;
令:A=x+z,B=y+z;
Cov(A,B)= Cov(x,y)+Cov(x,z)+Cov(y,z)+D(z);
D(A)=D(x+z)=D(x)+D(z);
D(B)=D(y+z)=D(y)+D(z);
………①
随机变量A(x)、B(y)在第三变量C(z)参与和(差)过程,A与B相关系数γ(A,B)受第三变量方差与原变量方差比值的影响,方差比越大,相关系数值越接近于1。
2、第三变量参与的乘积(除)过程对随机变量间相关性的影响
设原变量为A(x),B(y),第三变量C(z)与A、B相互独立,变异系数;
D(C)=D(z)=E(z2)-E2(z);
Cov(A,B)=E(AB)-E(A)E(A)→Cov(x,y)=E(xy)-E(x)E(y);
令:A=x·z;B=y·z;
D(A)=D(x·z)=E(x2)E(z2)-E2(z)E2(x);
同理D(B)=E(y2)E(z2)-E2(z)E2(y);
再令;
②[5]
当C(z)与A(x),B(y)不相关时,A(x/z)与B(y/z)的相关性是假的,由②可知,第三独立变量与原配对变量的变异系数比越大,γ(AB)的值越大。
3、实例分析
本文选用了青藏高原北部某地区1∶5万水系沉积物地球化学普查数据,面积2112平方千米,采集样点11056个,测试15种元素;由计算机生成一组随机数(变量)λ;统计测试数据均值、方差D、变异系数V(表1);将上述变量经过公式①、②变换,利用散点图和相关系数(γxy)反映元素间的线性或非线性关系(图1)。
表1 各变量参数统计表 | |||
参数 元素 | 平均值 | 方差 | 变异系数 |
Zn | 73.609 | 258.970 | 0.219 |
Pb | 20.141 | 40.337 | 0.315 |
As | 15.335 | 52.635 | 0.473 |
Sb | 0.753 | 0.677 | 1.093 |
Hg | 100.916 | 1719196.718 | 12.993 |
λ | 50.134 | 844.639 | 0.580 |
图1 X-Y散点图;(X-Z)—(Y-Z)散点图;(X/Z)—(Y/Z) 散点图
不难发现,和差变换(图1),第三变量与原变量的方差比越大,相关系数越大(γAB),相关性越好;乘除变换(图1),第三变量与原变量的变异系数比越大,相关系数越大(γAB),相关性越好。
5、结论
(1)当变量A(x),B(y),与第三变量C(z)不相关时,γ(x-z)和(y-z)和γ(x/z)和(y/z)的相关性可能是假的,其表现的线性关系可能是运算过程产生的。
(2)在判断变量间的相关关系及分布时,避免其它变量的参与;或者区域化变量间做运算后,不要进行相关性分析。
(3)变量间的相关性不是因果关系,不能直接用来讨论因果关系。
参考文献:
Reference:
[1]Aldrich, J.Correlation Genuine and Spurious in Pearson and Yule[J].Statiscal Science,1995,10(4):364-376.
[2]Berges, J.Ratios, regression statistics and "spurious" correlations[J].Limnology and Oceanography,1997,42(5):1006-1007.
[3]Kanaoglou P. On Spurious Correlation in Geographical Problems[J]. The Canadian Geographer/ Le Geographe canadien .1996,40(3): 9195-202.
[4]Bernard. C Kenney,. Beware of Spurious Self-Correlation! [J]. Warer Resources Research ,1982,18(4):1041-1048.
[5]Ji-Hyun Kim. Spurious Correlation between Ratios with a Common pisor[J]. Statistics & Probability Letters.1999, 44(1999):383-386.
[6]M. R Neifeld. A Study of Spurious Correlation[J].Journal of the American Statistical ssociation.1927,22(159): 331-338.
[7]Yoshiaki Toba, Naoya Suzuki, et al. Discrimination of Spurious Self-Correlation in Nondimensionalized Analyses of Fluid Dtnamical Data[J]. Journal of Oceanography,2008,64:393-397.
[8]M.H.Dodson.On 'spurious' co.elations ill Rb-Sr isochron diagrams[J].Lithos,1982,15:215-2019.
[9]唐志敏,侯青叶,游远航,杨忠芳,李括等.珠三角平原区第四系剖面重金属分布特征及其影响因素[J].地球科学进展,2017,32(08):885-898.
[10]王锐,余涛等.富硒土壤硒生物有效性及影响因素研究[J].长江流域资源与环境,2018,27(7):1647-1654.
[11]杨琼,侯青叶,顾秋蓓,余涛等.广西武鸣县典型土壤剖面Se的地球化学特征及其影响因素研究[J].现代地质.2016,30(2):455-462.