事物之间的相似性与相似性理论在预测当中的运用

(整期优先)网络出版时间:2021-08-03
/ 5

事物之间的相似性与相似性理论在预测当中的运用

徐树平

丹阳市人民医院 江苏丹阳 212300

摘要:相似性理论是通过观察了大量的自然现象,思考这些自然现象的相同与不同之处后,提出了这一理论,它揭示了自然的客观规律。本文从方向相似性、相似的程度、预测准确性的检验、事物之间相关性与因果关系、相似性与创新之间的关系等方面来论述相似性理论。并对相似性理论在预测中的运用做了实证研究。

关键词:相似性理论;预测;运用

事物之间存在相似性,是客观现实,我们提出相似性理论是因为相似性理论揭示了客观规律,恰当的运用相似性理论,可以帮助我们理清思路,更好地对当前现状和未来发展趋势进行分析判断。

相似性理论的三个基点:

  1. 没有完全相同的两个事物。

  2. 如果两个事物在某个方向的内、外条件相似,那么它们在这个方向上的发展结果也相似。

  3. 相似的结果是可以被接受的。

1.事物之间的相似性

方向相似性与相似的程度

人们常把各种不同的事物进行归类,那就是在某个方向上有相似之处。我们在做出相似度判断时需要先明白不同事物是在什么方向上相似的,然后再分析它们在这个方向上有多大相似程度。既要明白它们高度相似的方面,也要明白它们不同之处,这样判断两者相似度才是完整的。

例如:有五个物体,

A是内半径6cm、外半径8cm、厚度0.5cm的黄金圆环,


6108e26311b9e_html_877b532ffad76441.gif


6108e26311b9e_html_17468274654ce7df.gif








B是内半径5cm、外半径7cm、厚度0.3cm的铁质圆环,



6108e26311b9e_html_e7f0cecf42fd0c05.gif6108e26311b9e_html_9b83ca789b4ff94e.gif







C是内半径4cm、外半径5cm、厚度0.2cm的铝质圆环,

6108e26311b9e_html_5f01b5924907f362.gif






D是棱长为3.5cm的黄金正方体,

6108e26311b9e_html_6eecc5e2919f3213.gif






E是棱长为2cm的黄金正方体,


6108e26311b9e_html_ee63d264878262b0.gif




我们来看一下这五个物体的相似性,以A物体作为研究体,如果从几何形状上来考虑,A与B、C相似,如果从经济价值上考虑,A与D、E同为贵金属,经济价值更相似。当我们思考与A相似的事物时,我们首先要定个方向,即在哪个方向相似,因为事物的特性会有很多,就看我们从哪个角度去比较。

选择了方向后,再比较相似的程度:从几何形状来看B的尺寸相比C来说,更接近于A,就是说B 与A更相似。从经济价值上考虑,A与D的质量比A与E的质量更接近,所以A与D更相似。

因为没有完全相同的两个事物,所以我们在做比较的时候只能推进相似的程度,但无法达到100%相同。


2.相似性理论在预测当中的运用

相似性理论是对客观规律的揭示,也是我们的需求,最主要的是对预测有帮助。在现有资料的条件下,选取已发生的最相似的事件,作为推断未发生事件结果的依据。

我们通过解决一个实际问题来证明相似性理论在预测未来中的重要作用,并学会善于运用这个规律来为我们的工作与生活提供更准确预测。

实际问题是:我们在2020年9月17日早上在哪条主干道路上会遇到自己想遇到的那位司徒卫生院的工作人员。

该工作人员可以途径下面7条主干道路之一到单位:

6108e26311b9e_html_ee1afabaeb615146.gif 路线1:经丹伏路 单位

6108e26311b9e_html_ee1afabaeb615146.gif 路线2:经北二环路 单位

6108e26311b9e_html_ca2ef76796483314.gif 路线3:经立十线 单位

6108e26311b9e_html_ee1afabaeb615146.gif 路线4:经观鹤南路 单位

6108e26311b9e_html_ca2ef76796483314.gif 路线5:经观鹤北路 单位

6108e26311b9e_html_ee1afabaeb615146.gif 路线6:经光明西路 单位

6108e26311b9e_html_ee1afabaeb615146.gif 路线7:经臧马路 单位

纳入调查的20名司徒卫生院工作人员四天上班途经主要道路调查数据表:

序号

人员名单

2020-

09-17

2020-

09-16

2020-

09-15

2020-

09-14

1

夏*萍

路线2

路线2

路线2

路线2

2

吴*

路线1

路线1

路线1

路线1

3

岳*娟

路线2

路线2

路线2

路线2

4

傅*萍

路线1

路线1

路线1

路线1

5

严*

路线2

路线2

路线2

路线2

6

马*雯

路线1

路线1

路线1

路线1

7

王*萍

路线2

路线2

路线2

路线2

8

徐*立

路线1

路线1

路线1

路线1

9

杭*芳

路线1

路线1

路线1

路线1

10

谢*

路线4

路线4

路线4

路线4

11

欧*雪

路线1

路线1

路线1

路线1

12

周*芳

路线1

路线1

路线1

路线7

13

刘*红

路线1

路线1

路线1

路线1

14

马*霞

路线2

路线2

路线2

路线2

15

王*

路线1

路线1

路线1

路线1

16

周*红

路线6

路线6

路线6

路线6

17

张*娥

路线1

路线1

路线1

路线1

18

张*

路线2

路线2

路线2

路线2

19

王#

路线2

路线2

路线2

路线2

20

李*平

路线1

路线1

路线1

路线1

资料汇总:

当我们要预测某位工作人员2020年9月17日上班时最可能要经过的道路时一般方法是汇总以前大多数人经过哪条路,那么这位工作人员出现在这条路上的可能性也就越大。我们把实际调查的上表结果进行统计分析:20个人在9月14、15、16日三天经过的路线频次如下:路线1:32人次,路线2: 21人次, 路线3: 0人次,路线4: 3人次,路线5:0人次,路线6: 3人次,路线7:1人次。

工作人员经过这7条主要道路上班的频率汇总如下:

主要道路

1

2

3

4

5

6

7

出现频率

53.33%

35%

0

5%

0

5%

1.67%

现在要决定2020年9月17日早上我们在哪条主干路上等他/她,才会最大可能遇到他/她?

根据以上数据推断被调查人员9月17日出现在路线1的可能性为:53.33%,出现在路线2的可能性为:35%,出现在路线3的可能性为:0,出现在路线4的可能性为:5%,出现在路线5的可能性为:0,出现在路线6的可能性为:5%,出现在路线7的可能性为:1.67%。

我们用9月17日的实际结果来检验一下用这种广范调查方式做出的预测正确性有多少?

我们采用可能性最大的线路1作为预测员工上班主要途径,那么对20名员工17日预测结果判定如下:

序号

人员名单

预测09-17可能经过的主要路线

实际09-17经过的主要路线

预测

正确/

错误

1

夏*萍

路线1

路线2

错误

2

吴*

路线1

路线1

正确

3

岳*娟

路线1

路线2

错误

4

傅*萍

路线1

路线1

正确

5

严*

路线1

路线2

错误

6

马*雯

路线1

路线1

正确

7

王*萍

路线1

路线2

错误

8

徐*立

路线1

路线1

正确

9

杭*芳

路线1

路线1

正确

10

谢*

路线1

路线4

错误

11

欧*雪

路线1

路线1

正确

12

周*芳

路线1

路线1

正确

13

刘*红

路线1

路线1

正确

14

马*霞

路线1

路线2

错误

15

王*

路线1

路线1

正确

16

周*红

路线1

路线6

错误

17

张*娥

路线1

路线1

正确

18

张*

路线1

路线2

错误

19

王#

路线1

路线2

错误

20

李*平

路线1

路线1

正确

总体预测正确率为55%(11/20),与数据调查所示频率53.3%相似。

我们再采用可能性第二大的线路2作为预测员工上班主要途径,那么对20名员工17日预测结果判定如下:

序号

人员名单

预测09-17可能经过的主要路线

实际09-17经过的主要路线

预测正确/

错误

1

夏*萍

路线2

路线2

正确

2

吴*

路线2

路线1

错误

3

岳*娟

路线2

路线2

正确

4

傅*萍

路线2

路线1

错误

5

严*

路线2

路线2

正确

6

马*雯

路线2

路线1

错误

7

王*萍

路线2

路线2

正确

8

徐*立

路线2

路线1

错误

9

杭*芳

路线2

路线1

错误

10

谢*

路线2

路线4

错误

11

欧*雪

路线2

路线1

错误

12

周*芳

路线2

路线1

错误

13

刘*红

路线2

路线1

错误

14

马*霞

路线2

路线2

正确

15

王*

路线2

路线1

错误

16

周*红

路线2

路线6

错误

17

张*娥

路线2

路线1

错误

18

张*

路线2

路线2

正确

19

王#

路线2

路线2

正确

20

李*平

路线2

路线1

错误

总体预测正确率为35%(7/20),与数据调查所示频率35%相同。

用同样方法我们比较路线3、4、5、6、7总体预测正确率与数据调查所示频率结果如下:

如果9月17日早上选定路线3,总体预测正确率为0(0/20),与数据调查所示频率0相同。

如果9月17日早上选定路线4,总体预测正确率为5% (1/20),与数据调查所示频率5%相同。

如果9月17日早上选定路线5,总体预测正确率为0 (0/20),与数据调查所示频率0相同。

如果9月17日早上选定路线6,总体预测正确率为5%(1/20),与数据调查所示频率5%相同。

如果9月17日早上选定路线7,总体预测正确率为0 (0/20), 与数据调查所示频率1.67% 不同。

用以上方法预测最高总体正确率为55%(11/20),但是如果我们用相似性理论指导,换一种预测方法,看一下总体正确率是多少?

我们新的预测方法是仅仅调查某个人前一天(2020年9月16日)早上上班途径的主要道路,以此来预测17日上班所要经过的主要道路。实际结果如下:

序号

人员名单

预测09-17可能经过的主要路线

实际09-17经过的主要路线

预测正确/

错误

1

夏*萍

路线2

路线2

正确

2

吴*

路线1

路线1

正确

3

岳*娟

路线2

路线2

正确

4

傅*萍

路线1

路线1

正确

5

严*

路线2

路线2

正确

6

马*雯

路线1

路线1

正确

7

王*萍

路线2

路线2

正确

8

徐*立

路线1

路线1

正确

9

杭*芳

路线1

路线1

正确

10

谢*

路线4

路线4

正确

11

欧*雪

路线1

路线1

正确

12

周*芳

路线1

路线1

正确

13

刘*红

路线1

路线1

正确

14

马*霞

路线2

路线2

正确

15

王*

路线1

路线1

正确

16

周*红

路线6

路线6

正确

17

张*娥

路线1

路线1

正确

18

张*

路线2

路线2

正确

19

王#

路线2

路线2

正确

20

李*平

路线1

路线1

正确

总体预测正确率为100%(20/20),与前面预测方法相比总体正确率大幅升高。

前一种预测方法数据多但我们预测的正确率并不高,而后一种预测方法所需数据少,正确率反而高,这其中主要原因是相似性这一规律在起作用。也就是前面一种预测方法给我们提供的数据与我们要预测的目标之间相似程度低于后一种方法。

具体来列表分析:

相似点

前一种预测方法提供的数据与我们要预测的目标之间相似之处

后一种预测方法提供的数据与我们要预测的目标之间相似之处

1:身份

高度相似

高度相似

2:工作时间要求

高度相似

高度相似

3:目的地

高度相似

高度相似

4:出发地

非高度相似

高度相似

5:交通

工具

非高度相似

高度相似

6:行为

习惯

非高度相似

高度相似

7:突发

情况

不相似

不相似

从上表我们可以看出后一种预测方法与我们要预测的目标之间相似程度高于前一种方法,所以目标运行轨迹也更倾向于相似度高的预测,这就是一种自然规律。因此我们在通过以往数据对未来做预测的时候,首要关注的是所收集数据与目标的相似程度,而不是在同一相似程度条件下无限制收集数据。

我们根据以上数据还发现三个现象:

一、前一种方法收集数据中包含了后一种方法中的数据,但没有区分哪些数据更重要一些,而是把所有数据混在一起,造成了总体数据相似度被拉低了。

二、如果我们运用相似性理论对16日、15日工作人员可能经过的主干道进行预测,即用15日的实际数据预测16日的情况,用14日的实际数据预测15日的情况,我们会发现,16日预测的总体正确率仍为100%。而15日预测的总体正确率为95%,没有达到100%的具体原因是第12号被调查者周*芳14日因突发情况选择了路线7, 所以与15日上班路线不相同,也就是她14日(有突发情况)与15日(没有突发情况)之间相似程度因突发情况的出现而下降了,导致了预测不正确,这也说明了相似度在预测中的重要性。

三、虽然每个工作人员在17日不可能踩着他/她自己16日的脚印来上班,也就是说17日与16日经过的路线也仅仅是高度相似,而非完全相同,但是这个高度相似的结果是我们可以接受的。

3.相似性理论在确立事物之间相关性与因果关系中的作用





6108e26311b9e_html_f56479ab0fe16bbe.gif6108e26311b9e_html_d3dfe25ade2bed9d.gif6108e26311b9e_html_2acd8c3fe2e11505.gif6108e26311b9e_html_ab1f7473ee960484.gif

A


6108e26311b9e_html_41d30aa95dd5aa99.gif6108e26311b9e_html_6362bbbc5726ace7.gif6108e26311b9e_html_a72264a9958d1065.gif6108e26311b9e_html_9a906b90ea015358.gif6108e26311b9e_html_2fad3bbba194c5ed.gif6108e26311b9e_html_e06c3516b14f2272.gif

Y

D

C

B


6108e26311b9e_html_786884cb4d6e1e81.gif

X4


6108e26311b9e_html_ef3b03ef22392396.gif6108e26311b9e_html_d3dfe25ade2bed9d.gif6108e26311b9e_html_326b857c8192a515.gif

6108e26311b9e_html_6362bbbc5726ace7.gif6108e26311b9e_html_2c439d288847d352.gif6108e26311b9e_html_b7aab47f52b41883.gif

B

A

6108e26311b9e_html_41d30aa95dd5aa99.gif6108e26311b9e_html_6362bbbc5726ace7.gif6108e26311b9e_html_6362bbbc5726ace7.gif6108e26311b9e_html_d3dfe25ade2bed9d.gif6108e26311b9e_html_d3dfe25ade2bed9d.gif6108e26311b9e_html_57a8836bc424c0f2.gif6108e26311b9e_html_a3e0e3299d9bae83.gif6108e26311b9e_html_24aa2b3f23597c48.gif6108e26311b9e_html_263f0a63bec233fb.gif6108e26311b9e_html_9b58298672b2924d.gif6108e26311b9e_html_ce9740084f3b4f11.gif6108e26311b9e_html_41d30aa95dd5aa99.gif6108e26311b9e_html_6cdf8fed5088f671.gif6108e26311b9e_html_41d30aa95dd5aa99.gif6108e26311b9e_html_9b58298672b2924d.gif6108e26311b9e_html_e542fb2e52303ffd.gif6108e26311b9e_html_79077a8c4d2844a8.gif6108e26311b9e_html_e542fb2e52303ffd.gif6108e26311b9e_html_2c439d288847d352.gif

……..

A3

A2

A1

X1

A

X2

Y

Y

Y

Y







6108e26311b9e_html_6380b30adb306c13.gif

X i





给上图做个解释:我们偶然发现由X状态会变成Y状态,我们就试图找到引起这种变化的原因,我们发现当X里由A、B、C、D四种因子存在时X状态会变成Y状态,记作X4 → Y,我们会认为A、B、C、D四种因子是使X状态会变成Y状态的原因(如图所示),但当我们把因子A、B分为一组,C、D分为一组,会发现包含A、B一组的X会变成Y,记作X2 → Y,而包含C、D一组的X不会变成Y,我们会认为A、B这二种因子是使X状态会变成Y状态的原因。再进一步把A分为一组,B分为一组,会发现包含A的一组X会变成Y,记作X1 → Y,而包含B的一组X不会变成Y,我们会认为A因子是使X状态会变成Y状态的原因。而A因子并非是最终可以确定导致X演变成Y的最后因素,因为A本身会由更加精细的A1、A2、A3 …… 组成,可以无穷尽地细分下去。

举个实例解释一下:

某些患者咳嗽咳痰发热,有患者为病毒感染,我们使用抗菌素去治疗就无效,而在细菌感染的人群中,有一部分感染的是能产生β内酰胺酶的细菌引起的,则使用β内酰胺类抗菌素无效。如此越分越细,病原体的相似性越来越高,那我们使用抗生素的针对性就越强,达到预期效果的可能性就越大,治愈率也就会越高。

换个角度来思考,是我们对不应该使用这种抗菌素的微生物使用了这种抗生素,把相似度低的东西放在了一起,造成治愈率低。从不同层面去总结规律,相似度低意味着适用面广,而正确性低;相似度高意味着适用面窄,而正确性高。

4.相似性理论与创新的关系

相似性理论是建立在与已经出现的事物的比对之上的。事物之间各不相同,随着时间的推移,新事物不断产生,为后续判断比对提供了新的参考。它不排斥主动创新,因为所有的事物产生对前面的事物而言都是新的,不论是主动人为的还是偶然发现自然发生的。

5.总结:

相似性理论揭示了客观存在的一种规律,我们目前之所以有可能大规模地运用这一规律,是因为科技进步了,我们可以建立大数据库,把过去有限的数据资料扩大,可供比对的数据大量增加了,再利用计算机自动检索功能,把众多的个体逐个比对,从而把相似性从高到低排序,把以前数量有限的人脑比对换成了快速而数量巨大的计算机比对,从而发现更多的相似事物,更好地归类,更准确地预测,这是时代在进步,为相似性理论更好地应用于实践提供了坚实的基础。数据记录的是过去事件,然而诠释的是未来[1]。这是众多研究数据专家的共识。

我们需要用已获得资料预测未来,运用相似性理论对提高预测的准确性帮助极大,这是客观规律在起作用。

参考文献:

[1].涂子沛(著),《大数据之巅》,北京:中信出版社,2012年,P104.