通过调整语义分词进行语义检索探讨研究

(整期优先)网络出版时间:2022-05-16
/ 2

通过调整语义分词进行语义检索探讨研究

洪田惺

(国家知识产权局专利局专利审查协作广东中心 广东广州 510555 )

摘要:本文从一个检索案例出发,利用国知局新智能检索系统对比研究了语义检索、布尔检索、语义分词调整后进行语义检索等三种检索方式,探讨语义分词调整的优势和方法。

关键词:语义检索,布尔检索,调整,语义分词

1.前言

目前,大量的关于语义检索的策略研究主要集中于语义基准文本的选择,例如根据实际情况选对文本内容进行增加、删减,以及语义排序与布尔检索的联用。虽然语义基准文本的改变会带来检索结果的改变,但其本质上仍然是通过系统提取语义分词,至于语义分词提取准确性并不清楚,因此对于检索结果的预期性较小。而布尔检索联用语义排序是对是符合检索条件的专利文献结果集进行语义排序,因此不符合检索条件专利文献可能会漏检。而对语义分词调整后进行语义检索,本质仍然是语义检索,不会因为关键词和分类号的选择不当而带来的漏检问题。由于限于检索系统本身的原因,例如Patentics仅给出专利文献的语义分词,并不能对其进行调整,而且也没有给出自由文本的语义分词,目前对于利用语义分词调整进行语义检索的方法缺乏深入研究。

2. 调整语义分词基本方法

2.1.案情介绍

案例一 基本案情

申请号:2018105974677,发明名称: 一种用于折叠绝缘子的中部屏蔽装置 分类号:H01B17/40  H01B17/42  H01B17/02 

该申请包括5项权利要求,其中权利要求1节选部分如下:

1.一种用于折叠悬挂绝缘子的中部屏蔽装置,其特征在于:包括屏蔽体(I)和法兰卡箍组合(II),所述屏蔽体(I)呈空心不规则椭圆球体,顶部和底部的中心位置设有内折弧形面的悬挂绝缘子通孔(10),其空心体内侧上下平行设置有两个法兰卡箍组合(II);屏蔽体(I)通过法兰卡箍组合(II)与绝缘子相连,所述屏蔽体(I)包括屏蔽体一(1)、屏蔽体二(2)。

本申请发明构思

本申请涉及一种用于折叠悬挂绝缘子的中部屏蔽装置,申请人为山东彼岸电力科技有限公司。该申请主要发明构思为:现有技术中,由于悬挂绝缘子电压等级高,安装高度高,需要将绝缘子分成若干节来做,但是相邻两节绝缘子之间绝缘子会产生局部放电的问题,因此本申请在中间绝缘子连接处设置空心不规则的椭圆屏蔽体,将绝缘子中间两端的上下法兰完全包裹在屏蔽内,以起到屏蔽的作用,并且屏蔽体通过分体的形式,以便于进行高空安装。

本申请主要说明书附图如下:

628201886bfd8_html_2f80f45eba53ee9e.png

图1 本申请中部屏蔽装置

2.1.2检索过程

本次检索过程主要采用智能检索系统进行检索,分别从案卷号、技术文本为语义基准进行语义检索、布尔结合语义排序、分词调整后进行语义检索等方面进行对比检索。

1)、采用局智能检索系统进行语义检索

局智能检索系统语义检索的语义基准设定有专利案卷号以及文本两种方式,采用不同的语义基准,其检索结果不一样。其中以专利案卷号为语义基准,实质是以专利全文作为基准,包含的技术信息全面丰富,而以文本为基准,则是用户选择感兴趣的文本作为语义基准,可以是权利要求、摘要、说明书实施例,或是用户改写的技术方案,因此具有很大的灵活性。

根据智能检索系统推荐的检索流程,智能检索系统以当前案卷号为语义基准自动执行纯语义检索。在浏览前面多页后,并未发现对比文件。

2)布尔检索+语义排序

根据本申请的技术方案,提取相应关键词以及并根据本申请给出的分类号进行检索,具体检索过程如下:

1 (or H01B17/40,H01B17/42 ,H01B17/02)/ic and 屏蔽 and 折叠 CNTXT 7

2 (or H01B17/40,H01B17/42 ,H01B17/02)/ic and 屏蔽 CNTXT 310

3 (or H01B17/40,H01B17/42 ,H01B17/02)/ic and 折叠 21

4 屏蔽 and 折叠 and 绝缘子 CNTXT 82

5 绝缘子 s 屏蔽 s (中间 or 中部) CNTXT 270

6 h01b17/ic and (绝缘子 s 屏蔽 s (中间 or 中部)) CNTXT 49

7 h01b17/ic and 屏蔽 and 折叠 CNTXT 34

通过以上检索式均未获取对比文件。

3)调整语义分词后进行语义检索

以本申请案卷号为语义基准,在此基础上进行语义分词的调整。调出系统提取的语义分词。

628201886bfd8_html_85f8c0ad80311e03.jpg

图2 本申请的语义分词

通过浏览语义分词发现存在下列问题:

1、出现多个意义重复用词:屏蔽体与屏蔽,椭圆与半椭圆,电气设备与特高压;

2、出现非常规技术特征词:工时;

3、缺少关键分词:折叠、法兰、卡箍、悬挂;

4、关键分词配比不合理,“绝缘子”权重值仅为2,权重较低。

由于系统根据专利文本进行的自动切词不准、权重大小设定不准确,导致采用案卷号检索精度降低。因此根据上述问题,结合本申请的关键技术特征,采用如下方式调整语义检索策略:

1、删除不必要的分词:屏蔽体、半椭圆、电气设备、工时;

2、增加体现技术领域以及发明构思的关键分词:折叠、法兰、卡箍、悬挂,并设定合适的权重,其中折叠、卡箍体现发明构思的分词的权重设置为3,为权重中位数。

3、调节分词权重,将绝缘子权重设为3,为权重中位数。

调整语义分词后再次进行检索,采用多视图浏览模式,在检索结果集中第2位命中对比文件1(CN107331478A)。

628201886bfd8_html_e479e6404a704baf.jpg

图3 调整语义分词后的检索结果

对比文件1(CN107331478A)公开了一种采用可折叠光纤复合绝缘子的高压直流电流互感器(分类号为H01B17/48, H01F27/40, H01B17/10, H01F38/20, H01B17/04),其在说明书中公开了:“在第一段光纤绝缘子4-1、第二段光纤绝缘子4-2的连接部分装有椭圆形分体的中间均压环4-4。如图所示,中间均压环4-4由半环4-4-1、半环4-4-2、卡箍4-4-3组成,半环4-4-1通过卡箍4-4-3安装在悬式光纤复合绝缘子4上,半环4-4-2通过螺钉与半环4-4-1对接”。从以上内容可知,对比文件1公开了在可折叠的绝缘子中间连接处采用了椭圆形空心分体式均压环,并结合附图可知,其公开了权利要求1中所有技术特征,可评述权利要求1的新颖性。

3.检索总结

智能检索系统中,系统根据案卷号语义检索,由于分词的提取不准确,并且对比文件1中采用均“均压环”替代了“屏蔽体”,全篇不含关键词屏蔽,并且对比文件1中 “均压环”相关结构并不是其主要发明点,因此均压环相关特征在说明书中记载较少,均压环的大部分技术特征是通过附图公开的,因此通过系统推荐的语义检索没有命中对比文件。

在该案中,在系统推荐的语义检索以及采用布尔检索+语义排序没有获得命中对比文件的情况下,通过调整语义分词,从而调整语义检索的方向,快速精准获得X文件。语义分词调整,实质是人工干预语义检索,但又不必担心增加分词带来的检索范围限缩带来的漏检问题,因此在系统推荐的纯语义检索、或布尔检索中在可浏览范围内没有获取对比文件的情况下,可以尝试调整语义分词。