基于机器学习的人工智能技术专利数据集构建新策略探究

(整期优先)网络出版时间:2022-04-23
/ 2

基于机器学习的人工智能技术专利数据集构建新策略探究

占伟

重庆信科设计有限公司 重庆 401123

摘要:本文将详细介绍机器学习下人工智能技术专利数据集的构建方法,通过专业的研究与调查,精准找出搭建人工智能技术专利数据集的有效策略方案,如设置实验数据集、分析实验过程及评价实验结果,从而有效提升该技术专利数据集的构建应用效果。

关键词:专利数据集;人工智能技术;机器学习


引言:在机器学习的影响下,人工智能技术的发展速度逐步加快,在探索该技术内部专利数据集构建合理性的问题时,相关人员应利用适宜方式来搭建该类数据库,在保障数据精准度的前提下,促进人工智能技术专利数据集的使用质量。

1机器学习下人工智能技术专利数据集的构建方法

1.1神经网络结构

在应用神经网络结构时,该类结构可主要模拟生物视觉神经,代表着神经元网络体系,在该项系统中可有效处理大型图像,并能适时处理多项自然语言。针对神经网络结构下的文本分类而言,相关人员不但要仔细考量各词语间的关联性,还可借助当前的单词顺序来找出更多的位置信息。在当前的神经网络结构可分成七个层级,,即与索引单词相关的输入层、词汇索引变化的嵌入层、缩减向量长度的卷积层、单词向量特征加大的池化层、与卷积神经相关的Dropout层、带有负与正类别的连接层,在完善七个层级的构建后,人工智能技术专利数据集的管理效果可达到最佳。

1.2word2vec模型

word2vec模型也可进行人工智能技术专利数据集的构建,一般来讲,适宜的深度学习代表着学习相关事物的呈现形式,而该类模型的搭建关键为单词的展现。在建立机器学习模型的过程中,相关人员可采用互信息法、信息增益法与TF-IDF法等,无论采用何种方式都要进行词语筛选与阈值设计,若部分文档信息存有确实,可利用word2vec模型来解决该项问题。在具体应用中,word2vec模型属双层、浅层的神经网络,其向量模型带有一定的生词嵌入类特征,与自动编码器的使用功能类似,技术人员可将部分单词当作一定的隐藏层,透过对上下文的联系可有效增强模型的使用范围,促进该向量空间的控制度[1]

1.3最大化特征法

最大化特征法属无偏度量方式,该类方法多用在与分类相关的质量评估上,针对选择特征阶段而言,要利用适宜技术来更好地提取不同类型的关联性特征,有效加强分类器计算的精准度。最大化特征法在实际应用中的主要优势为没有任何参数,该类方式多用在算法设计与高维数据聚类中,利用其内部性能指标的科学性,有效提升最大化特征法的使用效果。值得一提的是,在应用最大化特征法的过程中,技术人员需合理提取其典型特征项,利用对该项数据的合理控制来延展该类数据的使用范围,在保留该模型内部的数据信息后,增强其性能应用的合理性。

2搭建机器学习下人工智能技术专利数据集的有效策略方案

2.1设置实验数据集

在搭建机器学习人工智能技术专利数据集时,相关人员应设置实验数据集,比如,当前的实验数据集多为负与正两种样本,该类信息数据包含联盟、会议、期刊、机构、领域、作者与论文等,该类信息多代表着实用与权威的学术研究,利用计算机等学术知识来获取“人工智能”词条,该类文本信息可生成更多样本数据。在应用人工智能技术专利数据集的过程中,相关人员利用分类法来完成手工代码专利的分类与整合,在进行样本数据的选取时,要合理管控样本数据的不同等级,在当前人工智能技术下其专利数据集的数据规模要进行适时控制,其抽取方式可借用过滤等形式来加以完善,根据人工智能技术中的专利信息而言,要透过对该项数据信息的管理来增强负正样本数据信息的精准度[2]。此外,针对机器学习中的人工智能专利数据集来说,在进行实验数据集设置的过程中,相关人员应注重对该类数据信息运行的监控,在保证信息数据提取准确的情况下,有效增强该项专利数据的精准性,同时,为确保实验数据集的准确性,需对该类数据进行合理记录,利用对该项数据的合理分析来探究出该数据集可能产生的变化,从而有效增数据信息管控水平。

2.2分析实验过程

在进行人工智能技术专利数据集的实验设计时,首先,相关人员应对该类数据开展预处理工作,在实行预处理时要及时抽取负正两种样本数据内的摘要字段与标题字段,在训练文本内对每行数据代表的专利标题进行摘要信息提取,对各项专利实行标签分类,合理处理文本内的停用词与标准词,适时删减其内部的符号与标点。相关人员在实行数据预处理期间,可随机提取多项专利数据,对其专利长度实行精准控制,具体的专利文本长度要管控在50-250项单词之间,利用该项举措可更好地处理词条长度。其次,相关人员在实行机器学习模型的训练时,要将其内部数据分成测试集、验证集与训练集等,比如,将训练集应用在模型权重、模型训练内;而验证集则要实行不同程度的网络调参;对模型内部精确度的估计则可放置在测试集内,有效提升数据管理的科学性。针对机器学习下的模型训练而言,相关人员可在实际训练中依照1:9的比例来完成验证集、训练集的测试工作,适时提升训练测试的严谨度与科学性。最后,相关人员在实行人工智能技术专利数据集的文本分类期间,应及时利用此前持有的数据集构建方法,比如,在进行数据提取与训练时选取神经网络结构、word2vec模型、最大化特征法等,透过该类方式的合理使用,有效提升专利数据集应用的科学性,适时保障人工智能技术的使用范围,加强数据集专利的运用效果。

2.3评价实验结果

在完成人工智能技术中专利数据集的实验过程控制后,相关人员可精准发现专利文本内其测试数据的具体变化,对文本内的训练评估模型开展一定的检验工作,在执行该项测试工作时,可适时探索出人工智能中专利预测的负正两种数量,对其具体的测试数据实行精准区分,有效判断出不同类型数据的精准性。在完成一定的模型训练后,相关人员需依照测试结果及时挑选出具体的专利内容,根据数据库内的人工智能技术专利信息,对其内部信息进行一定的登记,对同族专利实行不同程度的合并,获取到更为精准的专利信息。随着人工智能项目申请专利数量的逐步提升,其具体的申请标准也愈加严格,针对专利数据集的发展而言,技术人员会把其发展分成三个阶段,即符号逻辑推理证明、专家系统证明与数据神经网络等阶段,透过该类阶段可精准看出人工智能技术的发展与变化,需对该项技术手段实行不同方式的控制,在保证应用水平的前提下,增强实验效果。值得一提的是,在机器学习下相关人员利用人工智能技术可合理搭建专利数据集,借助该项举措合理发现其数据集构造的科学性,合理把持该类模型中的数据信息,通过对该项信息数据的合理分析可有效提升人工智能的专利申请水平,促进该领域的整体发展。

总结:综上所述,在搭建人工智能技术专利数据集的过程中,相关人员应借助适宜的试验模型来集中各项数据信息,管理专利数据时可借助合适的机器学习方案,在解决其存有的各项问题时透过相关模型的合理设置来为专业系统设置出更为合适的数据信息库。

参考文献:

[1]李欣,范明姐,黄鲁成.基于机器学习的专利质量评价研究[J].科技进步与对策,2020,37(24):116-124.

[2]胡寅骏,王茜,徐旻昕,等.利用人工智能技术挖掘高层次创新人才——以专利数据为例[J].中国科技资源导刊,2020,52(03):63-70.