基于文本分析技术的智能合同审阅剖析

(整期优先)网络出版时间:2024-07-22
/ 2

基于文本分析技术的智能合同审阅剖析

刘杰

421023198705231037

摘要:本文首先分析了合同审阅的现状及需求,重点阐述了基于文本分析技术的智能合同审阅系统的技术架构及模块功能,描述了未来的应用前景,总结提出基于文本分析等AI技术,智能合同审阅可从信息抽取、文本比对、风险审核、智能纠错等方面为商业组织提供全方位保障。

关键词:文本分析;智能;合同审阅;

引言

随着我国市场经济的蓬勃发展,面临着海量商业合同的审查压力,为提升合同审查效率与质量,有效规避合同纠纷并提升市场经济活力,亟需改进合同审查技术的智能化水平,基于文本分析技术的智能合同审阅已成为有力措施之一。

1合同审阅现状

在企业法务部门对合同管理的过程中,合同审阅工作主要面临四个方面问题,包括合同审核、校验、比对占用了企业法务大部分的工作时间;合同审核中经常发现重复性的、简单的错误;合同审核缺乏固化的标准,经验无法有效传递;合同审核的效率低下,经常面临业务部门投诉。

合同的信息分为标准化和非标准化两个部分,标准化部分结构性强、重复性高,一般必须包括当事人名称、标的、合同金额、标准条款、价款或报酬、履行期限和地点、违约责任、解决争议等内容,可以借助人工智能技术将审核工作自动化;非标准化部分主要为合同交易行为的商业背景以及与法律、风控、商业与管理等相关的内容,借助于人机协作功能,由机器先初步审核并得出初步审核意见,而后由专业律师或法务去复核、更正及完善[1]

基于以上现状,充分利用文本分析等技术深入挖掘合同文本价值,构建智能合同审阅系统成为必备选项,可有效满足合同内容的风险识别,确保合同包含相应的条款,以防遗漏;比对合同不同修订版本,在多人协作的情况下,追踪合同电子版的变化差异;比对合同最终电子版与生效纸质版,确保打印版合同和最终审核通过的电子版合同内容一致,避免出现“阴阳合同”[2]

2技术架构

搭建智能合同审阅系统,充分利用 NLP、机器学习、深度学习等技术,让计算机建立模型并快速阅读复杂合同文件,进行智能抽取、审核、纠错、比对等,重构文本信息以更好地作出分析。

图 1 智能合同审阅技术架构示例

2.1核心组件

核心组件包括信息抽取、文本比对、风险审核、智能纠错等,更快速、准确地审阅合同,提高审阅效率,降低错误率,并且可以在大量合同中快速识别出潜在的合规和风险问题,从而保护企业的利益。

2.1.1信息抽取

文本智能抽取是在非结构化的文本数据中,将具有特殊意义的字段进行结构化抽取的过程,字段抽取主要使用了文本分类技术及文本序列标注技术,主要包含了文本上传、关键信息抽取、关键信息快速定位等功能。文本上传包括单个电子文本上传与多份文本批量上传;关键信息抽取支持不同类型合同文件信息抽取,如个人零售类银行贷款合同、买卖合同、采购合同等,合同的类型可以由用户自定义;关键信息快速定位可高亮显示关键信息并可通过侧边栏位置快速定位到原文中相应位置方便核对审计[3]

2.1.2文本比对

支持两份及多份文件的同时对比,并可用 excel、word、PDF 等方式导出文本比对结果,主要处理电子合同文件、打印盖章后的扫描件合同比对。当上传两份文本后,可以实现快速比对,并将高亮显示文本差异;支持选择一个文本为基础比对样板,与其他多种文本进行差异比对,高亮显示其他文本中被修改的内容,并可通过导航方式,快速跳转到相关文本;对文本的比对结果,可以下载导出 excel 表,根据实际需求也支持导出 word 和 PDF 版本[4]

2.1.3风险审核

系统内置法律、经济等不同领域的隐患体征库,可将待审核的合同文本按照风险级别快速识别潜在风险点,并给出识别依据以及意见。满足数十余种常用风险款项的自动识别;可支持用户个性化定制风险审核项,定制周期约几周左右;支持用户人工调整风险判定结果;支持系统自学习模型,将人工复审结果进行模型训练,将会及时调整判断依据的权重,短期内提升审核效果[5]

2.1.4智能纠错

依托不断积累的海量文本语料库,实现对文本中句法或文字的自动纠错提醒,智能识别出文本中的错别字、标点错误、语法错误、专用名称错误等,给出修改建议并可导出纠错报告,为企业有效规避风险。支持“批量上传文件”、“查看详情”、“导出报告”、“批注文件”等功能;纠错类型涉及政治敏感错误校验、常识性错误纠错、错字多字漏字错位校验、拼写错误校验及勾稽校验等[6]

2.2关键算法

智能合同审阅系统的关键算法主要是标注服务类算法与分类服务类算法,其中标注服务类算法融合了传统机器学习、神经网络等技术;分类服务类算法则针对不同分类场景,依托相应算法构建分类体系。

2.2.1标注服务

依托传统机器学习模型,如 NB、LR 等,举例 NB 算法公式为 P(yi|X)= P(X|yi)*P(yi)/P(X),X 表示待测内容, yi 表示分类标签,P(yi|X)表示概率, P(X|yi)表示为指定类别下所产生的概率,P(yi)为每个类别的先验概率;LR 模型的计算公式为 P(Y=1|X) = \frac{1}{1+e^{-\beta X}},其中$P(Y=1|X)$表示在给定输入特征$X$下输出为正例的概率,$\beta$为模型参数向量,$e$为自然对数的底数;CRF 模型公式为 P(y|x)=exp{} (2-14),Z(x)={} (2-15),其中 Z 是以观察序列 x 为条件的概率归一化因子,fj(yi-1,yi,x,i)是一个任意的特征函数,为每个特征函数的权值。将基础模型的预测结果作为最终分类器的特征来进行分类,基于语料库中每一类命名实体分别训练对应模型,采用 BMESO 标签体系,并使用当前字符与其上下文作为特征实现标注效果

[7]

图2 基于对抗网络的多标准分词示例

2.2.2分类服务

针对不同分类场景,分类体系也有着较大的差别,例如二分类是指分类体系只有两个类别,多分类的分类体系包含了多个类别,不论是二分类或多分类,类别都需要是完备的;多标签是多分类的一种扩展,预测阶段一个文本可以属于多个类别,类似主题模型中的主题,一个文本属于多个主题;不同的分类策略对应了不同的应用场景,通常来说长文本比较适合多标签,短文本二分类或者多分类即可达到可观的效果;层级分类可采取不同的分类策略,包括直接对最后一层进行分类、按层级结构进行分类、将高层分类结果融入最底层分类[8]

图3 标签分层示例

3应用前景

基本文本分析技术的智能合同审阅系统应用前景广阔,例如:在供应链金融业务中,银行作为资金提供方,需要对合作伙伴提供的合同材料进行关键信息的抽取与审阅,用于贷款审核与风险管理;在公司法律合规风控层面上,为避免用印文件和电子版合同产生关键性偏差,对合同的重要数据进行提取和比对,以防止重大合同隐患;在合同信息资产化管理方面,对合同有关信息进行甄别提取,形成特定字段信息,对接公司经营体系并保存进内部资料库,方便未来经营发展过程中的信息跟踪、履约情况管理,协助公司洞察和分析运营情况,增强经营与信息管理功能[9]

4结语

基于文本分析等 AI 技术,智能合同审阅已成为各大型商业组织的必备工具之一,从信息抽取、文本比对、风险审核、智能纠错等方面提供全方位保障,智能结构化抽取合同关键信息,并进行关键信息比对,支持图片、

PDF、word 多种格式,可通过 API 接口传输至企业业务系统,协助企业工作人员完成自动填单、内容一致性检查,让合同审阅更高效[10]

参考文献

[1]章蓬伟,贾钰峰,刘强,等. 基于数据挖掘技术的文本情感分析技术研究[J]. 信息通信,2020(1):77-78.

[2]毛文伟.论数据挖掘技术在文本分析中的应用[J]. 日语学习与研究,2019(1):1-9.

[3]张磊.文本分类及分类算法研究综述[J].电脑知识与技术,2016, 12 (34): 225-226+232.

[4]杨学科.论智能互联网时代的算法歧视治理与算法公正 [J]. 山东科技大学学报:社会科学版 , 2019(4).

[5]高学强.人工智能时代的中国司法[J]. 浙江大学学报:人文社会科学版 ,2019(4).

[6]佘贵清, 张永安.审判案例自动抽取与标注模型研究[J].现代图书情报技术,2013 (06): 23-29.

[7]罗书贤.基于语义计算的法律支持系统的研究[D]. 南昌大学,2014.

[8]周晓辉.基于隐式马尔科夫模型的法律命名实体识别模型的设计与应用[D]. 华南理工大学,2017.

[9]胡志敏.基于综合权重的多文档关键词抽取算法[J].计算机与数字工程,2010, 38 (06): 45-48.

[10]左卫民.关于法律人工智能在中国运用前景的若干思考 [J]. 清华法学 ,2018(2).