论NLP技术在金融业的应用

(整期优先)网络出版时间:2023-06-17
/ 3

论NLP技术在金融业的应用

李艳卿

44010219861104232X

摘要:随着金融行业的发展,客户对金融服务的时效等要求日益提高,金融业也需要更多的人手处理客户需求。金融业面对每天各渠道的通话数据也希望从中分析客户需求,提前推送客户需要的服务。而当前自然语音处理技术已实现段落理解式,且转译成文本的精准度大大提升。现多家金融机构都开始尝试使用NLP技术,实现AI机器人提供实时服务及标签化管理通话数据资源。

关键词:智能金融;NLP;自然语音处理;数据资源标签化管理;语音工作室

一、NLP技术概述:

自然语音处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。按照技术实现难度的不同,这类系统可以分成简单匹配式、模糊匹配式和段落理解式三种类型。

如客户在银行的微信公众号的聊天界面输入“查账单”,即可弹出账单查询链接,客户可以通过输入卡号及密码,或者选择已绑定的账号,直接查询账单。这种根据用户提出的关键字直接给出对应文本回复情况,属于简单匹配式。

而模糊匹配式则是在简单匹配式的基础上增加了同义词和反义词的匹配。如客户在银行的微信公众号的聊天界面输入“查账”、“账单”,都会出现跟输入“查账单”一样的查询链接。

段落理解式涉及自动分词、词性分析、句法分析和语义分析等 NLP领域的多种复杂技术,所以实现难度较大。如金融业员工在与客户沟通的对话,对话文本可能会包含多个关键词,但实际从这通对话中,捕捉到客户的真实需求,这个就需要实现段落理解了。通常可通过输入大量的语料文本让机器人学习,机器人自行寻找到相关规律,再进行语义匹配。

二、金融业目前对于技术革新的需求

以前,金融行业对于通话录音的质检是使用人工抽检的方式,需要大量人手,而且不可避免的有遗漏。而面对当前客户量大,客户个性化需求提高,必然需要更多的人力才能满足客户需求。尤其对于高龄客户,更加希望通过语音就能实现操作或通过语音找到业务办理入口。并且金融行业在营销、业务办理、客户服务等过程中也能积累大量真实语料数据,如何对此数据进行分类,深挖价值,也是值得研究的。随着NLP技术的发展,金融业已可通过 NLP技术对语音数据进行文本转译及筛选标注,再分类各种需求,推送对应服务指引及业务办理接口,减少客户等待时长,提高营销的精准度。对于投诉倾问或高净值客户,也能及时提供给高技能员工跟进,提前避免问题升级。

现多家金融机构均有成立专门的语音工作室对本机构的语音数据进行价值深挖。该项目可分为研发、测试、应用并不断优化,三个阶段。

三、语音工作室的设立

1.立项:

在立项阶段可使用六西格玛方法设定框架及时间表,确定需求及要实现的目标。因语音工作室可以在部门内成立,也可以在整个机构内设立一个语音工作室,而对应的需求及目标会有所不同。

如,银行信用卡中心的需求可能集中在:潜在风险预警、客户价值挖掘、服务体验提升等。

潜在风险预警:延滞原因标签风险拐点还原并挖掘同类客户;营销不规范语音标签发卡风险预警;审批风险语音标签客户跟踪。

服务体验提升:意外类语音标签免打扰关怀;投诉预警类客户审核提示;合规类标签客户信息监测。

客户价值挖据:全量客户语音标签交易失败脱落换救;全量客户语音标签交易分期挽救;基于客服场景语音标签促激活。

而如果是信用卡中心的审批部门,需求就会集中在:为客户管理提供增量信息、补充了风险判断维度;实现立体化的客户信息特征输出,辅助全流程风险管理审批业务等。

2. 项目人员配置及工作职责:

在人员配置上,除了有计算机专业背景的员工,还需要从各业务处借调业务人员,他们对于实际的业务场景更加熟悉,对于各标签的需求及应用能提供建议,也能提供更多的建模语料。然后再对工作室成员进行分组,如负责对语料进行上标的标签组,主要负责取数及建模的数据组等。

3.订立每个阶段的目标:

语音工作室的产出物——标签,是作为增量信息,提升风险预警精准度,根据客户场景提取沟通过程关键信息标签,立体化的追踪业务或服务后的客户变化。如:通过电话营销端获取录音,通过语言云技术套用模板,抓取出营销不规范的录音,方便质检部门减少人力,更重要是能及时采取补救措施,避免后续导致投诉升级。又如:营销渠道的转化率,上标营销目标客户的数据量乘以转化率,得出的数据是否满足业务目标等。成功的数字化营销能让银行销售生产率提高20%;客户流失率下降25%;交叉销售成功率提高160%;银行整体运营效率和业务表现也会显著提升,年收入增长35%;净推荐值可上升8-10。可以根据需求订立各个目标。

四、语音工作室的具体工作流程

1.确定标签、定义标签

小组成员先头脑风暴会议,列举需要的标签及大概的应用场景。根据业务需求优先级排序,对列举的标签进行批次划分。对第一批次的标签进行定义,然后列举出上标场景。可初步分成二级分类,模型成熟后可细分三级分类。如:

一级分类可归类为:投诉倾向或敏感关注类、营销类、业务办理类等。(或客户状态类型、体验提升类型、风险提示类型、需求挖掘类型等)

二级分类可归类为:业务办理类——保单理赔、保单贷款、续保、缴纳保费等;营销类——购买基金需求,购买保险需求等;个人属性类——隐形企业主、提及财力、不良嗜好、多重职业、提及影响力等;信用状态类:失业、投资用卡、经营不善、还款受影响、发生意外、使用代偿等;需求预测类:额度敏感、权益关注、用卡偏好、激活/使用失败等;欺诈类:涉嫌违规违法客户,身份可疑、非本人用卡等。

可先初步列出常用标签,当标签开发流程成熟后可逐渐添加标签。

2.提取关键字、从各渠道提取语音文本

头脑风暴会议,提取关键词。根据关键词对实际生产环境中的语料数据进行取数。通过语言云技术(语音云——语音转文本技术,基于ASR转译文本信息),从各实际业务渠道中提取文本。如:app智能客服(因使用APP智能客服时客户通常是打字表达需求,更能避免语音转译时产生转译有误的情况)、官方客服电话录音、电话营销渠道录音、办理业务过程中的录音录像等。或从已知标签类型数据中针对性抽取样本,如:对于已有的存量投诉,对于该投诉的全流程录音人工分析,抽取关键词,总结文本规律,建立短文本语义匹配模型。

3.由人工对样本进行标签标注,并从中探索更多业务场景,总结出文本规律。

对取数的语音文本进行人工上标。上标后总结有效文本的规律,写出第一版标签规则。把规则录入系统,对实际生产环境中的语料数据进行取数上标,再人工复核准确率,并据此优化规则。可检查人工上标无效但规则上标有效的文本,总结规律,如是否需排除某些词组,或关键词之间的间隔、顺序等是否需要调整等。可重复此过程多次反复改版规则,使规则达到标准。(当有效性达到85%为及格,90%时即为可用,95%为优秀。各家金融机构的标准有所不同,在此仅作举例。)同时,可把人工上标后的语料数据提交机器人学习,后续模型会在日常业务文本中抽取上标文本,人工再进行复核。后续,其他批次的标签可重复该流程,并且在时间生产环境中检测是否达成业务目标,再进行优化。

4.人工扩充场景,造句,扩充AI训练语料

人工围绕标签的业务场景造句。同时可从明确标签正确的对话文本中提取语料,如投诉类,业务办理类等能明确需求的文本。提供更多基于业务的已人工上标的文本语料给AI机器人学习,就像教会一个牙牙学语的孩子学听懂大人的话,后续给各个标签匹配好回复规则后,让这个牙牙学语的孩子(AI 机器人)也能给出适当回应。同时配合各种中文预培训模型,如:BERT-WWM、CMRC等,以及transformers、faiss、PyTorch、datasets等工具。文本语料可逐步扩充,并不断检测模型效果,不断优化模型。对各个标签初步构建模型,内部验证,并优化。(订立模型有效性指标:如准确率达到0.75时可内部试用,0.8时视为及格,0.9时线上使用。各家金融机构的标准有所不同,在此仅作举例。)

5. 内部各个渠道尝试使用。

在使用中,各渠道员工反馈效果,并提出优化建议。若发现标签有误,也可提出个案给语音工作室研究。如:某些状态类标签的有效期,如反映客户失业,建议1年后如客户没主动致电更新资料,可以反馈给推送信息部门,推送建议客户更新资料的链接短信或接入口,客户完成后可获得积分或小礼品;银行或其它小贷机构客户延滞还款、保险公司客户欠缴保费等,当客户正常还款或补缴费用后,系统可实时除标。

6.全面实现标签产品线上化

当内部测试期满,能初步达成业务目标,可推行全业务流程实时,或T+1天精准上标。同时不断优化,拓展介入渠道——接入更多设备使用场景;拓宽下行应用渠道——金融机构内部更多部门能使用到,实现客户生命周期语音标签应用线上化。

五、展望

2022年11月30日,美国OpenAI,研发的聊天机器人程序ChatGTP发布。ChatGTP比之前的语言处理工具都要功能强大。它能够通过学习和理解人类的语言类进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。

随着语言处理工具的技术发展,在各行各业的应用将会越来越广泛、深入。且对于金融行业这种偏模板化的服务型行业,可以节省更多人力。以便更好的优化服务模板,优化体验流程,腾出人手对高净值客户提供个性化服务。

参考文献:

[1]许健,耿海波,陈生,杨璇.NLP技术在银行制度管理中的应用[J]. 银行家,2022(8):102-104.

[2]王子敏, 周杰, 梁佳雯, 何加豪.基于NLP和深度森林的金融舆情抓取与分析[J]. 电子商务,2020(8):53-54.

[3]王哲, 刘殿兴,岳丰,舒光斌.基于NLP技术的反洗钱同一客户识别研究[J]. 中国金融电脑,2022(6):71-76.

[4]徐健,职燕,刘源.基于PSO优化孪生支持向量机的自然语言处理[J]. 南京理工大学学报,2023(2):103-108.

[5]高佳希,黄海燕.基于TF-IDF和多头注意力Transformer模型的文本情感分析[J].华东理工大学学报(自然科学版),2023(3):1-8.

[6]熊小舟,刘小康,徐滢,罗坤.基于知识图谱的智能语音识别案例分析[J].集成电路应用,2023,40(1):228-229.

[7]杨彬,孙瑞超,郝轶.数字时代背景下提升适老智能金融服务的路径研究——以黑龙江省为例[J]. 黑龙江金融,2022(12):81-83.

[8]束超慧,王海军,刘俊峰.模块化驱动的颠覆性技术创新网络演化研究——以智能语音为例[J]. 科技进步与对策,2023(3): 1-11.

[9] 李芳,陈震原,肖军. 一种基于自然语言处理技术的智能定责应用研究[J]. 广东通信技术,2023 (1): 8-12.

[10] 戴路,潘莉,吴姗.自然语言处理技术助力金融科技标准化建设[J]. 中国标准化年度优秀论文(2022)论文集,2022: 595-600.