(邮编:810000)
摘要:随着信息技术数字化建设的快速发展,注册会计师运用大数据审计提升实施审计程序的有效性、实时性和全面性来确保充分、适当的审计证据。为企业提供大数据审计、战略分析、决策支持和经营管理应对数据量大、业务复杂、范围广泛的情形。适用于制造业企业建设大数据审计及其应用,为后续系统设计、建设和应用等工作起到指导作用。
关键词:审计EDA系统、大数据审计、ETL平台、运营数据仓储(ODS)、大数据平台(BDS)、企业数据仓库(EDW)、数据集市
一、范围
本文档适用制造业企业建设大数据审计及其应用。
主要包括以下四部分建设内容:
(一) 准备必要的系统软件
建设所需数据库、集群软件、HDFS、HADOOP、HIVE、PYTHON和其他应用软件。
(二) 准备必要的硬件设备
自制服务器或租赁服务器。
(三) 审计EDA系统建设
EDA 是由运营数据仓储(ODS)、大数据平台(BDS)、企业数据仓库(EDW)系统及承载在其上的数据展现与服务、数据应用组成,包括EDW、ODS和BDS 所涉及的ETL、元数据管理、数据存储、报表和OLAP 以及数据挖掘等。
(四) 数据应用
实施数据分析审计程序、实施控制测试审计程序、实施细级测试审计程序等。
二、系统概述
(一) 总体技术架构
审计EDA技术架构由数据存储与处理平台、数据展现和服务、数据应用、数据运营管理四部分组成,如下图所示:
(二) 数据存储与处理
数据存储与处理由ETL平台、运营数据仓储(ODS)、大数据平台(BDS)、企业数据仓库(EDW)和 数据集市构成,是数据应用承载的基础。
(三) ETL平台
为了满足对当前非结构化、海量数据的实时处理要求,引入了传统ETL和分布式ETL处理模式。ETL 平台包括数据的抽取、转换、装载的过程,为 ODS、EDW、大数据平台提供数据基础。传统ETL采用文本文件、数据库、消息服务等技术方式对传统的结构化数据进行增量或全量的采集和处理,将数据提供给ODS平台。分布式ETL通过多服务器间按照协同工作机制,将要执行的ETL流程分配在多台机器上执行,将数据提供给大数据平台。ETL 平台的数据处理过程涵盖了数据生产源系统、ODS、EDW、大数据平台、数据集市的数据流向全过程,使经过处理后的数据符合 EDA 域各层的使用需要。
(四)ODS
ODS的大部分数据来源于生产系统,主要采用批处理的数据处理方式,多基于OLTP技术的SMP架构的数据存储管理,存储了面向运营的实时结构化数据,提供统一的企业运营数据,支撑跨系统的生产报表、跨系统数据的批量计算、实时运营数据查询和实时的数据共享应用。ODS给大数据平台提供数据共享,ODS的部分数据来源于EDW的分析结果数据。ODS通过共享层将数据提供给外围系统使用,作为EDW的主要数据来源。
(五)大数据平台
为了满足大数据审计数据处理和分析的要求,EDA以混搭架构引入了大数据技术,负责对非结构化、海量数据进行处理、整合、存储及分析应用,形成大数据平台。大数据平台的数据来源于企业内部信息化系统、支持性文件、互联网和外部系统数据。海量结构化数据和非结构化数据采用批处理的数据处理方式,基于MPP高可扩展并行数据库架构或HADOOP架构的数据存储管理方式,存储了诸如采购、库存、订单、出入库等数据信息。大数据平台通过HADOOP等技术对海量数据进行轻度汇总,对海量的、非结构化的数据进行标准化、标签化,共享给ODS,同时使用大数据挖掘手段,支撑全企业大数据的创新应用。大数据平台与ODS和EDW相互补充,丰富了EDA的数据存储和数据应用。
(六)EDW
EDW面向分析型的数据仓库,数据主要来源于ODS,ODS未整合的运营数据直接从源系统抽取。采用批处理的数据处理方式,基于SMP架构或MPP高可扩展并行数据库架构的存储管理,存储了长期的、明细和概要的分析型信息,采用数据统计、多维分析和数据挖掘等手段,细分企业业务流程、企业财务流程、审计业务流程,支撑审计数据分析、其他业务分析应用。
(七)数据集市
数据集市作为制造业企业EDA 系统的组成部分,从企业运营数据仓储 ODS 、大数据平台和企业数据仓库EDW 抽取相关数据并进行转换和装载,并根据应用需求形成数据集合,支撑各种专业化应用,是为满足已定义的用户组或业务领域对于特定业务信息的需求而创建,较数据仓库而言,更关注在数据中构建复杂业务规则来支持功能强大的分析。数据集市包括地域集市、应用集市、专业集市、基于大数据的创新集市。在实现方式上,数据集市可依附于三大平台进行建设,考虑到系统性能和应用效果也可以采用物理部署的模式,但是数据必须由EDA 统一提供,不允许直接和生产系统对接。
(八)数据应用
数据应用基于数据集市的共享接口获取数据或通过展现工具实现数据的直接展现。统一的数据应用平台,对企业审计业务支撑风险识别与评估分析、风险应对分析、企业内部控制分析、审计实质性程序应用;制造业企业、治理层人员与管理层人员应用于战略分析、决策支持和经营管理;对外支撑数据服务以及数据提供。
(九)数据架构
EDA数据架构是EDA整体架构设计中的关键部分,它围绕数据共享服务中心的目标,对EDA的数据体系进行科学规划和全面设计,EDA数据架构图如下所示:
EDA数据架构描述了 ODS 、EDW和大数据平台的数据分层架构,以及 ODS、EDW、大数据平台和数据集市之间的数据流向。ODS 分成接口层、整合层,EDW 分成接口层、整合层、汇总层和应用层,大数据平台分为接口层、处理层和共享层。数据源通过ETL平台加载到ODS和大数据平台,在ODS、EDW和大数据平台中通过一系列整合、汇总后,形成各类数据集市,最终支撑各类数据应用、展现和服务。
数据源按照数据类型可以分为结构化核心数据、海量结构化数据、非结构化数据和消息类流数据。
结构化核心数据如ERP、MES、WMS、QMS、SAP、OA和业务平台等应用系统中的数据,通过传统ETL平台加载到ODS中, 存储在ODS的接口层,接口层的数据模型与外围系统基本保持一致,ODS整合层的数据主要来源于ODS接口层,是ODS的核心数据层,数据模型遵循EDM模型对数据进行整合,按照应用和主题的要求将ODS接口层的数据进行标准化、轻度数据整合处理形成整合层,对外提供共享数据,将数据提供给EDW平台和大数据平台。EDW的数据主要采集ODS整合层的数据,存储在EDW的接口层,根据风险识别与评估分析、风险应对应用、企业内部控制分析、审计实质性程序等应用要求,对数据进行治理、整合、汇总最终形成应用集市、专业集市、地域集市等各类数据集市。同时,也允许EDW的分析结果回送给ODS或源数据,弥补ODS分析加工数据能力的不足、支撑完善和优化企业信息系统,支撑ODS的对内对外数据支撑需求。
海量结构化数据和非结构化数据如支持性文件等数据通过扫描加载到大数据平台转换成结构化数据,存储在大数据平台的接口层,接口层的数据模型与外围系统基本保持一致,大数据平台的数据处理层主要对采集到的大数据平台接口层的数据和ODS提供的等数据进行治理、整合、汇总,最终对处理整合好的数据形成共享数据层,通过共享数据层对审计业务提供服务等。
(十)信息技术
为了实现审计EDA系统的建设,企业拥有以下资源:
1)业财一体化系统:ERP、MES等;
2)必要的硬件设备:自制服务器或租赁服务器;
3)其他必要的软件:支持大数据建设所需的软件;
4)支持性文件数据采集系统:合同、协议、发票等文件通过扫描加载到大数据平台,以结构化数据方式存储并于订单、采购、出入库等业务相关联,完善数据完整性、充分性、业务流程的连贯性。
5)企业信息系统的数据满足可靠性、完整性、一致性、连贯性和可维护性。
三、大数据审计应用
(一)业务流程与数据价值
首先创建审计EDA系统团队了解企业业务场景,甚至融合多元的业务场景,脱离了业务场景的数据毫无价值。数据从业务中来,真正的回到业务中去,才能最终体现数据的价值,下图是制造企业一般业务流程与数据关系。
图2.2.1
(二)数据的生命周期
数据按日、月、年进行抽取、日数据按每日0点到1点时间段拍照上一日的数据,保存了上一日所有数据状态信息;月数据按每月1号0点到3点时间段拍照上月的数据,保存了上月所有数据状态信息;年数据按每年1月1号0点到3点时间段拍照上年的数据,保存了上年所有数据状态信息。
日数据至少保存三个月的数据、月数据至少保存一年的数据、年数据按企业的要求保存历史时长但不低于审计准则的要求。
在审计EDA系统各层的数据加工和数据保存按上述按日、月、年的情况来实施来保障查询历史原状态数据、业务分析、大数据审计风险分析、战略分析、决策支持和经营管理等。
(三)数据运维
数据运维是企业、治理层人员、管理层人员、审计EDA系统建设者和数据使用者共同的工作,审计EDA系统建设过程中或数据使用过程中发现数据源中信息系统的缺陷、没有信息化的数据优化和完善,这使得企业要耗用企业资源,企业需根据情况配备资源。
(四)审计应用
1、实施控制测试
在上述业务流程图2.2.1中审计相关所有的控制流程实施控制测试,通过前后业务数据、企业组织结构、职能部门、人员岗位等信息进行数据整合、数据分析、数据比对发现异常面、线、点。
2、识别发生、存在认定错报
由于业务流程和业务数据流程连贯性,每个环节的数据与前面环节数据不关联、数据不存在、数据删除(信息系统不显示,后台有数据但标识为已删除的数据)等原因发生、存在错报风险特高,上述数据分析剩下的数据量一般不是很大,所以可以全量进一步实施其他审计实质性程序。
3、识别完整性认定错报
由于业务流程和业务数据流程连贯性,前面环节有效数据与本环节的数据不关联且数据未处理时长(挂起状态)远远超过了本企业平均处理时长完整性错报风险比较高。由于完整性认定充分性、挂起状态数据在数据分析中容易找出,所以选取前面环节有效数据生产的时间节点尽量久远。以上排查出的数据可以进一步实施其他审计实质性程序。
4、识别准确性认定错报
由于业务流程和业务数据流程连贯性,可以每个业务流程环节数据通过数据分析、计算实施全量的准确性认定程序,发现的数据不对称实施确认性审计程序。
5、识别截至认定错报
由于业务流程和业务数据流程连贯性,可以每个业务流程环节数据通过支持性文件采集的数据(合同、发票、协议等)、财务系统的日期、金额、账期等数据分析全量实施截至认定程序,发现的不对称、无法分析的数据可以进一步实施其他审计实质性程序。
6、识别准确性、计价和分摊认定错报
相关资产、负责初始计量应用各个业务流程环节数据进行数据分析、计算等实施准确性、计价和分摊认定程序,后续计量应用PYTHON算法实施审计实质性程序,发现的异常数据实施确认性审计程序。
应用PYTHON的适当的模型、算法、因子、输入值、源数据接入评估管理层作出的会计估计。
7、特别风险
从数据分析角度以下几点可能存在舞弊风险:
1)数据未处理时长(挂起状态);
2)业务逻辑不符合的数据;
3)数据删除、作废(信息系统不显示,后台有数据但标识为已删除、作废的数据);
4)数据有篡改。
8、业务逻辑不符合的数据
审计EDA系统建设过程中、风险评估和识别中、数据使用过程中发现有业务逻辑不符合的数据有以下原因:
1)数据录入时录入错误并没有处理;
2)数据录入时录业务不熟悉导致的;
3)采集系统识别错误;
4)输入的数据格式不正确;
5)对应的信息系统缺陷;
6)有舞弊风险。
上面1、2、3项属于脏数据,4和5项需优化信息系统。
9、删除作废的数据
以下几点有数据删除或作废:
1)业务取消或作废;
2)数据录入错误;
3)信息系统误操作;
4)采集数据有误;
5)舞弊操作。
四、结语
对应全面数据化建设、业务比较复杂、范围广泛的制造业企业建设审计EDA系统非常有必要。建设时间长,消耗企业资源高,完成建设后收益时间长、费用低、受益面广:大数据审计风险分析、信息系统不断优化和完善、战略分析、决策支持、经营管理、业务分析、全面优化资源等。数据有日、月、年拍照留下全量数据状态,有利于数据篡改查询等优势。
作者简介:张吉海,1981年1月出生,男,籍贯:青海省大通县,土族,本科学历,研究方向:大数据审计应用
1