简介:[摘 要 ] 本文针对大型医院海量结构化、半结构化、非结构化数据的存储问题,设计和实现了一种数据湖存储方案。该存储方案通过构建三个“统一”,二个“分布”,一个“闭环”,即统一存储数据、统一命名空间、统一资源池、分布式存储、分布式元数据和缓存、数据安全闭环,做到了性能和容量线性提升前提下的百 PB级别不同类型数据的混合、持久存储;实现了多协议数据出站、入站;支撑了存储与算力分离后的数据复用。该方案相较于传统存储区域网络,适应大数据分析、深度学习和预测、物联网数据实时采集场景。数据不再需要重复地导出,真正做到了一份数据,多次复用,不仅节省了大数据分析和人工智能预测项目的成本,提高了效率,而且确保了数据安全。