十八世纪,大数学家欧拉用创造性的办法解决了著名的“七桥问题”,并在公里外的哥尼斯堡埋下“图”概念的种子。年,工业界第一款图数据库——Neo4j问世,随后,图数据库技术不断更新迭代,全球市场上的图数据库产品也不断增加。
许多全球知名的互联网公司的核心技术都有图的影子,比如Google的PageRank、Facebook的SocialGraph、Twitter的FlockDB;世界十大零售商中,包括Walmart、eBay在内的七家厂商都会利用图技术进行商品推荐、日常促销以及提升物流效率。值得一提的是,Facebook在发展过程中开源了很多东西,但是作为核心能力之一的图计算引擎与架构却从未开源过,可见其重视程度。
Gartner年9月发布的《图数据库管理系统市场指南》报告中预测,到年,图技术在数据和分析创新中的占比将从年的10%上升到80%,以服务于企业快速决策。
世界范围内,图数据库市场上开源、商用图数据库并驾齐驱。截至年1月份,进入DB-EnginesGraph数据库监控范围的产品就达到35款。图数据库已成为数据库领域的新兴技术,并已形成初步的市场规模,正处于快速发展之中。
近年来,我国图数据库产业同样很迅速。从大型互联网企业到传统IT服务商等,很多都在开展相应的技术研究。
事实上,渊亭科技早在7年前开始布局,自主研发的DataExa-Seraph分布式图数据库经过多次版本迭代,已具备完备的管理能力和优异的技术性能,在市场中广泛应用。
作为渊亭科技认知智能产品矩阵的重要组成部分,DataExa-Seraph是一个具备伸缩性、健壮性、事务完备性的图谱存储引擎,支持万亿级实时大数据分析和操作,在大规模数据量加载导入和高维关系分析方面实现了突破性创新,基于多租户的权限安全控制,能够和现有成熟的大数据及人工智能生态圈无缝对接。
那么,DataExa-Seraph究竟有哪些亮点功能和落地应用呢?往下拉,一睹为快!
?多样化的存储方式,支持异构数据混合存储。其中,针对特定领域数据进行了大量的存储优化,例如地理信息数据、工业互联网传感数据、军事装备数据等;
?高性能的数据批量导入导出能力(BulkLoad),支持快速交换海量数据。
?分布式云原生架构,具有分布式计算、分布式存储、分布式事务、在线扩容等能力;
?高扩展的数据处理框架,内置多种后端存储引擎,支持插件式轻松扩展后端存储引擎;
?极速的实时查询响应效率,支持万亿数据下的图检索毫秒级响应;
?强大的图算法分析能力,内置60多种图分析算法。
?稳定的负载均衡能力,轻松应对数千用户高并发在线实时操作;
?完备的运维特性,支持数据备份恢复、一键部署、全方位监控、可定制告警、容器集成、扩展存储计算节点等企业级功能;
?丰富的数据开放能力,提供统一、易用的访问接口,支持不同的平台调用。
Seraph支持丰富的存储类型,既包括Int、String等常见的简单数据类型,也包括List、Set等集合类数据类型。根据数据量级,Seraph提供分布式任务加载、单机程序数据加载等不同的数据存取的处理方式。
Seraph提供了强大的图建模能力,支持独立的schema元信息,并支持自定义索引和默认索引方式实现顶点属性、边属性的索引设置,可快速查询用户所需的关键数据信息。
Seraph支持以组件化的方式对外提供服务,提供了高效的数据导入、导出接口API和丰富的导入导出手段,支持对半结构化数据、关系型数据库等不同的数据类型进行导入处理,方便用户按照不同需求操作使用。
图形化方式导入
Seraph作为标准大规模图数据库,支持Gremlin、Cypher等作为默认查询语言。在节点搜索方面,Seraph提供亚秒级的查询响应性能,支持常见的查询过滤需求,如数据节点标签搜索、数据节点属性搜索、全属性搜索等。Seraph支持高维的关系深入拓展检索能力,在低维(4维以下)能够支持毫秒级拓展检索,高维层面也能达到秒级拓展检索。
多维拓展
Seraph拥有对全库数据进行海量数据计算的能力,能够无缝对接大数据生态圈的成熟的计算组件,为用户提供灵活的离线计算选择,支持单线程事务、多线程事务、嵌套事务等典型事务模式,为用户提供安全的事务操作隔离机制及灵活的事务配置能力。
在此基础上,Seraph支持分布式系统的相关事务特性,满足用户对分布式环境下图数据库事务的能力要求,并内置60+图分析算法,包含路径算法、最短路径分析、最小生成树等,几乎涵盖所有图计算算法种类,满足多样化图计算操作需求。
Seraph作为一款大规模分布式图数据库产品,不但可实现存储计算节点在线动态扩展,也能够对查询等相关服务应用节点提供在线动态横向扩展能力。Seraph提供的一键式的操作功能,可以有效提高运维工作的容错率。例如在进行系统升级时,运维人员上传补丁包后能够一键分配重启来达到升级的目的,大大简化操作流程,同时系统提供版本回滚的功能,在升级问题时能够快速地恢复系统的可用性。
Seraph提供完善的服务监控和部署节点监控能力,并基于此提供了丰富的预警配置,用户可以全面、及时地掌控服务、系统的运行状态,在出现问题时快速处理。并且,Seraph提供多样化的数据备份恢复机制,在不影响系统线上服务运行的情况下轻松实现数据备份和恢复。
可视化监控运维
得益于Seraph的强大能力,渊亭科技结合社交、金融、零售等领域的实际业务场景,进行产品沉淀、落地诸多项目,切实解决用户痛点问题。
DataExa-Sati认知智能平台是渊亭科技研发的一套成熟的行业知识图谱构建分析体系。以Seraph图数据库作为默认存储引擎,提供了灵活的设计模式,对海量信息进行智能化处理,包括可视化的知识建模、多源异构的知识抽取、解决实体冲突和属性对齐的知识融合、支持万亿级别的高性能图存储计算引擎以及复杂的知识推理等,能够针对行业知识快速建立知识应用能力,形成大规模的知识库、支撑业务应用。
产品以自主研发的“图计算、AI模型、规则模式”三大能力为核心,利用图数据库能力实现账户之间深度关系表征图谱化,进而支撑从交易的上下游进行深层追溯,追溯整个资金的流向,以更宏观的视野发现其他手段难以定位的洗钱模式及洗钱团伙,有效提升反洗钱检测的筛选能力,帮助资管机构实现可疑交易事件穿透式监测、洗钱行为特征知识沉淀、洗钱风险事前预测,全方位升级洗钱风险管理能力。
项目围绕资本市场主要生产和业务活动,进行全方位监控和历史数据分析。基于Seraph分布式图计算引擎,在百亿图谱中快速进行3跳路径分析,使用最小生成树剪枝优化层次聚类算法,在有限资源支持下实现快速挖掘。辅助监管人员及时发现市场主体涉嫌内幕交易、市场操纵等违法违规行为。
图处理技术是大数据、人工智能和高性能计算产业发展的关键技术之一。未来,渊亭科技将密切