加急见刊

分布式系统中的日志分析及应用

陆杰; 李丰; 李炼 1中国科学院计算技术研究所计算机体系国家重点实验室; 北京100190; 中国科学院信息工程研究所; 北京100193; 中国科学院大学; 北京100190

摘要:分布式系统是支撑当前大数据时代各种大数据应用和在线服务的基础平台,分布式系统的质量是大数据应用提供良好服务的基础和前提。伴随着大规模分布式系统的广泛应用,由分布式系统缺陷带来的影响和危害日益严重。但分布式系统在设计、实现和部署方面的复杂性,导致系统的开发和维护人员很难准确地理解和掌握整个系统的行为,难以及时发现系统中存在的故障并进行修复。分布式系统日志涵盖了丰富的信息,是辅助用户理解分布式系统逻辑、剖析系统性能、检测系统异常以及诊断故障原因的重要依据。但复杂的日志结构、庞大的日志规模以及属于不同功能模块、不同用户请求的日志之间相互交错,为人工分析、挖掘日志中的有效信息带来了巨大的困难。本文对近年来针对分布式系统日志的分析和应用技术进行综述:首先总结了分布式系统日志分析与应用的通用流程,提炼出其中的3个关键步骤,即日志的收集与解析、日志划分、以及日志特征的挖掘与应用;然后针对上述3个关键步骤,逐一分析需要解决的技术问题,分类阐述目前主流的技术方案,对比技术特征或适用场景。文章还归纳了目前常用的3类日志特征,并从4个方面就该领域未来可能的研究方向提出展望。

注: 保护知识产权,如需阅读全文请联系高技术通讯杂志社