SRE-Llama – Fine-Tuned Meta's Llama LLM, Federated Learning, Blockchain and NFT Enabled Site Reliability Engineering(SRE) Platform for Communication and Networking Software Services
Eranga Bandara, Safdar H. Bouk, Sachin Shetty, Ravi Mukkamala, Abdul Rahman, Peter Foytik, Ross Gore, Xueping Liang, Ng Wee Keong, Kasun De Zoysa
软件服务对于可靠的通信和网络至关重要;因此,站点可靠性工程(SRE)对于确保这些系统保持可靠并在云原生环境中表现良好非常重要。 SRE利用Prometheus和Grafana等工具来监控系统指标,定义关键服务水平指标(SLI)和服务水平目标(SLO),以保持高服务标准。 然而,由于许多开发人员往往缺乏对这些工具的深入了解以及定义适当的SLI和SLO所涉及的复杂性,因此出现了一个重大挑战。 为了弥补这一差距,我们提出了一个名为SRE-Llama的新型SRE平台,由生成式AI,Federated Learning,Blockchain和Non-Fungible Tokens(NFT)增强。 该平台旨在自动化和简化监控、SLI/SLO生成和警报管理的过程,为开发人员提供易用性和实用性。 该系统通过从云原生服务中捕获指标并将其存储在时间序列数据库中(如Prometheus和Mimir)来运行。 利用这些存储的数据,我们的平台采用Federated Learning模型,为不同的服务和SLO确定最相关和最具影响力的SLI指标,解决有关数据隐私的问题。 随后,微调Meta的Llama-3 LLM用于根据这些已确定的SLI指标智能生成SLI,SLO,错误预算和相关警报机制。 我们平台的一个独特方面是将生成的SLI和SLO编码为NFT对象,然后存储在区块链上。 此功能提供不可变的记录保存,便于轻松验证和审计 SRE 指标和目标。 拟议平台的自动化由区块链智能合约管理。 拟议的SRE-Llama平台原型已经实现,其用例具有定制的Open5GS 5G Core。
Software services are crucial for reliable communication and networking; therefore, Site Reliability Engineering (SRE) is important to ensure these systems stay reliable and perform well in cloud-native environments. SRE leverages tools like Prometheus and Grafana to monitor system metrics, defining critical Service Level Indicators (SLIs) and Service Level Objectives (SLOs) for maintaining high service standards. However, a significant challenge arises as many developers often lack in-depth und...