职责描述:
SRE工程师,确保线上服务的稳定和性能,通过自动化、标准化和可扩展性来维护系统,解决运维难题,提升服务质量。
负责构建和优化公司的软件和系统运维管理体系,确保系统的稳定、安全和**运行。
负责监控系统的性能和稳定性,及时发现和解决潜在的系统问题。
负责设计和实施系统容灾和恢复计划,降低系统故障对业务的影响。
负责研究和引入先进的运维技术,提高运维效率和系统可靠性。
负责编写和维护系统运维手册和技术文档,保证团队知识共享和经验传承。
任职要求:
1.大学本科及以上学历。
2.计算机、软件工程、通信工程、自动化、电子信息等相关专业背景者优先。
3.3年以上SRE工程师或相关领域工作经验。
4.熟悉Linux系统管理和常用工具,如Shell、Python等编程语言。
5. 熟悉常见的监控系统、中间件和数据库,如Prometheus、Grafana、ES、Redis、Kafka、MySQL等。
6.具有较强的系统分析和解决问题的能力,能够解决复杂的系统问题。
7.有大型分布式、高并发、高负载、高可用系统设计和开发经验者优先。
8.熟悉Kubernetes、Docker等容器化技术,有实际部署和运维经验者优先。
9.参与过开源项目开发或对开源技术有浓厚兴趣者优先。
10.具有较强的沟通和团队协作能力,能够与开发、测试和产品团队紧密合作。
更新时间: 2024/09/29
更新时间: 2024/09/29
更新时间: 2024/09/29
更新时间: 2024/09/29
更新时间: 2024/09/29