《赵成的运维体系管理课》读书笔记

开篇词
一个研发团队内,除去业务需求实现层面的事情,其他都是运维范畴。

运维能力是整体技术架构能力的体现,运维层面爆发的问题或故障,一定是整体技术架构中存在问题,割裂两者,单纯地看技术架构或运维都是毫无意义的。

运维思路上的转变,远比淡村提升运维技术更有价值,而运维真正的价值应该跟研发团队保持一致,真正聚焦到效率、稳定和成本上来。

应用运维体系建设
SRE 理念的核心是:用软件工程的方法重新设计和定义运维工作。也就是要改变之前靠人去做运维的方式,转而通过工具体系、团队协作、组织机制和文化氛围等方式去改变,同时将之前处于研发体系最末端的运维,拉回到与开发肩并肩的同一起跑线上。

在微服务的架构模式下,我们的运维视角-定转到应用这个核心概念上来,一切要从应用的角度来分析和看待问题

微服务架构模式下的运维思路-定要转变, 一定要将视角转换到应用这个维度,从一开始就要统一规划, 从一开始就要将架构、开发和运维的工作拉通了去看,这一点是与传统运维的思路完全不同的。

要转换视角,规划以应用为核心的运维管理体系。

我们运维工作的开展常常不知从何下手,或者上来就冲着工具和自动化去了,却始终不得章法,工具做了一堆,效率却并没有提升。其实绝大多数情况下,问题和原因就是标准化这个基础工作没做扎实。于纷繁复杂中抽象出标准规范的东西,是我们后续一系列自动化和稳定性保障的基础。第一步,识别对象;第二步,识别对象属性;第三步,识别对象关系;第四步,识别对象场景。

并不是说ITIL 的重流程体系就一定 是过时老旧的,也不是说互联网运维技术就一定代表着最先进的技术趋势,而是在这个过程中,不同体系相互借鉴、相互学习、共同进步和发展,在碰撞的过程中,催生出更适合这个时代的技术体系。

效率、稳定、成本,从价值呈现的角度看运维:1运维基础平台体系建设 2分布式中间件的服务化建设 3持续交付体系 4稳定性体系建设 5技术运用体系建设

要想做好运维,就得跳出运维的局限,要站在全局的角度,站在价值呈现的角度,站在如何能够发挥出整体技术架构运维能力的角度,来重新理解和定义运维才可以。

效率和稳定性最佳实践
把基础的事情做好之后,我们就要进入效率提升的运维场景自动化阶段,做持续交付就是提升整个研发体系效率的关键

容量规划,就是对复杂业务场景的分析,通过一定的技术手段(如压力测试),来达到对资源合理扩容、有效规划的过程。

Design for Failure的理念。我们的目标和注意力不应该放在消除故障,或者不允许故障发生上,因为我们无法杜绝故障。所以,我们更应该考虑的是,怎么让系统更健壮,在一般的问题面前,仍然可以岿然不动,甚至是出现了故障,也能够让业务更快恢复起来。

绝大多数的严重故障都是因为无意识或意识薄弱导致的,并不是因为单纯的技术能力不足等技术因素。

功夫要下在平时,注意建设各种工具和平台,同时要尽可能地考虑和模拟各种故障场景。

安全:入网管控、堡垒机、主机安全管控、黑盒扫描、白盒扫描、waf、应急响应中心

云计算时代的运维实践
为什么上云:1成本闲置问题 2基础设施维护问题 3底层技术投入和人才问题 。更加聚焦于业务,以业务发展为生命线的公司,我们更期望能够在业务上取得创新和发展,而不是在技术上取得多么非凡的成就(这一点与公司的发展诉求是不-致的)。 所以这就从根本.上决定了,我们不会无限度地投入,或投入非常大的成本在这些基础技术的研究上。

在公有云蓬勃发展之前就已经建设了自有的技术体系和架构,所以在选择.上云的过程中,就需要有个过渡过程,这个过程就是混合云需求存在的应用场

基础设施建设阶段:第一个阶段,完全托管IDC模式。第二个阶段,资源短期租赁模式。第三个阶段,同城混合云模式。第四个阶段,公有云体系内混合云模式。

独立思考和分析的能力很重要,意识也很重要,切忌不可人云亦云随大流,反而迷失了工作方向。

个人成长
无论是我们做运维转型也好,还是做其它技术转型也好,具备代码开发能力,已经成为一-项必备技能。学会写代码,培养产品意识,提升技术运营意识。

如何根据自己的业务特点,找到跟业务相切合的价值呈现点,是我们每一个人应该去思考和探讨的。只有找到这些点,我们做的事情才会有价值和意义,我们所在的岗位才会有价值和意义。

或许,唯一的办法就是不断地学习和提升自己的技能,保持对技术发展趋势的敏锐性,及时做出调整和应对,才是根本的解决之道。

要有产品和运营意识,第一能将需求讲清楚,第二,能将产品落地-平台推广落地、线上运行数据分析、过程改进。研发团队对运维团队的诉求,以及运维呈现的价值已经发生了变化,我们更加需要能够帮助团队建设出高效运维体系的角色,而不是能够被动响应更多问题的角色。

运维虽然不是业务系统的实现者和代码的开发者,但是我们参与到了产品技术标准的制定、业务系统运维体系的建设以及后期的技术运营中,这个时候运维已然成了整个技术架构的设计者之一,而且是架构稳定和演进的看护者,这时我们所发挥的作用和呈现的价值已大不相同。

Design For Failure 的软件架构设计理念,同样也适用于技术管理工作。关于员工离职的两个观点:1对于离职这个事情,本质上就是员工个人发展和团队发展不匹配之间的矛盾。2对于员工离职,从管理者角度,我们应该理解为必然结果,坦然接受,而不是避而不谈。如果能意识到是必然结果,那我们要做的就是Design For Failure,不要试图去完全避免和杜绝离职,而是要有措施能够有效规避离职带来的问题和风险。也许最大的问题在于,道理我们都懂,但是能做到的不多。

如何做好技术管理:1.帮助员工做好个人中长期发展目标规划
主管应该跟员工一起确认员工任期内的中长期成长和发展目标,让员工能够在任期内发挥最大的作用和价值,同时能够尽可能地让员工在任期内达成自己期望的成长目标。对管理者来说有一件很重要的事情,就是能够找到团队发展和员工个人发展相契合的价值点。

这里很重要的一点,做技术管理者,一定要从关注事情、管理事情转换到关注人的层面。要关注人的成长发展,关注成长发展中的问题和疑惑,关怀人的工作体验和心理感受,这个才是管理的核心。一定不要忽略人这个核心要素,人的事情搞不定,其它任何事情都无从谈起。2.进行梯队建设 3.提升管理意识

如果想要树立个人的好口碑,那就需要我们付出更多,要让团队和其他成员明确你独特的个人价值

开篇词
应用运维体系建设
效率和稳定性最佳实践
云计算时代的运维实践
个人成长
如何做好技术管理:1.帮助员工做好个人中长期发展目标规划
0