最新公告: 918博天堂ej.com-918博天堂国际厅
新闻动态
联系我们
地址:
电话:
传真:
邮箱:
公司新闻

当前位置:官网首页 > 新闻动态 > 公司新闻 >

阿里10年:一个普通技术人的成长之路

文章来源: 更新时间:2020-12-11 16:40

原标题:阿里10年:一个一般技能人的生长之路

简介: 不论是什么人物,生长是咱们每个人都有必要阅历的进程。作为一个技能人,生长不仅仅技能上的不断精进,也包含日常作业中的方方面面。本文共享阿里巴巴高档技能专家在阿里10年的生长之路,共享他从一个一般技能人开端,在阿里的三个阶段,以及在提高、转岗、带团队、干事等方面的心得感悟。

一 关于我

宋健,诨名宋意,2008年开端参加作业,至今12年多一向专心在运维范畴。2010年6月参加支付宝,做过监控、SRE、资源办理、运维产品等方面的作业,阅历并参加了阿里运维从脚本到东西化再到自动智能化的演进进程,在阿里的10年根据部分改动有三个阶段:

  • 2010.6-2013.1,支付宝(体系运维部)
  • 2013.2-2015.12,技能保证(支付宝、阿里云、淘宝、B2B等运维部分一致后的新BU)
  • 2016.1-至今,天基(担任阿里全球数据中心和运维体系的“数字化、自动化、智能化”建造)

二 我的阅历

1 支付宝

关键词:开源监控、监控值勤、应急呼应

入职后参加的团队是运维部的监控组,那个时分团队刚刚开端组成,一切的东西从零开端,好在有B2B的兄弟团队能够学习阅历,运用nagios快速构建了支付宝榜首代监控体系。过了几个月由于双11的原因,咱们的上班地址由华星年代搬到了电信二纽带机房,由于支付宝其时的中心机房在那里,咱们需求7*24在现场以便快速处置紧急事件。其时小组应该是6个同学,一白班一晚班一正常班,咱们一边值勤一边保护监控体系。

跟着事务的快速开展服务器不断增加,很快一台nagios已无法满意需求,调研后引进centreon处理了nagios的水平扩展问题。监控项的增加和保护以修改nagios装备文件为主,没有办法敞开一切人员,因而监控项的保护作业也是由监控团队担任,PE和DBA只需整理好需求宣布邮件即可。但新建事务和扩容的频率越来越高,每天要花费许多时刻修改文件受理监控需求且常常犯错,和需求方洽谈后确认了针对不搭档务组件设定监控模板的计划,再想办法自动获取到服务器信息,那个时分还没有专门CMDB,后来总算完结了新机器上线自动匹配模板增加监控和告警。重要的告警都是经过短信宣布,告警短信需求和线上事务的短信区分隔防止相互影响,所以咱们又收购了几十个短信猫,专门学习了怎样经过服务器操控短信猫发送短信,再后来还演进出了运用短信猫接纳短信封闭告警的才干。

这样的状况继续一年左右逐步安稳下来,有了阅历沉积后咱们开端测验引进外包值勤,然后开端招聘和训练外包同学,拟定值勤和应急规范,建造相应的流程体系。外包值勤又继续了差不多一年时刻,由于监控能够看到一切事务数据,出于安全考虑又进行了去外包化。现在监控值勤的人物依然存在,作业地址在西溪的全球运转指挥中心,有专门的作业室和门禁约束,里边满是各种酷炫大屏,整个经济体的事务由他们7*24小时守护着。

打开全文

这两年便是不断的干作业,不断的遇到问题和处理问题,逢山开路遇水搭桥。

2 技能保证

关键词:监控一致、OD别离、资源办理

2013年我地点部分由支付宝调整至集团,到集团后参加的榜首个项目是一致集团监控体系。本来淘宝、支付宝、阿里云、B2B等事务都是自建监控团队和体系,安排层面一致后必定要将体系进行整合,整合后的新体系叫alimonitor。其时项目主导方是在运维开发团队,我参加进来时项目现已发动,只需我一个人是在监控团队,这也是我榜首次参加较大型的跨团队项目。由于刚调整到集团跟其它成员都不了解,所以跟咱们协作起来阻力很大,但我仍是积极参加到项目中,每天跑到开发团队参加晨会,直到有一次在晨会上被气哭,但奇特的是从那天后协作就变的十分顺利,再也感触不到壁垒的存在。项目继续了差不多一年时刻成功上线,经过这个项目使我和开发团队的同学们树立起了杰出的信赖联系,对后续的作业起到了很大协助。

开发团队担任着集团一切的运维东西,除alimonitor外还有staragent、armory、aone等,有段时刻这些东西常常发生毛病,乃至在双十一双十二的关键时刻掉链子,后来从事务团队转来一位资深同学担任团队,并主张了运维东西的OD别离项目,我做为首要担任人承当一切东西的PE责任,也是这时分我开端带团队,终究推动10多个产品上百个运用完结OD别离规范化改造,处理了东西的安稳性问题。由于每个东西担任了运维的其间一个环节,一切东西承载的事务加起来构成了集团的东西运维体系,这段阅历使我对运维事务有了更全面和深层次的了解。

东西PE的作业安稳后我又接到了一个作业,担任整个集团开发测验环境的资源办理,测验环境其时有好几万台服务器,但没有人知道哪些机器在用以及谁在用,而且每年还有数千台的物理机新增预算,本钱糟蹋十分严峻。我接手后首要建造了一个资源生命周期办理体系,使一切新资源的请求悉数经过体系,而且对已有资源主张盘点和招领,一切资源设置有效期,到期后能够续租或开释,体系还会定时巡检资源的运用状况,再协作宕机收回、搁置降配等运营战略,终究将测验资源盘点的清清楚楚,不只年度预算0新增,还将收回的几千台物理机在双十一时援助了出产环境。再后来继续测验经过混部提高测验资源运用率,调研多个计划后挑选了跟jstorm团队协作,但上线后常常出现jstorm使命把测验机资源占满,影响事务的日常测验引发投诉,受限于其时技能约束终究没能继续推动下去。

从参加一个跨团队项目到担任一个跨团队项目,再到做一个产品处理事务问题,这是我生长最快的两年。

3 天基

关键词:StarAgent、Argus、云监控

2016年头我转岗到了产品技能团队做StarAgent,SA是一个十分重要的根底产品,中心功用是指令通道,简直一切操作服务器的场景都强依靠它,但曩昔SA一向做的不太好,有很长一段时刻只需半个人在兼职支撑。我其时的主意也比较简略,便是想改动这样的局势。产品得不到注重的原因我觉得是指令功用过于单一,事务价值需求结合场景才干表现出来。所以做的榜首件事是Portal,推动SA从后台往前台走,榜首个功用是插件途径,供给将一个面向全网的发布才干,发布的方针能够是各种运维脚本或许agent,而且新扩容服务器也会自动装置。这样做的意图是期望将SA的最大优势全网掩盖才干敞开出来,使上层体系能够将更多履行逻辑下放到机器,而不是都转换为指令频频调用SA。

插件途径的首要用户集体是各个事务运维体系,可是一线开发和运维人员也常常需求登录服务器履行指令,为了能掩盖到这部分用户又推出了第二个功用WEB终端,人履行指令的场景又能够分为单机的交互操作和多机的批量操作,所以WEB终端又分为交互终端和批量终端两个子功用,WEB终端在保证安全的前提下处理了人操作服务器的功率问题。

插件途径一致全网类改动进口后,咱们也看到全网类Agent越来越多,每台服务器都有N个运维类Agent,进一步整理后发现监控类Agent是最多的,因而又主张监控Agent交融的项目,一致后的新Agent叫Argus,完结集团内的agent交融后继续走向公有云,现在公共云外部客户和阿里内部运用的监控Agent都是同一套代码。

在Argus完结集团内多套监控体系的Agent一致后,进一步分析会发现一切监控体系的收集完结都有相似性,Argus对接的上游是装备下流是通道,将装备、收集、通道三部分组合起来便是规范的数据收集,因而又与alimonitor团队协作,复用已有的装备和通道才干建造了一个掩盖全网的通用数据收集途径。跟着在监控范畴做的越来越深化,后来爽性专心于监控场景,将SA的作业悉数交代了出去,现在我的首要责任是为事务上云供给一站式监控计划,包含云资源监控、主机监控、事务监控、链路监控等。

静心做了好几年的产品,可是产品的深度都没有到达自己的预期。首要问题我觉得是过于重视产品技能自身,没有做到以事务价值驱动,导致未能取得继续的资源投入。

这三个阶段我会用三个词归纳:干作业-->做项目-->做产品。

干作业和做项意图重点是“正确的干事”,区别是项目多了一层协作。做产品的重点是“做正确的事”,不只需求重视当下成果,更重要的是怎样继续走到未来。

三 我的生长

“很傻很单纯,又猛又耐久。”我觉得这句话能够描述我的待人和干事风格,待人方面我会默许信任每一个人,干事方面由于比较笨就会比他人下更多功夫。这些年我一向坚持在一个范畴,比他人投入更多的时刻和精力,在阅历一次又一次失利后,不断的吸取阅历和经验使自己生长。期间也有过很屡次想打退堂鼓,最困难的时刻总能想到一句充溢力气的阿里土话安慰自己。

1 关于提高

互联网职业招人时常常会说一句话,岗位对标阿里的P几,这一点足以阐明在阿里等级的重要性,所以提高对每个人来讲都很重要。但当咱们把等级看的很重时也带来了问题,等级变成了每个人的榜首标签,协作时首要看你的等级而不是担任什么,干作业首要想到的是提高而非价值。本年公司在这方面现已有所调整包含躲藏职级等,期望能够让咱们回归到用作业价值和成就感来驱动自己。

10年前我入职支付宝时等级为P4,到现在共阅历8次辩论,均匀每2次辩论成功1次,可是P7到P8的提高用了5年辩论3次……每次提高失利后最难的是调整心态,感觉自己受到了不公平待遇,评委不客观、不了解我做的作业、只能看到我的短板等,这样的主意继续太久必定会影响到自己。

怎样调整?我的做法是首要摆正心态,信任公司信任评委,公司必定时望给每位同学匹配到最合适的评委,评委片面上也必定是客观的,不会故意针对某一人。然后从自己身上找原因,评委的反应是什么?为什么会让评委有这样的感触?没表达清楚仍是没考虑清楚?

失利原因能够简略归纳为两方面:

才干原因个人是能够改动的,但首要需求认知到自己的缺少,技能、事务、表达是哪方面的问题?仔细阅读和了解评委的反应,有时分反应或许不那么直接,比方未来展望不够意思是看不到你担任这个事务的未来,平常你有想过事务的未来吗?多和主管聊一聊,主管必定乐意协助你找到问题地点。把自己做了一年或许几年的作业,在20分钟内向几个生疏评委讲清楚,让他们彻底认可和了解我以为一点都不简略。

命运方面个人能做的便是来年再战,多试几回总之命运有不那么差的时分。每个人都有能够提高的当地,生长是无止境的,只需当真实找不到或不了解的时分,才干够把原因简略的归为命运,使自己心态能够调整过来,当心态平缓后真实的问题就会渐渐明晰,在这个期间需求主管给予更多的安慰和鼓舞。

2 关于转岗

这10年我只需一次正式转岗,但转岗的主意仍是有过好屡次,其间三次形象比较深化:

  • 榜首次是入职两年后,大约2012年中,榜首次觉得遇到了瓶颈,已有作业无法再让自己打破,所以就去找主管聊了聊,主管也觉得我需求做些更有应战的作业,了解主意后也自动协助我找团队,就在定下团队预备走流程时发生了安排调整,支付宝整个运维部被兼并至集团新树立的BU技能保证,作业也跟着发生了改动,从本来的支付宝监控转变为一致整个集团的监控,对我来讲又有了新的应战就拥抱改动抛弃了转岗。
  • 第2次是在2015年末,其时集团正在去PE化,技能保证大PE团队分拆到了各事务线,我担任的东西&测验PE团队也被拆分调整,但自己对调整后的作业并不太感兴趣。几年的PE做下来感觉运维最大应战仍是东西,考虑好久决议转岗至担任运维东西的产品技能部,挑选的产品是StarAgent,BU没有改动仍是在技能保证。
  • 第三次是在2019年末,SA做了近四年且接连两次提高失利之后,在我的主导下SA从一个朴实的指令通道晋级为主机办理途径,成为一切运维体系和人员办理服务器的榜首进口。感觉自己现已用尽了全力,却依然不知道怎样打破,堕入了苍茫。后来在主管协助下总算想理解,自己一向想着怎样把作业做好,但很少考虑做的是不是正确的作业,导致做的越来越多越来越累。和主管评论后对责任进行了调整,将精力聚集在一件事上面,其它作业进行了交代。

转岗的意图仍是为了处理问题,不管什么时分有转岗主意后,应该首要找主管聊一聊,必要的话也能够找主管的主管或HRG去聊。不要忧虑聊了会被打“标签”,坦白的去交流,主管必定也很想协助你,仅仅他或许还没意识到问题,问题聊清楚了才或许得到处理,没有交流直接找新团队其实仍是在逃避。

个人在当时团队生长受限、看不到当时事务的远景,假如交流后确实是这些方面的问题,那么转岗便是必要的。但除此外遇到如协作或交流等方面的问题,则需求慎重考虑。换团队的本钱十分高,需求时刻来和新主管及成员树立信赖感,当时得不到处理的问题换个当地后大约率还会碰到,新团队也会带来新的问题乃至问题更多。

3 干作业

我也常常的看书和听他人共享,要学习的办法论真实太多,但每次看完听完就没有然后了,终究依然是走了许多弯路撞了很屡次墙,才渐渐吸收构成了自己的办法,我的阅历总结下来就两句话。

一件作业

“让天下没有难做的生意”,是一件作业。

“做技能驱动的世界榜首的商业根底设施服务商”,也是一件作业。

“云上云下监控数据收集技能一致”,也是一件作业。

每个人每天都在干作业,为什么有的人做的好有的人做的欠好?我以为很重要的一点是做的作业之间有没有发生衔接。做的好的应该是:每天做的事是每个月的一件事的一部分,每个月做的事是该季度一件事的一部分,每个季度做的事是本年度一件事的一部分。作为的一切作业树立起了联系,组成了更大的一件事才有含义。

每天的一件事和每月的一件事的高度是不一样的,复杂度和处理需求的时刻也不一样。每个作业都该做,每个问题都该被处理,但咱们的时刻和精力是有限的,判别作业该不应做的根据便是这个作业能否成为你的月度、季度或年度的一件事的一部分,假如能够则拟定计划去做,不然阐明这个作业不应你来做。

99%和1%

一件作业能够分为99%和1%两部分,大部分时分咱们做到99%就觉得能够了,如某个成功率方针做到99.99%之后,或许发现终究0.01%要支付的价值比之前的悉数还要高,要不要做?我觉得应该尽或许推动,由于越深化越能表现出竞争力,至于终究做到5个9仍是6个9取决于和业界摆开的间隔。

99%是有必要做的,1%是需求打破的,深度和壁垒往往表现在终究的1%。每次完结一件作业较之前前进0.01%也是打破,100次0.01%便是1%。但假如每次做到99%就中止了,那么咱们和流水线上的工人没有本质区别,都是在重复干作业仅仅重复的东西不一样罢了。

完结一件一件有相关的作业将自己打造成一个服务,防止完结一件一件无关的作业让自己成为一个资源。一件作业表现的是事务广度,1%表现的是技能深度,规划时需求事务广度,落地时需求技能深度,二者结合起来才干保证所干作业的正确性和竞争力。

4 带团队

带团队的意图仍是干作业,仅仅由一个人变成了多个人,多个人做一件不断迫临100%的事。关于团队担任人最重要的作业我总结为3句话:

界说清楚团队的一件事

一件事便是团队的方针,团队方针必定是久远的,最好能先想清楚几年后的姿态,然后推导出一年的方针,再拆解出完结方针触及的技能范畴,终究确认每个范畴的季度或月度方针及担任人。

我是从2014年开端带团队,尽管每年也在做计划,但早些年首要以罗列作业为主,每次报告都被老板批,直到近两年才想理解这一点。现在来看前些年带团队自己更像个PM,不断地为产品做新功用,但上线后又缺少长时间演进计划,导致支撑作业越来越多,团队同学越来越辛苦,产品没有深度也缺少竞争力。在老板和其它团队眼中只把咱们当资源,只需支撑好事务的需求就能够,当事务方没有投诉老板也不乐意再投入,团队同学看不到期望就会想转岗,转走后又没有新的人员弥补,每个人的作业都越来越多,为了不使咱们那么辛苦,自己也去担任答疑做各种日常事务,终究使团队堕入一种恶性循环的状况。

这段阅历使我真实了解了一句话:“用战术上的勤勉掩盖战略上的懒散”。

让更多的人参加进来做这一件事

想把作业做的更好必定需求更多优异同学参加,一同每个团队都会存在人员活动状况,所以第二重要的事便是保证团队不断有新鲜血液参加。

刚开端带团队一般都是经过安排调整,开始几年我对招人也是彻底没主意,缺人了就找老板要,后来才渐渐理解我是在完结自己的方针,不是在帮老板带团队,才意识到招聘对团队的重要性。

招聘战略我会倾向于多校招,只需少量专业类人才需求社招。校招最难的是榜首年,由于第二年这些同学能够引荐学弟学妹,后续每年根本就不会断档了。榜首年怎样招?假如真实找不到更好的途径,内部的公海池是个不错的挑选,总之能够筛选出一些优异的同学。假如每年都有校招新同学参加,新同学又会变成老同学,天然的就树立起了人才队伍。

跟着团队成员越来越多,办理方面的问题就会露出出来,办理最重要的我觉得仍是让每个同学清楚自己月度、季度和年度的一件事别离是什么,然后定时与同学交流交流,了解完结方针进程中遇到的问题并给予协助和主张,使同学知道自己的发力方向。

与更多团队协作构成更大的一件事

BU的一件事是靠BU内的多个部分协作完结,部分的一件事又需求部分内多个小组协作完结,重点项目根本都是多个团队协同完结,一个团队的力气一向是有限的。

反观自己这些年大部分时分在单打独斗,担任一块独立的事务,优点是自主空间比较大、不必依靠他人看人脸色,但这样的事务往往也不在骨干道上,做的好或欠好影响都有限。这一点我觉得自己现在做的还不够好,仍是会有小农意识,需求继续加强与兄弟团队的协作,一同做一件更有价值的事。

四 总结

最好的10年在阿里度过我觉得自己很走运,公司的搭档们都很有才智,继续与优异的搭档搭档,我的认知和行为也受到影响,逐步得到改动和提高。这十年我得到了许多搭档的协助,谢谢协助过我的每一位同学,还有历任主管和团队的小伙伴们,由于你们对我的容纳和支撑使我走到了今日,对下一个十年我充溢了决心和等待!

作者:宋健

本文为阿里云原创内容,未经答应不得转载回来,检查更多

责任修改:

地址:电话:传真:

Copyright © 2020 918博天堂ej.com-918博天堂国际厅 All Rights Reserved技术支持: