谷歌失败案例赏析:那些年在微服务上踩的坑

大家好,今天和在座的各位分享一些失败的经验教训。聊一聊这一类的话题要比那些成功案例更有意思。行业在进步,我们可以从过去的错误中吸取经验,并主动在未来的计划中避免,这一点很令人鼓舞。

背景信息

在开始之前,先介绍一下我在谷歌的经历。2003 年大学毕业后我直接加入了谷歌,在这之前我是一个音乐营地的营地顾问,营地顾问之前我在一家冰激凌店工作。我还记得在谷歌的第一天,第一个项目的技术负责人是 Andrew Fights,他现在是类似谷歌杰出的工程师的角色,我记得当时告诉他,我得去找人聊一聊因为实在不知道我在做什么,今天想起来还是很有趣的事情。在谷歌里我像海绵一样快速的吸收技术和其他的信息。今天我在这里谈论的一些事情其实要早于我在谷歌的时间,大约 2000 年和 2001 年左右。让我们从微服务,即谷歌的微服务版本开始讲起。

当时,谷歌的业务仍然押注在 GSA(谷歌搜索服务器)产品,其实最终 GSA 也并没有像想象中的那么顺利。当然了,其它事情也是这样,毕竟不能将一个虚拟的垄断产品与像广告这样数十亿美元的巨额业务相对比。不过,谷歌最开始是以搜索起家的,并专注在解决这一类的技术问题。

接下来要讨论的很多内容的原始驱动力来自于这张幻灯片。在经济危机之前,很多企业都将他们的基础设施构建在 Sun Microsystems 的硬件之上,并将 SolARis 作为操作系统。如果不考虑成本的话,这一套解决方案比现有的其它东西都要好,很多人买了很多这种 Sun box 也是基于这样的原因。但 Sun box 真的很贵,尤其是一个拥有庞大数据中心的企业,整个数据中心需要填满这种机箱以支撑业务的发展,成本就会影响到其业务渠道和活下去的底线。

谷歌当时就处在这样一个状况。当时的人会很自然的说:“Linux 虽然不够完美,不过功能也够用,它的硬件又很便宜,所以平衡下来我们可以选择 Linux 作为替代”。一定程度上,我也认同这些过往的事情是真实的,当时的人们成本意识很强,所以他们会不遗余力的去解决一系列 RAM、芯片等 Linux 出现的一切故障,以降低成本。而这就带来了一个结果 – 即 Linux 真的不可靠,特别是使用垃圾站硬件的时候,且问题很严重。我认为,谷歌从 Compaq DEC 并购中受益匪浅,这也是导致 90 年代一些真正令人难以置信的研究实验室死亡的原因。许多人比如 Jeff Dean 和 Sanjay Kumar 都来自那个世界,他们现在几乎都是质量工程师。当时的他们对如何在那些难以令人置信的不可靠硬件之上构建软件这个问题产生了强大的兴趣,后面发生的事情也是很多接下来要分享的内容。

然而在 2001 年并没有什么可以替代的方案,所以必须自己做。另一个问题是非常古怪的扩展要求。他们试图做一些当时非常大胆的事情,即索引每个网页的每个字。一些人将每个网页的每个单词收录并编入索引,其他人只是给它建立索引,然后丢弃那些限制竞争对手能力的原始数据。这是一项艰巨的任务,需要用到当时根本不存在的计算机软件。

因此,由于不可靠的 Linux 盒子,该软件必须横向扩展,并且必须在堆栈的任何组件中容纳频繁的例行故障。之前有一篇很棒的文章提出了“机器是牛而不是宠物”。我认为在这件事情上谷歌做对了。这些机器没有来自“星际迷航”的酷炫名字,它们只是 AB 1,2,5,7 类似的东西,那也是机器名。系统对它没有太多的依赖,它死了或者继续运行都不会影响其它部分。这个问题让人们开始思考如何建立更具弹性的系统。

以上是我如何描述事物的方式。在谷歌很多人都有博士学位。记得面试时,我还没有博士学位。而且,我只跟一个没有博士学位的人谈过,面试结束时,他说,“别担心,现在开始雇用没有博士学位的人了”,在那里有很多人比我更聪明,并且真的想将他们的知识应用到 CS 系统研究中,将这种类型的经验和知识应用于现实问题是一件很有趣的事情。

我认为构建微服务的唯一充分理由是组织结构,并且这也应该是大多数组织构建微服务的唯一原因。然而,这并不是谷歌构建微服务的原因。谷歌构建微服务是为了计算机科学,在这里,我不会去争辩从这个角度构建微服务其实也没有什么好处,当然肯定是有很多痛点驱动。

开始构建微服务之后,如果简单的认为它一定会很顺利,也没有事先调研所有可能的失败情况,那么一定不会顺利,而且实际上也可能会带来很多令人遗憾的结果。我和很多企业讨论过这个问题,这些企业也因为迁移的过程实在太痛苦了而放弃了向微服务的迁移。所以,一定要事先了解构建微服务的动因。就像谷歌里有很多人效仿大型的基础设施项目一样,有时我认为他们在构建一些并不必须的架构。理智的投资方式应该是遵循以下原则:“如果你不需要就不要去做,否则只会会让事情变得更困难”。

这样做的主要原因是最大限度地减少团队之间的人员沟通成本,一个超过 10 个或 12 个人的团队无法在一个工程项目上成功协作,它与人员沟通结构和工作授权有很大关系。因此,将项目团队映射到微服务可以减少人与人之间的沟通开销,从而提高开发速度。这是一个选择微服务的合理原因,但这也并不是我们在谷歌构建微服务的原因。

我认为可观察性包括两件事,一个是检测关键信号,即 SLI 的部分,它需要非常精确;另一个则是改进搜索空间。每增加一个微服务,可能发生的故障模式的数量随着服务数量的增长而几何式增长。我并不认为机器学习或 AI 可以神奇地解决这个问题。我们需要尽快发现可以帮助减少人脑假设的方法,只有在使用巨型仪表板之外的技术时才能实现引导过程。巨型仪表板在单体环境中运行良好,但我看到人们采用这种理念并围绕它构建微服务的可观察性。我认为有必要使用仪表板,但肯定不够。我采访过的 SRE 小组当时正在构建巨大的仪表板,我们的效率明显低于让它设计上更紧凑的团队,之后再使用其他工具来改进搜索空间。所以,不要混淆搜索空间的可视化和对它的精炼优化。整个搜索空间太大了且无法可视化,而且人类迄今也无法处理那么多信息。

在 LightStep,我们看到很多客户一直在努力解决这类问题。我不知道在座的各位是否经历过同样的情况,但我认为这是一种失败模式,谷歌肯定也明白这一点。曾经有一个大型的 Google 服务,大概名字是家庭类型之类的服务,它不得不使用代码生成器生成告警配置,最终导致了 35,000 行还要长的代码。我不记得其中的所有原因。但随后他们不得不开始手动维护这 35,000 行代码,然而这些配置是在 Google 内部完全模糊的 DSL 中编写的,手动维护所带来的痛苦程度无法比拟,这就是因为他们混淆了对 SLI 的告警信息和可能是根本原因的告警信息。监控不应该对根本原因发出告警,它应该是细化过程的一部分;而应该对 SLI 发出告警,对于任何特定系统,SLI 的信息不会有那么多而导致无法处理。

文章内容仅供参考,不构成投资建议,投资者据此操作风险自负。转载请注明出处:天府财经网

(2)
上一篇 2019-07-02 15:22
下一篇 2019-07-02 16:11

相关推荐

  • 洗牌加剧、投诉不断,融360如何再造暴富“神话”?

    高额度、长分期、日息低,这是曾因 714高炮遭到315晚会点名批评的融360年化利息仍然偏高。 本人从融360上借款系统推送稳融花,借款3000元分12期偿还,总计还款4077.93元,对应年化利率约为35.93%。 我从融360上借款5000元需偿还6792.36元,借款2000元需偿还4122.96元,对应年化利率分别约为35.85%和106.15%。 但按照最高法院规定:金融借款合同年利率未超24%合法,超24%未超36%属自然债务区,超36%无效。换言之,融360合作的小贷平台或卡着36%的行业红线放款,或严重超过36%进行放款。 除高年化利息外,综合黑猫投诉上融360超万条投诉来看,融360同时存在几大问题: 一是过度收集用户信息所带来的暴力催收。这背后在于很多国人都有爱面子的习惯,催收通过威胁公开借款人的欠款信息,甚至骚扰借款人的亲友,利用借款人对社交网络的依赖,达到心理施压的效果,这样才能让负债者提前偿还某个平台的欠款。催收人员在拿到提成的同时,助贷平台才能降低逾期率,进而吸引更多“甲方爸爸”。 图源:黑猫投诉 二是高额的担保费管理费和会员费。结合用户投诉来看,借款9000元产生1800多元的担保费,借款15886.03元产生3133.49元的担保费,这意味着融360平台上的担保费比例在20%以上。 另有用户投诉称,在用户未开通会员的情况下,实际还款过程却产生每月高达1080元的会员费。 图源:黑猫投诉 图源:黑猫投诉 三是以各种名目变相收费,有用户投诉称,在融360借款1.5万元每月还款1520元,但在自己并不知情的情况下,前三期却累计产生3435元的商品分期费用。 图源:黑猫投诉 各种乱象的背后,正是网贷行业持续变天,融360正面临着前所未有的焦虑。 01.放款难和收款难成常态 助贷平台到底有多赚钱?以奇富科技代表产品为360借条为例,日前美国知名做空机构…

    2024-10-15 TMT
    3.1K
  • 运满满携手高铁以“中国速度”引领数字货运新时代

    10月15日,随着焕然一新的D5566车次从上海虹桥站驶出,首趟“运满满”高铁冠名列车成功发车,标志着数字货运平台运满满品牌焕新后迈出又一重要步伐,象征着高铁与货运速度的完美结合,进一步诠释了“中国速度”的无限可能。 首发仪式上,运满满品牌负责人与华铁传媒集团有限公司相关领导齐聚一堂,共同见证这一历史性时刻。双方一致表示,运满满与高铁的共同特质在于覆盖广、速度快。两者在各自领域的卓越表现,共同展现了“中国速度”的非凡实力。此次合作将进一步推动高铁与数字货运的深度融合,为推动中国物流运输的高速发展贡献力量。 近年来,高铁作为中国基础设施建设的“名片”,不断刷新世界速度。我国铁路已经覆盖全国99%的20万人口以上城市,高铁覆盖了全国96%的50万人口以上城市,拥有超4.6万公里的营业里程。高铁以其广泛覆盖、极速运输和高效安全的优势,成为推动经济增长、提升物流效率的重要支撑。 数字货运平台运满满作为数字货运领域的领军者,业已构建覆盖全国300多个地市、超过10万条市到市线路的运输网络,2023年全年履约订单达1.6亿。今年9月,来自外部的咨询机构对中国大陆2023年货运平台调度的货运量(吨)进行计算调研,给予运满满“按货运平台货运量计算,全国货运总量第一”的第三方市场地位声明。 运满满品牌负责人刘峰瑞表示,在日前的全面品牌升级中,运满满找到了行业最有代表性的符号、中国公路的基建符号——红白格作为超级符号,不仅能够实现品牌传播、记忆的目的,还让货车和司机有了更强的发现感,提升货运行业安全。希望通过这次高铁冠名的合作,让千行百业的广大旅客能够在路途中知道运满满,把运满满带回自己所在的行业、企业,赋能企业更具物流竞争力。 华铁传媒集团有限公司高级副总裁杜劲松对运满满高铁冠名列车的成功开行表示祝贺。他表示,运满满与中国高铁,一个是智慧物流领域的领先平台,一个是交通运输领域的“国之重器”,…

    2024-10-15 TMT
    963
  • 美团Q2扭亏背后:美团借钱黑猫投诉近30天近3000条投诉

    2023年,美团能够连续两季度拿出亮眼的成绩单,离不开其核心本地商业业务的持续增长,但不能忽视的是,美团的关键“利润奶牛”业务“美团借钱”近30天在黑猫投诉上有近3000条投诉,这些用户的投诉内容大多与“暴力催收”有关。在社交网络上,更是有多位网友指出美团借钱诱导用户开通贷款,不经用户同意查询征信。 核心本地商业业务持续增长,金融业务或成盈利关键 继一季度后,美团于二季度营业收入和净利润再次实现超预期增长。公告显示,美团二季度营业收入为680亿元,同比增加33.4%,其中核心本地商业业务收入为512亿元,新业务收入为168亿元;二季度净利润为47亿元,实现扭亏为盈,其中核心本地商业业务实现的经营利润为111亿元,新业务造成的亏损为52亿元。 在“互联网公司终极变现靠金融贷款”的浪潮下,美团也不甘落后推出美团借钱等金融服务。但从数年前起,美团就已经不再在财报中披露其金融贷款业务的数据,而是将该业务与其开拓的零售业务、出行业务等归纳在新业务板块。虽然无法从财报中看到美团金融业务的发展情况,但是从投诉网站和社交网络的用户反馈来看,仅“美团借钱”的30天在黑猫投诉上就有近3000条投诉,以此推算美团的金融贷款业务发展良好且规模巨大。或已经实现美团创始人王兴当初“美团在未来将会成为超级平台,美团金融业务将会拥有千亿资产规模”的豪言。 近日,安全界大V“安全_云舒”发微博吐槽携程诱导用户开通金融贷款服务。“安全_云舒”的微博表示:自己在买机票时,在没注意的情况下被携程绑定了贷款服务,导致他出现1000元的逾期,而且在逾期前没有官方电话通知,在后续的还款过程中,携程又引导他只还10%的最低还款额度。事实上,很多在金融领域有布局的互联网企业都有这种诱导用户开通贷款的情况,其中就包括美团。近两年来,陆续有美团用户在社交媒体反映自己在不知情的情况下,被开通了“美团生活费”,而且还在征信报告中出…

    2024-08-25 TMT
    7.5K
  • 运满满司机胥鹏飞:“我想打造一个移动的货车理发厅”

    在成为货车司机之前,胥鹏飞是一名理发师,经营一家理发店超过6年的时间。 从美发店到货车驾驶室 胥鹏飞是四川成都人,今年28岁。他是家中的第二位货车司机。 “我父亲以前就是开货车的,从小受他的影响比较多。”但中学毕业后,他的第一份工作并没有选择开车,而是拿起月牙剪,张罗了一家理发店,一开就是6年。“生意还行,但是自己做的并不是特别开心。”胥鹏飞说到。 理发店内日复一日的枯燥生活让他感到厌倦。“我不喜欢一直守在店里,不管风吹雨打都要守在店里,没得自由。我更向往去外面到处跑。”就这样,在2019年,胥鹏飞步上了父亲的后尘,成为了一名货车司机。 主业与副业的平衡 作为货车司机,胥鹏飞的运输路线集中在甘孜、阿坝、凉山三大自治州,以及成都周边的短途运输。”平时自己积攒了一部分老客户,他们货不多的时候,就在货车帮上面看看单子。“现在,跑货车这份主业不仅为他提供了稳定的收入来源,也让他在风雨兼程中学会了坚韧与担当。 近6年的货车旅途中,胥鹏飞不仅领略了川西广袤壮阔的美景,也体验险象环生的险峻路况。“有一次去甘孜州丹巴县的时候,道路结冰,车辆打滑,零下十度给车装防滑链,然后堵车堵了一晚上。”谈及这段经历,胥鹏飞至今历历在目。“我觉得对于我们年轻司机来说最大的挑战就是能吃苦吧,因为我们年轻司机一边要享受生活,一边又要担起养活一家人的重担。” 胥鹏飞前几年成家了,现在孩子三岁,马上要读幼儿园。“车子还有八九个月的贷款。肯定要努力跑,毕竟现在责任更重了。” 今年,由于经济环境的波动,货运行情也出现了一定的起伏。面对经济环境的波动,胥鹏飞没有踌躇退缩,而是积极寻找新的出路,重新拾起了理发旧业。利用运货之余的空闲时间,他在街头巷尾摆起了理发摊,为那些工地上的工人提供便捷的服务。 他说,“摆摊理发每天能赚一百块钱左右,但是理发现在对于我来说,更多的是爱好了吧,货车对于我来说才是生活。我的重心还是放在主业…

    2024-07-11
    1.5K
  • 货运数据看“两路”发展:进藏货量连年增长与内陆省份联系更紧密

    川藏公路和青藏公路的建成通车,打开了西藏发展的大门。70年来,“两路”促进了西藏的货运和商贸往来,带动了经济发展。公路状况的改善串联起了物流与商流,加强了西藏与各省的商贸联系。货车司机和自驾游客的反馈也印证了“两路”的重要性和改善情况。未来,“两路”将继续发挥贯通中西部物流的枢纽作用,推动西藏现代化交通的高质量发展。

    2024-06-24
    1.5K
已有 0 条评论