0%

故障,细节的爱

今天周四,打算晚上回富卓苑住,所以昨晚回家后把衣服放进洗衣机去洗了,10点20分左右洗好了。我刚要晾衣服就听到钉钉收到了消息,而且是特别提醒,我只有两个特别提醒,一个是我的领导,另一个人我们组技术很牛的那个人。这么晚的消息八成是服务有报警,我赶紧放下晾了一半的衣服去看手机,果然有个服务在报警,也有几个上游闲了过来。我们那个服务给整站提供推荐功能,当时的受影响面很大,SRE立刻开启了钉钉电话功能,语音定位故障原因。因为我们所有服务都会过我的手审批,我知道那个服务在晚上8点多因为要赶一个需求上了一次线,改动还很大,没有多想立即找出那一次的上线单点了回滚,回滚完成后故障恢复了。前后持续了5分钟,因为上游和我们有充足的降级逻辑,加上相应还算迅速影响面不是很大,没有到定级的程度。

说来也巧,我的手机并没有开声音,而iPad开了声音,我在iPad上登录了钉钉,昨天的声音是iPad发出的,多亏这声音让我知道出现了故障报警并及时做出了回滚操作。

这个故障的根因很隐秘,是我们底层的一个C++服务日志量太大,超出一个阈值后性能会急剧降低,最后上游会把对应节点熔断点,当所有节点被熔断时,上游没有可以使用的实例,而这块代码逻辑写的也有点问题,估计写这段代码的人也没想到会出现实例为空的情况,理所当然认为一定会拿到实例,后边再使用时就空指针了,整个程序panic然后被迅速拉起。由于我们的熔断是基于内存的,之前的熔断信息丢失,就继续对下游发起请求,继续把下游打的高负载,继续熔断,panic,重启…而日志量大的原因也是我们之前没有想到的,我们加了两个新的检索字段。昨晚来不及把底层服务上线,上游在请求中带了新字段底层服务会打个warning日志,昨天因为新字段的warning日志太多把自己打挂了。好歹这次影响范围不大,还帮我们发现了一个隐患。

今天在听蒋勋讲红楼梦时有感而发,宝玉对黛玉的关心都是细节中。

有一次,秋雨时节,黛玉都准备睡觉了,这时候宝玉冒着雨来看她。问:“今儿好些?吃了药没有?今儿一日吃多少饭?“一面说,一面摘了笠,脱了蓑衣。一手举起灯来,一手遮着灯儿,向黛玉脸上照了一照,觑着眼细瞧了一瞧,笑道:“今儿气色好了些。”。

还有一次众姐妹在潇湘馆聚会,结束之后,贾宝玉故意让别人先走,自己留了下来。问林黛玉:“如今的夜越发长了,你一夜咳嗽几遍?醒几次?”

林黛玉的身体不好,总是咳嗽,尤其是春秋两季。她还有一个毛病,那就是失眠很严重。经常睡不着,睡着了也睡不踏实,总是醒。所以贾宝玉关心她的身体,就问她有没有吃药?每天吃多少饭?一夜咳嗽几遍,醒几次?

扪心自问一下,这个世界上会关心我们白天吃多少饭,夜里睡得好不好,有没有咳嗽,有没有失眠的人?如果除了父母在还有其他这样的人,那就嫁(娶)了吧。

关心细节的才是真正的爱,如果一个人不关心你生活中的细节,那她大概率对你没什么意思。我也一直有失眠的困扰,之前喜欢过一个女生,我会询问她吃的好不好,睡得好不好等等,关心很多细节,但她从来没有关心过我。我当时认为是性格原因,对方不喜欢关注这种小事,现在回想起来可能还是我不配被关心吧。