65

程序员新人怎样在复杂代码中找 bug?

 5 years ago
source link: http://www.10tiao.com/html/740/201807/2652110801/2.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

有位笔者说,他曾经做了两年大型软件的维护工作,那个项目有 10 多年了,大约 3000 万行以上的代码,参与过开发的有数千人,代码 checkout 出来有大约 5 个 GB,而且 bug 特别多,open 的有上千,即使最高优先级的 showstopper 也有上百。后来分享了他的 debug 的经验 。以下


01 

优先解决那些可重现的,可重现的 bug 特别好找,反复调试测试就好了,先把好解决的干掉,这样最节约时间。


02

对于某些 bug 没有头绪或者现象古怪不知道从哪里下手,找有经验的同事问一下思路,因为在那种开发多年的大型系统里,经常会反复出现同样原因的 bug,原因都类似,改了一处,过一阵子另外一处又冒出来,而且无法根治。比如:我那个系统里有个特别危险的 API,接口参数比较难用,一旦有人用错了某些情况下就会出诡异的现象,解决很简单,找到调用这个 API 的地方把调用方式写对就好了。为什么不根治呢?因为要保持兼容性不能改接口了。Windows 系统里就好多这种烂 API。问下老员工吧,说不定他们都遇到过好多次了。


03

放大现象,有些 bug 现象不太明显,那么就想办法增大它的破坏性,把现象放大。这只是个思路,具体怎么放大只能根据具体的代码来定。比如:美剧《豪斯医生》里有一集,怀疑病人心肺有问题,就让病人去跑步机上跑步,加重心肺负担,从而放大症状。


04

二分法定位,把程序逻辑一点点注释掉,看看还会不会出问题,类似二分查找的方法,逐步缩小问题范围。


05

模拟现场,有时候我会问自己,如果我要实现 bug 描述的现象我要怎么写代码才行?比如:我遇到一个死锁问题,但是检查代码发现所有的锁都是配对的,没有忘记解锁的地方,而且锁很简单就是一个普通的临界段,保护几行赋值语句而已。这样的代码怎么写才能让他死锁呢?我想如果让我故意制造这样一个现象,只有在上锁的时候强制杀掉线程了。既然这样就可以去看看有谁强杀线程了没有。


06

制作工具,针对某些 bug 编写一些调试辅助工具。比如,我那个系统没有完善的崩溃报告,虽然也有 dump,但是分析出来的 callstack 经常不准。于是我为解决崩溃问题编写了个工具,会自动扫描代码,在每个函数入口和出口插入 log,以此来定位崩溃点。


07

掩盖问题,虽然这样做有点不厚道,但是有时不得不这么做。有些 bug 找不到真正的 root cause,但是又要在规定时间内解决,那么我们就可以治疗症状而不去找病因。比如用 try catch 掩盖一些奇怪的崩溃。不到万不得已不要这么干,未来可能会付出更大代价。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK