广告

原创 出差问题排查总结(一)

2019-6-16 15:13 1634 16 3 分类: 工程师职场 文集: 一个硬件工程师的日常
交给甲方的板卡,对方在做环筛试验的时候,机器出现了重启黑屏的问题,我师父走不开,就只能临时派我去顶上了。说实话,我对自己独立解决问题的能力还是很怀疑的,不过有人在背后支持,我也不怎么担心。
问题描述:本次总共交付了40套板卡,其中甲方在做环筛试验的过程中,共有15套板卡出现重启然后黑屏的情况,而且,出现重启现象的时候,都是在70度高温保持阶段。
解决过程:医生看病讲究望闻问切,然后对症下药,维修板卡排查问题当然也不例外,首先要让问题板卡复现现象,然后根据现象找原因。既然问题在70度高温下容易复现,我就把板卡放进温箱,然后反复断电重启进行测试,果然,当温度在70度高温保持一会之后,板卡就开始不断自动重启了,通过串口可以看到BIOS的打印信息,我看不懂,拍照给师傅,说是电源掉电导致的重启。但是具体是什么原因导致了掉电,还不清楚,我怀疑是不是电源芯片或者某个阻容在高温下失效,导致设备重启,师傅说可能性不大。
我把之前甲方测试的问题板卡都过了一遍,总共有四块板卡复现了重启黑屏的现象,其他板卡测试均正常,除了重启黑屏的板卡还有其他问题的板卡,不过那些问题应该好排查,因为暂时没有找到合适的黑屏问题的解决办法,我就继续复测有其他问题的板卡。结果问题来了,原先测试正常的板卡,现在在复测时,竟然也出现了重启黑屏的问题,这问题就严重了,这证明之前通过测试的板卡,也可能存在隐患,于是又拿了几块之前通过测试的板卡进行测试,果然,有的板卡又出现重启黑屏的问题了,这下我就头大了,老问题没搞定,又出现了新问题,我看着我记录的测试数据在发愁,看来只能请师傅来解决了。
我看测试数据的时候,突然发现一个问题,有问题的板卡,都集中在2号和4号测试工装上,而1号和3号工装从来没有测出来过问题板卡,这是不是跟测试工装有关系?发现了问题马上验证,我把问题板卡放到1号和3号工装复测,把没问题的板卡放到2号和4号复测,结果原来有问题的板卡放到1号和3号上测试时,就不会出现问题了,而2号和4号工装测试的的板卡都是有问题的,这就确认了我之前的猜测,测试工装的问题。
测试工装都是同一批次出的货,为什么就这两个出了问题?我把这个情况跟师傅汇报了,一开始师傅怀疑是接地问题,因为测试工装的接地没有处理好,他让我想办法把测试工装和温箱的壳体绝缘在测试下,我测试了下,问题依旧。
这时师傅问了我一个问题,放到温箱的测试工装,2号和4号工装的供电是不是通过电源级联线接过去的?我说是,因为电源的接口用的ATX标准接口,尺寸太大,放不下这么多电源线,于是就通过一段级连线从一个测试工装跳接到另一个测试工装进行供电。出现问题的工装正好都是二次级联后的工装。现在原因就显而易见了,因为级联线过长,压降过大,又因为高温后,线上的电阻会增大,进一步导致电压下降,所以问题只出现在高温的情况下。
分析是一回事,接下来就是要验证这个推理了,我先测量了在高温下重启的板卡的供电电压,大概在4.12V,因为测试工装预留了两个电源插槽,我就由原来的一根电源线,变成用两根电源线连接,高温时就不会再发生重启了,我继续测量了电压,大概在4.35V,但是甲方说线连接多了,不方便测试,看能不能想其他办法,不增加电源线。
那么根据线的阻抗特性,其实就是想办法降低线上的电压损耗,于是我把线更换为更粗直径的线缆,把线长度缩短,因为原来的线是过长(1.6m)的,实际测试用不了那么长,我把他缩短为40cm,再把温箱升温,进行测试,板卡未重启,测量了下电压,为3.53V。
我又查了板卡上的电源芯片输入电压范围,最小输入电压为4V,而当板卡上电的瞬间,电压是有所下降的,而4.1V左右的电压,正好处于临界值状态,所以导致板卡反复上电掉电,也就是看到的不断重启的现象。
总结一下:
1. 根据现象找原因,能够导致板卡重启的原因有很多,但是如果能够通过一定的方式先确定重启的原因,那么就缩小了排查范围。
2. 试验结果记录要细致,观察角度要多维,其实即便是定位出了电源的问题,也还是有很多可能,导致供电不稳,但是从试验结果去看,就比较容易发现问题的共性,进而帮助定位问题。
3. 遇到问题多沟通,说不定别人的一句话就能给你点破其中的谜团,从个人来讲,能在没有外援的情况下,独立解决问题非常重要,每个人遇到的问题千差万别,有些问题是没法向别人请教的,只能自己想办法解决。但是从做事情的角度看,是要在最短时间内,利用群体的智力,把问题搞定。

作者: 硬件工程师那些事, 来源:面包板社区

链接: https://www.mianbaoban.cn/blog/uid-me-3863800.html

版权声明:本文为博主原创,未经本人允许,禁止转载!

广告

文章评论 9条评论)

登录后参与讨论

leawise_816723039 2019-6-24 09:52

看得到楼主的成长,加油,很厉害啦

mhshangrila_811940796 2019-6-23 05:58

suggest also measuring the critical voltage when you repeat the phenomenon in 70degC oven will hep you find problem more fast

江畔美少年 2019-6-19 22:23

条理清晰

chen9876543210 2019-6-19 13:56

这个设计有问题:长线供电使用低电压大电流是不合理的。

chen9876543210 2019-6-19 13:56

这个设计有问题:长线供电使用低电压大电流是不合理的。

book_shine 2019-6-18 08:35

写的不错,分析问题的思路很重要

测量无处不在 2019-6-17 10:02

不算是经验吧:能自己搞定的,尽量不要麻烦别人,最好这种实验,自己来做,厂家来检查,看即可。

测量无处不在 2019-6-17 09:28

还好就是测试工装问题,问题真正定位,解决需要 很多工作的。

curton 2019-6-17 06:37

解决问题的思路很好 学习
相关推荐阅读
硬件工程师那些事 2019-06-07 15:35
当高考遇上端午节
不知从什么时候起,端午节的含义不再是粽子、龙舟和屈原,而变成了可以在家里一天葛优躺或者景区看人海。然而,今天高考学子来讲,又是一个特别的日子,甚至传统的端午节都显得没什么存在感了。相信今天上午过后,关...
硬件工程师那些事 2019-04-19 22:50
再谈996
之前看过一句话这样描述国内外的生活状态:国外是好山好水好无聊,国内是好挤好乱好热闹。大概是厌倦了紧张的生活,或者说加班已经成了国内多数企业的潜规则,所以996的话题一再引起大家的热议。争论并不能解决问...
硬件工程师那些事 2019-04-14 18:12
谈谈996
因为手上的项目时间紧,最近一个月基本回到家就是凌晨了,最后项目交接的一天差不多到了凌晨5点才回去,这一个月的时间里,被各种问题折磨的死去活来,这段时间里,一直有关于996工作制的讨论,我也表达下我的看...
硬件工程师那些事 2019-03-24 19:50
【我与电子】我是如何走上硬件设计这条路的?
以硬件工程师的身份已经工作两年多,回看自己的经历,大学以前,可以用四个字来总结:按部就班。大学以后,也可以用四个字来总结:重在选择。要说起与电子结缘,可以先说下我与电结缘,一次,是家里的充电手电筒坏了...
硬件工程师那些事 2018-08-05 15:46
一句话能搞定的事我干了两天
前段时间板卡电装生产,生产过程中,甲方说连接器的型号要更换,这样的话我就需要通知焊板厂一声,连接器就不需要焊接了,等板卡寄回后我再买甲方指定的型号手工焊接上就可以了。本来这个事就是一句话能搞定的事,我...
我要评论
9
16
广告
关闭 热点推荐上一条 /2 下一条