来自 技术 2019-04-25 00:00 的文章

Linux运维常见的硬件及系统问题

开发四年只会写业务代码,分布式高并发都不会还想去BAT?>>>   

一、服务器常见故障和现象

1、有关服务器无法启动的主要原因 :

①市电或电源线故障(断电或接触不良)

②电源或电源模组故障

③内存故障(一般伴有报警声)

④CPU故障(一般也会有报警声)

⑤主板故障

⑥其它插卡造成中断冲突

二、服务器无法启动

1、检查电源线和各种I/O接线是否连接正常。

2、检查连接电源线后主板是否加电。

3、将服务器设为最小配置(只接单颗cpu,最少的内存,只连接显示器和键盘)直接短接主板开关跳线,看看是否能够启动。

4、检查电源,将所有的电源接口拔下,将电源的主板供电口的绿线和黑线短接,看看电源是否启动。

5、如果判断电源正常,则需要用替换法来排除故障,替换法是在最小化配置下先由最容易替换的配件开始替换(内存、cpu、主板)

三、系统频繁重启 ?

1、造成系统频繁重启的原因:

①电源故障(替换法判断解决)

②内存故障(可从BIOS错误报告中查出)

③网络端口数据流量过大(工作压力过大)

④软件故障(更新或重装操作系统解决)

四、服务器死机故障判断处理:

服务器死机故障比较难以判断,一般分为软件和硬件两个方面。

1、第一方面-软件故障

①首先检查操作系统的系统日志,可以通过系统日志来判断部分造成死机的原因。

②电脑病毒的原因。

③系统软件的bug或漏洞造成的死机,这种故障需要在判断硬件无故障后做出,而且需要软件提供商提供帮助。

④软件使用不当或系统工作压力过大,可以请客户适当降低服务器的工作压力来看看是否能够解决

2、第二方面-硬件故障

①硬件冲突

②电源故障或电源供电不足,可以通过对比计算服务器电源所有的负载功率的值来作出判断。

③硬盘故障(通过扫描硬盘表面来检查是否有坏道)

④内存故障(可以通过主板BIOS中的错误报告和操作系统的报错信息来判断)

⑤主板故障(使用替换法来判断)

⑥CPU故障(使用替换法)

⑦板卡故障(一般是SCSI/RAID卡或其他pci设备也有可能造成系统死机,可用替换法判断处理)

注意:系统死机故障需要在处理完后需要在一段时间内进行一定压力的拷机测试来尽一步检查故障是否彻底解决。

五、安装操作系统时提示找不到硬盘?

1、故障原因:

无物理硬盘设备

硬盘线缆连接问题

没有安装硬盘控制器驱动或驱动不相符

六、如何获得驱动程序?

1、使用随机光盘制作相应驱动

七、为什么用正确的驱动仍然无法加载硬盘控制器驱动?

1、查看是否启用了hostraid功能。

八、新购买的一块硬盘,安装到机器上之后,机器自检无法通过?

1、将新的硬盘取下,机器是否可以自检通过;

2、检查新增加的硬盘的ID号是否与原来的硬盘的ID号相同,如果硬盘的ID号相同的话,自检将无法通过。

九、如何格式化SCSI硬盘?

1、有操作系统的情况:使用磁盘管理工具格式化;

2、无操作系统的情况:在SCSI管理控制界面格式化;

3、以ADAPTEC Raid卡为例:开机-出现CTRL+A 信息时,按CTRL+A进 入

①选中通道A

②选中SCSI UTILITY-将检测到硬盘-选中要检测的硬盘

③选中FORMAT可对硬盘进行全面格式化

④选中VERIFY可对硬盘进行检测,检查是否有坏道

注意:在格式化硬盘时不能中断或停电,不然会损坏磁盘

十、在Aisino 系列中有RAID卡机器,当其中一个硬盘不能正常工作RAID报警,但系统能正常运行,怎么办?

1、用一个新硬盘,确保容量大于或等于不能正常工作的硬盘,最好用相同型号的硬盘替换即可。

2、RAID卡相关常见故障

第一类: RAID卡本身有问题

①经常表现为RAID信息丢失,硬盘经常掉线,不能做REBUILD,开机自检时检测不到硬盘或时间长。

典型故障A:作完RAID1,安装操作系统,一切正常,但第二次重启系统时,发出报警声,经检查发现一块硬盘掉线,REBUILD后,又恢复正常,但重启后又掉线。怀疑为硬盘故障,校验硬盘后均无问题。最后更换RAID卡,故障解决。

典型故障B:机器经常死机,且有时候启动速度非常慢。观察系统日志,发现在系统启动时有这样一个错误提示:设备/devices/scsi/port0 在传输等待的时间内没有响应。更换RAID卡后,恢复正常。

第二类: 硬盘本身问题

①表现为硬盘掉线,在RAID阵列中的状态为DEAD,或者在作REBUILD时,作到某一进度就不能继续

典型故障:硬盘掉线后,做REBUILD时,作到20%时出现错误提示无法继续进行。在确认掉线硬盘,硬盘盒及SCSI电缆都能正常工作后,对在线硬盘进行校验,发现有坏道,修复硬盘,重做REBUILD,恢复正常。

第三类: 硬盘盒或模组的接触问题

①此类问题经常表现为RAID卡根本检测不到硬盘,此类问题比较简单,但在处理硬盘盒相关机器时,需要注意一些问题。

典型故障:RIAD卡中检测不到硬盘,把SCSI电缆接到主板的ULTRA160接口上,故障依旧,拔出硬盘盒(不包括硬盘盒后面的托架)更换,故障依旧,更换硬盘,还是不行。最后卸下硬盘盒后面的托架(非热插拔部分),发现后托架上80PIN接口上的一根针弯曲,校直弯针,恢复正常。

十一、在服务器上使用的SCSI硬盘,为什么硬盘的ID号不能设置为7?

1、SCSI控制器中,默认将ID=7设置为硬盘控制器占,所以硬盘的ID号不能设置为7

十二、为什么开机自检无法通过?

1、解决方法:

①机器切断电源,将机箱打开,用“COMS CLEAR”跳线的跳线帽将“COMS CLEAR”跳线的另外两个针短接(跳线参看主板说明书)

②机器加电,自检,等机器自检完闭,报CMOS已被清除,然后将机器电源关掉,把跳线复原即可

③机器重新开机

十三、物理内存插槽报错

1、解决方法:

①开机-按F2进入“SETUP”-“ADVANCED”–“MEMORY CONFIGURATION” 回车-“CLEAR DIMM ERRORS” 直接回车

十四、IDC机房带宽突然暴涨问题

1)IDC带宽被占满的原因很多,常见的有:

a.真实遭受DDOS攻击(遇到过几次,造成影响的不多见,其中还有黑客勒索的案例)。 b.内部服务器中毒,大量外发流量。

c.网站元素(如图片)被盗连,在门户页面被推广导致大量流量产生(接警3次以上)

d.合作公司来抓数据,如:对合作单位提供了API数据接口

e.购买了CDN业务,CDN猛抓源站(这个次数也不少)。

f.其他原因还有一些,不普遍就不提了。

2)CDN带宽异常,源站没异常。

这类问题基本都是缓存在CDN的数据被频繁访问引起的。解决方法见结尾案例。

3) CDN带宽异常,源站也异常。

可能原因如公司做推广,大量数据访问,热点数据cache里不全。或CDN问题导致数据回源。影响就是带宽高,后端静态服务器及图片及存储压力大(解决办法7层门户网站架构案例文章http://oldboy.blog.51cto.com/2561410/736710)

【解决问题】 分析了问题的可能原因,就好比较排查了。

a.真实遭受DDOS攻击

DDOS问题的解决老男孩已经写了原创文章(http://oldboy.blog.51cto.com/2561410/845349),提供了17条解决经验思路,供大家参考,这里就不提了,那么实际上

遭受真实DDOS攻击并产生影响的并不是最常见的。

b.内部服务器中毒,大量外发流量。

这个问题的解决比较简单,可能有的朋友说,看看服务器流量,哪个机器带宽高处理下就好了。其实不然,实际解决比这复杂得多,带宽打满,所有监控都是看不到的。 比较好的思路,是联系机房确定机房自身无问题后(机房一般没法帮我们的),请机房断开连接外部IP服务器的网线,如负载均衡器,仅保留××× SERVER,然后断掉内部服务器出网光关的线路,切断外发流量源头。 接下来查看监控流量服务,判断外发流量的服务器,然后进行处理。 其实,这个问题的发生及快速定位和很多公司的运维规范、制度关系很大,老男孩在给一些公司做运维培训分享时发现这个问题很严重(表象很好,内部运维规范、制度欠缺很多),大家都讨论的很深入,实际用的还是和聊的有差距。。

比如有的公司开发直接FTP连接随时发布代码,或者由开发人员负责定时多次上线。而运维人员又不知晓,结果导致问题发生定位时间长,这点建议各公司的老大多思考下。 老男孩的运维思路是,如果把网站机房比喻为一座房子,那首先要堵住后门(内部),其次是监控好前门(做好安全,留个小窗户给外面人看,即80端口服务,同时安排站岗值班的)。 网站的无休止的随时随意发布代码,对网站的稳定影响是至关重要的。对运维人员对故障的定位快慢也很关键。根据老男孩不完全调查,约50%以上的重要运维故障都是程序代码导致的,这也是老男孩给企业做培训分享时,灌输建议CTO的,多把网站稳定的责任分给开发,而不是运维。如果这个思想不扭转,网站不稳定状况就难以改变。

十五、

十六、

十七、

十八、

十九、

二十、

二十一、

二十二、