来自 技术 2019-04-25 00:00 的文章

Linux运维常见的硬件及系统问题

开发四年只会写业务代码,分布式高并发都不会还想去BAT?>>>   

一、服务器常见故障和现象

1、有关服务器无法启动的主要原因 :

①市电或电源线故障(断电或接触不良)

②电源或电源模组故障

③内存故障(一般伴有报警声)

④CPU故障(一般也会有报警声)

⑤主板故障

⑥其它插卡造成中断冲突

二、服务器无法启动

1、检查电源线和各种I/O接线是否连接正常。

2、检查连接电源线后主板是否加电。

3、将服务器设为最小配置(只接单颗cpu,最少的内存,只连接显示器和键盘)直接短接主板开关跳线,看看是否能够启动。

4、检查电源,将所有的电源接口拔下,将电源的主板供电口的绿线和黑线短接,看看电源是否启动。

5、如果判断电源正常,则需要用替换法来排除故障,替换法是在最小化配置下先由最容易替换的配件开始替换(内存、cpu、主板)

三、系统频繁重启 ?

1、造成系统频繁重启的原因:

①电源故障(替换法判断解决)

②内存故障(可从BIOS错误报告中查出)

③网络端口数据流量过大(工作压力过大)

④软件故障(更新或重装操作系统解决)

四、服务器死机故障判断处理:

服务器死机故障比较难以判断,一般分为软件和硬件两个方面。

1、第一方面-软件故障

①首先检查操作系统的系统日志,可以通过系统日志来判断部分造成死机的原因。

②电脑病毒的原因。

③系统软件的bug或漏洞造成的死机,这种故障需要在判断硬件无故障后做出,而且需要软件提供商提供帮助。

④软件使用不当或系统工作压力过大,可以请客户适当降低服务器的工作压力来看看是否能够解决

2、第二方面-硬件故障

①硬件冲突

②电源故障或电源供电不足,可以通过对比计算服务器电源所有的负载功率的值来作出判断。

③硬盘故障(通过扫描硬盘表面来检查是否有坏道)

④内存故障(可以通过主板BIOS中的错误报告和操作系统的报错信息来判断)

⑤主板故障(使用替换法来判断)

⑥CPU故障(使用替换法)

⑦板卡故障(一般是SCSI/RAID卡或其他pci设备也有可能造成系统死机,可用替换法判断处理)

注意:系统死机故障需要在处理完后需要在一段时间内进行一定压力的拷机测试来尽一步检查故障是否彻底解决。

五、安装操作系统时提示找不到硬盘?

1、故障原因:

无物理硬盘设备

硬盘线缆连接问题

没有安装硬盘控制器驱动或驱动不相符

六、如何获得驱动程序?

1、使用随机光盘制作相应驱动

七、为什么用正确的驱动仍然无法加载硬盘控制器驱动?

1、查看是否启用了hostraid功能。

八、新购买的一块硬盘,安装到机器上之后,机器自检无法通过?

1、将新的硬盘取下,机器是否可以自检通过;

2、检查新增加的硬盘的ID号是否与原来的硬盘的ID号相同,如果硬盘的ID号相同的话,自检将无法通过。

九、如何格式化SCSI硬盘?

1、有操作系统的情况:使用磁盘管理工具格式化;

2、无操作系统的情况:在SCSI管理控制界面格式化;

3、以ADAPTEC Raid卡为例:开机-出现CTRL+A 信息时,按CTRL+A进 入

①选中通道A

②选中SCSI UTILITY-将检测到硬盘-选中要检测的硬盘

③选中FORMAT可对硬盘进行全面格式化

④选中VERIFY可对硬盘进行检测,检查是否有坏道

注意:在格式化硬盘时不能中断或停电,不然会损坏磁盘

十、在Aisino 系列中有RAID卡机器,当其中一个硬盘不能正常工作RAID报警,但系统能正常运行,怎么办?

1、用一个新硬盘,确保容量大于或等于不能正常工作的硬盘,最好用相同型号的硬盘替换即可。

2、RAID卡相关常见故障

第一类: RAID卡本身有问题

①经常表现为RAID信息丢失,硬盘经常掉线,不能做REBUILD,开机自检时检测不到硬盘或时间长。

典型故障A:作完RAID1,安装操作系统,一切正常,但第二次重启系统时,发出报警声,经检查发现一块硬盘掉线,REBUILD后,又恢复正常,但重启后又掉线。怀疑为硬盘故障,校验硬盘后均无问题。最后更换RAID卡,故障解决。

典型故障B:机器经常死机,且有时候启动速度非常慢。观察系统日志,发现在系统启动时有这样一个错误提示:设备/devices/scsi/port0 在传输等待的时间内没有响应。更换RAID卡后,恢复正常。

第二类: 硬盘本身问题

①表现为硬盘掉线,在RAID阵列中的状态为DEAD,或者在作REBUILD时,作到某一进度就不能继续

典型故障:硬盘掉线后,做REBUILD时,作到20%时出现错误提示无法继续进行。在确认掉线硬盘,硬盘盒及SCSI电缆都能正常工作后,对在线硬盘进行校验,发现有坏道,修复硬盘,重做REBUILD,恢复正常。

第三类: 硬盘盒或模组的接触问题

①此类问题经常表现为RAID卡根本检测不到硬盘,此类问题比较简单,但在处理硬盘盒相关机器时,需要注意一些问题。

典型故障:RIAD卡中检测不到硬盘,把SCSI电缆接到主板的ULTRA160接口上,故障依旧,拔出硬盘盒(不包括硬盘盒后面的托架)更换,故障依旧,更换硬盘,还是不行。最后卸下硬盘盒后面的托架(非热插拔部分),发现后托架上80PIN接口上的一根针弯曲,校直弯针,恢复正常。

十一、在服务器上使用的SCSI硬盘,为什么硬盘的ID号不能设置为7?

1、SCSI控制器中,默认将ID=7设置为硬盘控制器占,所以硬盘的ID号不能设置为7

十二、为什么开机自检无法通过?

1、解决方法:

①机器切断电源,将机箱打开,用“COMS CLEAR”跳线的跳线帽将“COMS CLEAR”跳线的另外两个针短接(跳线参看主板说明书)

②机器加电,自检,等机器自检完闭,报CMOS已被清除,然后将机器电源关掉,把跳线复原即可

③机器重新开机

十三、物理内存插槽报错

1、解决方法:

①开机-按F2进入“SETUP”-“ADVANCED”–“MEMORY CONFIGURATION” 回车-“CLEAR DIMM ERRORS” 直接回车

十四 、远程桌面连接超出最大连接数

  由于服务器默认为允许连接数为2个,如果登陆后忘记注销,而是直接关闭远程桌面的话,服务器识别此次登陆还是留在服务器端的。出现这种情况,最常见的就是重启服务器,但是,如果是高峰期,重启服务器带来的损失是显而易见的。那么此时,就可以利用mstsc/console指令进行强行登陆了。打开“运行”框,键入“mstsc/v:xxx.xxx.xxx.xxx(服务器IP)/console”,即可强行登陆到远程桌面了。

十五 、 系统端口隐患

  对于服务器来说,首要保障稳定性和安全性。因此,我们仅需保证服务器最基本的功能即可,就像声卡都是默认禁止的。我们并不需要太多的功能,也不需要太多的端口支持。像一些不必要,而且风险较高的端口大可封掉。而一些必要的,又有风险的端口,比如:3389、80等端口,我们可以通过修改注册表的方法将其设置不特殊的秘密端口,这样服务器端口的安全隐患就不复存在了。

十六 、IDC服务器租用连接不上的解决方法

一、本地网络不通

  首先检查一下自己的本地网络是否连通,如果本地网络不通肯定是无法连接服务器的,检查本地网络的方法大家也都比较熟悉,就不再给大家详细的介绍。

  二、登录服务器的账号或密码错误

  这个是是最常见的原因,连接服务器的时候需要登录账号密码,如果输入的账号密码错误会有相应的提示。遇到这种情况,可以选择找回密码,或者是联系服务器供应商解决,不过在这里提醒大家,服务器连接的账号密码要妥善保管。

  三、没有相应的权限

  虚拟主机和共享服务器出现权限不足的情况几率会大一些,如果是租用的独立服务器不能登录是因为这个原因,可以直接找到服务器供应商,他们一般都有相应的解决方案,比自己解决要快的多。

  四、机房的网络或服务器的硬件出现了问题

  这种情况是比较少见的,当然也是最不好解决的一种情况。如果是机房的网络或者服务器出现了问题,那就不仅是无法登录服务器了,就连网站也会无法正常打开。这种情况是可以检测的,通常是使用第三方软件或者是用ping命令检查,如果测试结果显示的是超时的,就说明是服务器硬件或者网络出现了问题,这个可以找到服务器供应商帮助解决的,他们是提供这样的售后服务的。

十七、LINUX停止iis占用80端口

主机的服务器使用的是APMServ,可是启动的时候会提示80端口被占用,Apache启动失败,提示某些程序占用80端口,但是检查时却不是,这样的情况很可能是因为机器上的IIS启动了,所以只要关闭IIS程序Apache就可以启动了,服务器托管怎么停止iis占用80端口?

启动IIS: net start iisadmin (IIS的整个服务) net start w3svc 停止IIS: net stop iisadmin /y (会自动停止www、ftp和smtp服务) 如果用的IIS自带FTP还可以执行 net start MSFtpsvc 命令来启动FTP 步骤: 1.新建一个记事本,命名为IIS.txt 2.打开IIS.txt记事本,添加如下代码: @echo off net stop iisadmin /yes net start iisadmin net start w3svc 3.另存为IIS.bat即可,双击IIS.bat就开始批处理命令。

十八、

十九、

二十、

注意 :

重启服务器的好处 一般来说,如果是正常的重启是没有什么坏处,相反,对于操作系统而言反而有好处。重启服务器可以清除内存碎片,重新优化软件调用级别,中断无用的网络端口等。

1、重启服务器对服务器的保养有一定的作用,释放内存,缓解CPU压力。服务器运行时间长,会造成很多冗余的DLL程序,导致系统运行速度较慢。系统重启会使电脑恢复到默认加载状态,也就是说在还未重启时的很多应用程序进程都驻留在内存中,会使电脑变慢,重启后它们就没了。

2、还有就是有的一些对电脑的配置要重新启动后才能生效。

3、重启服务器可以使有些程序可以得到更新。

重启服务器的危害 1、正在进行写硬盘操作时,即硬盘灯在不停地闪动时,断电或者强制重启,对硬盘的伤害较大。

2、热启动(CTRL+ALT+DEL),对硬件上不会有损伤(软件上有时会发生程序非法中止导致数据丢失的问题);如果是冷启动(直接开关电源),就会对硬件尤其是硬盘造成伤害。除非无法正常关机可以考虑热启动。

3、重启的突然来电会有大量电流涌入电源,反复进行会使机器寿命大大降低,而且在硬盘正在读写的时候突然地断电也非常容易引起硬盘出现坏道从而损失数据。

4.非正常重启的危害:首先,这样轻则会使硬盘掉数据,造成逻辑坏道,重则造成物理的坏道,损坏硬盘磁头伺服电路。还有,这也会造成主板的二度伤害,主板在一通一断当中对电路部分的冲击是比较大的。再则也会对电源造成一定的损害。