Es kommt oft vor, dass wir feststellen, dass ein Linux-System auf ungeplante Weise oder aus unbekannten Gründen neu gestartet wurde. Das Finden und Beheben der Grundursache kann dazu beitragen, das Wiederauftreten solcher Probleme zu verhindern und ungeplante Ausfallzeiten zu vermeiden.
Es gibt mehrere Möglichkeiten, wie wir herausfinden können, was einen Neustart ausgelöst hat. In diesem Artikel besprechen wir diese Möglichkeiten und wie Sie verfügbare Dienstprogramme und Protokolle in einem Linux-System verwenden können, um solche Szenarien zu beheben.
Inhaltsverzeichnis
Überprüfen Sie die Neustartzeit
Sie können überprüfen, wann der Systemneustart mit den Befehlen who und last durchgeführt wurde
$ who -b system boot 2021-02-13 20:51 $ last -x | head | tac abhishek pts/0 192.168.1.16 Sat Feb 13 19:53 - 19:55 (00:02) reboot system boot 3.10.0-1160.11.1 Sat Feb 13 19:55 - 20:54 (00:58) runlevel (to lvl 3) 3.10.0-1160.11.1 Sat Feb 13 19:55 - 20:04 (00:08) abhishek pts/0 192.168.1.16 Sat Feb 13 19:56 - 20:04 (00:07) reboot system boot 3.10.0-1160.11.1 Sat Feb 13 20:04 - 20:54 (00:49) runlevel (to lvl 3) 3.10.0-1160.11.1 Sat Feb 13 20:04 - 20:51 (00:46) abhishek pts/0 192.168.1.16 Sat Feb 13 20:04 - 20:50 (00:46) reboot system boot 3.10.0-1160.11.1 Sat Feb 13 20:51 - 20:54 (00:03) runlevel (to lvl 3) 3.10.0-1160.11.1 Sat Feb 13 20:51 - 20:54 (00:02) abhishek pts/0 192.168.1.16 Sat Feb 13 20:51 still logged in $
Überprüfen Sie die Systemmeldungen
Sie können den Neustart, den Sie diagnostizieren möchten, weiter mit Systemmeldungen korrelieren.
Bei CentOS/RHEL-Systemen finden Sie die Protokolle unter /var/log/messages, während sie bei Ubuntu/Debian-Systemen unter /var/log/syslog protokolliert werden. Sie können einfach den tail-Befehl oder Ihren bevorzugten Texteditor verwenden, um bestimmte Daten herauszufiltern oder zu finden.
Wie den folgenden Protokollen entnommen werden kann, deuten solche Einträge auf ein Herunterfahren/Neustart hin, das von einem Administrator oder Root-Benutzer initiiert wurde. Diese Meldungen können je nach Betriebssystemtyp und der Art und Weise, wie ein Neustart/Herunterfahren ausgelöst wird, variieren, aber Sie werden immer nützliche Informationen finden, wenn Sie sich die Systemprotokolle ansehen, obwohl sie möglicherweise nicht eindeutig genug sind, um die Ursache jedes Mal genau zu bestimmen.
Feb 13 19:56:20 centos7vm chronyd[637]: Source 72.30.35.89 replaced with 142.147.92.5 Feb 13 20:00:40 centos7vm chronyd[637]: Selected source 162.159.200.123 Feb 13 20:01:01 centos7vm systemd: Created slice User Slice of root. Feb 13 20:01:01 centos7vm systemd: Started Session 2 of user root. Feb 13 20:04:09 centos7vm systemd-logind: System is powering down. Feb 13 20:04:09 centos7vm systemd: Closed LVM2 poll daemon socket. Feb 13 20:04:09 centos7vm systemd: Stopped target Multi-User System.
Ein solcher Befehl, mit dem Sie Systemprotokolle herausfiltern können, ist unten angegeben:
sudo grep -iv ': starting|kernel: .*: Power Button|watching system buttons|Stopped Cleaning Up|Started Crash recovery kernel' /var/log/messages /var/log/syslog /var/log/apcupsd* | grep -iw 'recover[a-z]*|power[a-z]*|shut[a-z ]*down|rsyslogd|ups'
Erfasste Ereignisse sind möglicherweise nicht immer spezifisch. Verfolgen Sie immer Ereignisse, die Hinweise auf Warnungen oder Fehler geben, die zum Abschalten/Absturz des Systems führen können.
Auditd-Protokolle überprüfen
Für Systeme mit auditd ist dies ein großartiger Ort, um verschiedene Ereignisse mit einem Search-Tool zu überprüfen. Verwenden Sie den folgenden Befehl, um die letzten beiden Einträge aus Überwachungsprotokollen zu überprüfen.
$ sudo ausearch -i -m system_boot,system_shutdown | tail -4
Dadurch werden die beiden letzten Herunterfahren oder Neustarts gemeldet. Wenn dies ein SYSTEM_SHUTDOWN gefolgt von einem SYSTEM_BOOT meldet, sollte alles gut sein. Wenn es jedoch zwei SYSTEM_BOOT-Zeilen hintereinander oder nur eine einzige SYSTEM_BOOT-Zeile meldet, wurde das System höchstwahrscheinlich nicht ordnungsgemäß heruntergefahren. Eine normale Ausgabe sollte in etwa so aussehen:
$ sudo ausearch -i -m system_boot,system_shutdown | tail -4 ---- type=SYSTEM_SHUTDOWN msg=audit(Saturday 13 February 2021 A.852:8) : pid=621 uid=root auid=unset ses=unset subj=system_u:system_r:init_t:s0 msg=' comm=systemd-update-utmp exe=/usr/lib/systemd/systemd-update-utmp hostname=? addr=? terminal=? res=success' ---- type=SYSTEM_BOOT msg=audit(Saturday 13 February 2021 A.368:8) : pid=622 uid=root auid=unset ses=unset subj=system_u:system_r:init_t:s0 msg=' comm=systemd-update-utmp exe=/usr/lib/systemd/systemd-update-utmp hostname=? addr=? terminal=? res=success' $
Die folgende Ausgabe listet zwei aufeinanderfolgende SYSTEM_BOOT-Meldungen auf, die auf ein nicht ordnungsgemäßes Herunterfahren hinweisen können, obwohl sie mit Systemprotokollen korreliert werden müssen.
$ sudo ausearch -i -m system_boot,system_shutdown | tail -4 ---- type=SYSTEM_BOOT msg=audit(Saturday 13 February 2021 A.852:8) : pid=621 uid=root auid=unset ses=unset subj=system_u:system_r:init_t:s0 msg=' comm=systemd-update-utmp exe=/usr/lib/systemd/systemd-update-utmp hostname=? addr=? terminal=? res=success' ---- type=SYSTEM_BOOT msg=audit(Saturday 13 February 2021 A.368:8) : pid=622 uid=root auid=unset ses=unset subj=system_u:system_r:init_t:s0 msg=' comm=systemd-update-utmp exe=/usr/lib/systemd/systemd-update-utmp hostname=? addr=? terminal=? res=success' $
Systemd-Journal analysieren
Sie sollten ein dauerhaftes systemd-Journal haben, um ein dauerhaftes Journal auf der Festplatte zu führen, da sonst die Protokolle beim Neustart nicht bestehen bleiben. Dazu können Sie entweder die Änderungen in /etc/systemd/journald.conf vornehmen oder das Verzeichnis selbst mit den folgenden Befehlen erstellen:
$ sudo mkdir /var/log/journal $ sudo systemd-tmpfiles --create --prefix /var/log/journal 2>/dev/null $ sudo systemctl -s SIGUSR1 kill systemd-journald
Anschließend können Sie das System optional neu starten, um mehr als einen Neustarteintrag im Journal zu erfassen, obwohl dies nicht erforderlich ist.
Verwenden Sie den folgenden Befehl, um protokollierte Starts aus dem Journal aufzulisten:
$ journalctl --list-boots
Hier ist die Ausgabe auf meinem Server:
$ journalctl --list-boots -15 8a7c8034da804ebb9cb063a7553ed0bf Wed 2020-11-18 23:09:05 IST—Wed 2020-11-18 23:17:10 IST -14 7bbb9542778a4057a91b9d22fcf91735 Wed 2020-11-18 23:17:22 IST—Wed 2020-11-18 23:20:08 IST -13 f2ee8a61bf4c4f67a12e012855d8b1c3 Wed 2020-11-18 23:20:17 IST—Wed 2020-11-18 23:23:01 IST -12 1277d19a959f4c33ba944a68c5874d2a Fri 2020-12-11 10:32:44 IST—Fri 2020-12-11 10:43:39 IST -11 eb4ff97f112445888a5946d1155de1b8 Fri 2020-12-11 10:43:55 IST—Fri 2020-12-11 10:48:18 IST -10 bf46eff3f9a344d2b28a03ffbf7fff32 Fri 2020-12-11 19:04:30 IST—Fri 2020-12-11 19:31:01 IST -9 2acf08368667423c89086579f98efd82 Tue 2020-12-15 17:36:52 IST—Tue 2020-12-15 19:13:10 IST -8 b826f223a67d454b94d4413678870f08 Sat 2020-12-19 00:31:54 IST—Sat 2020-12-19 00:44:52 IST -7 011e1b29339041b0ae48bbb93fce792f Wed 2020-12-23 23:01:15 IST—Wed 2020-12-23 23:02:44 IST -6 f41f5880572e4394938c6dcb4a8b683c Mon 2020-12-28 16:54:11 IST—Mon 2020-12-28 22:54:22 IST -5 a2e638dc292a4db2b0a50dd442129c28 Tue 2020-12-29 17:02:16 IST—Tue 2020-12-29 19:39:38 IST -4 f6c738df872a48d48daee1962727cca5 Wed 2020-12-30 19:09:30 IST—Wed 2020-12-30 19:20:23 IST -3 c876e60ea371460b94e247b40270b18f Thu 2020-12-31 14:36:07 IST—Thu 2020-12-31 15:45:36 IST -2 a23c70804ec243f7868c18737f4b7e55 Sat 2021-02-13 20:09:30 IST—Sat 2021-02-13 20:10:44 IST -1 94b604a6bf75462dac8c4a4576fdc863 Sat 2021-02-13 20:10:59 IST—Sat 2021-02-13 20:23:18 IST 0 3ff7e29fa0a34878b7574b7d4d3ccfb5 Sat 2021-02-13 20:24:57 IST—Sat 2021-02-13 21:13:15 IST $
Wie Sie sehen können, dauert die Auflistung mehrere Stiefel. Um einen bestimmten Neustart weiter zu analysieren, verwenden Sie:
$ journalctl -b {num} -n
Hier ist {num} der Index, der im Befehl journalctl –list-boots in der ersten Spalte angegeben wird.
$ journalctl -b -1 -n -- Logs begin at Wed 2020-11-18 23:09:05 IST, end at Sat 2021-02-13 21:13:39 IST. -- Feb 13 20:23:18 ubuntumate20vm systemd[1]: lvm2-monitor.service: Succeeded. Feb 13 20:23:18 ubuntumate20vm systemd[1]: Stopped Monitoring of LVM2 mirrors, snapshots etc. using dmeventd or progress polling. Feb 13 20:23:18 ubuntumate20vm systemd[1]: Reached target Shutdown. Feb 13 20:23:18 ubuntumate20vm systemd[1]: Reached target Final Step. Feb 13 20:23:18 ubuntumate20vm systemd[1]: systemd-poweroff.service: Succeeded. Feb 13 20:23:18 ubuntumate20vm systemd[1]: Finished Power-Off. Feb 13 20:23:18 ubuntumate20vm systemd[1]: Reached target Power-Off. Feb 13 20:23:18 ubuntumate20vm systemd[1]: Shutting down. Feb 13 20:23:18 ubuntumate20vm systemd-shutdown[1]: Syncing filesystems and block devices. Feb 13 20:23:18 ubuntumate20vm systemd-journald[304]: Journal stopped $
Sie können die im Journal protokollierten Nachrichten in der obigen Ausgabe beobachten und eventuelle Anomalien nachverfolgen.
Fazit
Es ist möglicherweise nicht immer möglich, die Ursache eines Linux-Neustarts mit einem einzigen Befehl oder aus einer einzigen Protokolldatei zu ermitteln. Daher ist es immer praktisch, die Befehle und Protokolle zu kennen, die systembezogene Ereignisse erfassen und die Zeit verkürzen können, die zum Auffinden der Grundursache erforderlich ist.
Die obigen Beispiele bieten Ihnen einen Ausgangspunkt, um mit der Fehlerbehebung zu beginnen. Wenn Sie eine Kombination aus solchen Tools und Protokollen verwenden, können Sie sicher sein, dass Sie wissen, was passiert ist und wie Ihr System neu gestartet wurde.
Informieren Sie sich als Nächstes über einige der leichtgewichtigen Überwachungssoftware für Linux.