Grundke, Maximilian
2018-10-23 09:40:48 UTC
Hallo zusammen,
Vorab: Host-OS der Monitoring-Systeme sind aktuell komplett gepatchte Ubuntu 14.04.5 LTS x64, Check_MK wird in der CEE Variante eingesetzt und der Fehler tritt in einem distributed als auch standalone Umfeld auf.
Ich habe heute Morgen in einer Testsite das Update von 1.4.0p36 auf p37 getestet und kann seitdem unsere ESXi-Hosts nicht mehr überwachen.
Zu überwachende Hosts sind in verschiedenen Clustern sowohl ESXi 6.0 als auch 6.5
Der Service "Check_MK" geht auf DOWN und liefert im Status detail: "Agent exited with code 1: Error while processing received data".
Kopiere ich die Datei agent_vsphere aus einer 1.4.0p36 Site von ~/share/check_mk/agents/special/ zu einer 1.4.0p37 Site nach ~local/share/check_mk/agents/special/ dann funktioniert die Überwachung wieder direkt.
cmk -debug -vv esxi-host liefert zurück:
Check_MK version 1.4.0p37
Calling external program /omd/sites/test/share/check_mk/agents/special/agent_vsphere -u 'monitor-ro' -s supersecurepassword' -i hostsystem,datastore,counters --direct --hostname 'esxi-host' -P --spaces underscore --no-cert-check '1.2.3.4'
CRIT - Agent exited with code 1: Error while processing received data, execution time 0.2 sec|execution_time=0.214 user_time=0.020 system_time=0.000 children_user_time=0.060 children_system_time=0.000 cmk_time_ds=0.137
Ein diff von altem (prod) zu neuem (test) Check zeigt mir:
=================================================================================
--- /opt/omd/sites/prod/share/check_mk/agents/special/agent_vsphere
+++ /opt/omd/sites/test/share/check_mk/agents/special/agent_vsphere
@@ -987,17 +987,17 @@
# Globals of ESX System. These settings are available after the first "systeminfo" query
systemfields = [
- ("apiVersion", float),
- ("name", None),
- ("rootFolder", None),
- ("perfManager", None),
- ("sessionManager", None),
- ("licenseManager", None),
- ("propertyCollector", None),
- ("version", None),
- ("build", None),
- ("vendor", None),
- ("osType", None),
+ "apiVersion",
+ "name",
+ "rootFolder",
+ "perfManager",
+ "sessionManager",
+ "licenseManager",
+ "propertyCollector",
+ "version",
+ "build",
+ "vendor",
+ "osType",
]
systeminfo = {}
@@ -1144,10 +1144,10 @@
# Retrieve basic data, which requires no login
payload = telegram_list["systeminfo"]
reply_code, reply_msg, reply_headers, reply_data = query_server(payload)
- for entry, function in systemfields:
+ for entry in systemfields:
element = get_pattern("<%(entry)s.*>(.*)</%(entry)s>" % { "entry": entry }, reply_data)
if element:
- systeminfo[entry] = function and function(element[0]) or element[0]
+ systeminfo[entry] = element[0]
def login():
global server_cookie
=================================================================================
Erst einmal den alten Check in ~/local/share/... zu behalten ist zwar möglich, aber nicht schön. Kann jemand den Fehler verifizieren/reproduzieren und/oder hat einen anderen saubereren Workaround?
Mit freundlichen Grüßen / Best regards
Maximilian Grundke
IT-Operations
E ***@kaufhof.de<mailto:***@kaufhof.de>
T +49 221 223 - 3794
HBC EUROPE
Galeria Kaufhof GmbH
Leonhard-Tietz-Str. 1, 50676 Köln, Deutschland
GALERIA KAUFHOF | GALERIA INNO |
HUDSON'S BAY | SAKS OFF 5TH |
Sitz der Galeria Kaufhof GmbH: Köln · Eingetr.: Amtsgericht Köln HRB Nr. 64081 · UST-ID DE811142395 · WEEE-Reg.-Nr. DE80848693 · www.kaufhof.de<http://www.kaufhof.de/>
Vorsitzender des Aufsichtsrats: Bernd Beetz · Geschäftsführung: Roland Neuwald (Vorsitzender), Edo Beukema, Klaus Hellmich, Peter Herlitzius, Guido Mager
ü SAVE PAPER - THINK BEFORE YOU PRINT
Vorab: Host-OS der Monitoring-Systeme sind aktuell komplett gepatchte Ubuntu 14.04.5 LTS x64, Check_MK wird in der CEE Variante eingesetzt und der Fehler tritt in einem distributed als auch standalone Umfeld auf.
Ich habe heute Morgen in einer Testsite das Update von 1.4.0p36 auf p37 getestet und kann seitdem unsere ESXi-Hosts nicht mehr überwachen.
Zu überwachende Hosts sind in verschiedenen Clustern sowohl ESXi 6.0 als auch 6.5
Der Service "Check_MK" geht auf DOWN und liefert im Status detail: "Agent exited with code 1: Error while processing received data".
Kopiere ich die Datei agent_vsphere aus einer 1.4.0p36 Site von ~/share/check_mk/agents/special/ zu einer 1.4.0p37 Site nach ~local/share/check_mk/agents/special/ dann funktioniert die Überwachung wieder direkt.
cmk -debug -vv esxi-host liefert zurück:
Check_MK version 1.4.0p37
Calling external program /omd/sites/test/share/check_mk/agents/special/agent_vsphere -u 'monitor-ro' -s supersecurepassword' -i hostsystem,datastore,counters --direct --hostname 'esxi-host' -P --spaces underscore --no-cert-check '1.2.3.4'
CRIT - Agent exited with code 1: Error while processing received data, execution time 0.2 sec|execution_time=0.214 user_time=0.020 system_time=0.000 children_user_time=0.060 children_system_time=0.000 cmk_time_ds=0.137
Ein diff von altem (prod) zu neuem (test) Check zeigt mir:
=================================================================================
--- /opt/omd/sites/prod/share/check_mk/agents/special/agent_vsphere
+++ /opt/omd/sites/test/share/check_mk/agents/special/agent_vsphere
@@ -987,17 +987,17 @@
# Globals of ESX System. These settings are available after the first "systeminfo" query
systemfields = [
- ("apiVersion", float),
- ("name", None),
- ("rootFolder", None),
- ("perfManager", None),
- ("sessionManager", None),
- ("licenseManager", None),
- ("propertyCollector", None),
- ("version", None),
- ("build", None),
- ("vendor", None),
- ("osType", None),
+ "apiVersion",
+ "name",
+ "rootFolder",
+ "perfManager",
+ "sessionManager",
+ "licenseManager",
+ "propertyCollector",
+ "version",
+ "build",
+ "vendor",
+ "osType",
]
systeminfo = {}
@@ -1144,10 +1144,10 @@
# Retrieve basic data, which requires no login
payload = telegram_list["systeminfo"]
reply_code, reply_msg, reply_headers, reply_data = query_server(payload)
- for entry, function in systemfields:
+ for entry in systemfields:
element = get_pattern("<%(entry)s.*>(.*)</%(entry)s>" % { "entry": entry }, reply_data)
if element:
- systeminfo[entry] = function and function(element[0]) or element[0]
+ systeminfo[entry] = element[0]
def login():
global server_cookie
=================================================================================
Erst einmal den alten Check in ~/local/share/... zu behalten ist zwar möglich, aber nicht schön. Kann jemand den Fehler verifizieren/reproduzieren und/oder hat einen anderen saubereren Workaround?
Mit freundlichen Grüßen / Best regards
Maximilian Grundke
IT-Operations
E ***@kaufhof.de<mailto:***@kaufhof.de>
T +49 221 223 - 3794
HBC EUROPE
Galeria Kaufhof GmbH
Leonhard-Tietz-Str. 1, 50676 Köln, Deutschland
GALERIA KAUFHOF | GALERIA INNO |
HUDSON'S BAY | SAKS OFF 5TH |
Sitz der Galeria Kaufhof GmbH: Köln · Eingetr.: Amtsgericht Köln HRB Nr. 64081 · UST-ID DE811142395 · WEEE-Reg.-Nr. DE80848693 · www.kaufhof.de<http://www.kaufhof.de/>
Vorsitzender des Aufsichtsrats: Bernd Beetz · Geschäftsführung: Roland Neuwald (Vorsitzender), Edo Beukema, Klaus Hellmich, Peter Herlitzius, Guido Mager
ü SAVE PAPER - THINK BEFORE YOU PRINT