Merkwürdiges Netzwerkproblem, Geräte verlieren Verbindung

Errorsmith

Kompiliertier
Hi

Folgendes Setup:

Ein FreeBSD Server (8.0, mit jails), ein Switch (ES-4524C, Gigabit), 2 IP Telefone (snom 190) und diverses anderes Zeug (1 NAS, Clients, Netzwerkdrucker etc.) am selben switch. Das ganze läuft seit ca. einem Jahr ohne Probleme.

Seit neuestem aber verlieren die beiden Netzwerktelefone unregelmäßig ihre Verbindung. Sie kommen dann nicht mehr auf den asterisk der auf dem Server läuft, man kann das Webinterface nicht mehr aufrufen und sie reagieren nicht auf ping.
Startet man das jeweilige Telefon neu, funktioniert es wieder eine Zeit lang. Nach einigen Minuten bis Stunden verlieren die Dinger aber wieder ihre Verbindung zum Netz.

Andere Geräte oder Clients sind nicht betroffen.

Ein trace mit tcpdump zeigt das die beiden Telefone haufenweise ARP requests schicken.

Code:
No.     Time        Source                Destination           Protocol Length Info
      1 0.000000    00:04:13:22:72:35     ff:ff:ff:ff:ff:ff     ARP      60     Who has 192.168.20.1?  Tell 192.168.20.241
      2 0.000014    00:1b:21:11:8d:5f     00:04:13:22:72:35     ARP      42     192.168.20.1 is at 00:1b:21:11:8d:5f
      3 0.641886    00:04:13:22:72:35     ff:ff:ff:ff:ff:ff     ARP      60     Who has 192.168.20.2?  Tell 192.168.20.241
      4 0.641901    00:1b:21:11:8d:5f     00:04:13:22:72:35     ARP      42     192.168.20.2 is at 00:1b:21:11:8d:5f
      5 1.000057    00:04:13:22:72:35     ff:ff:ff:ff:ff:ff     ARP      60     Who has 192.168.20.1?  Tell 192.168.20.241
      6 1.000071    00:1b:21:11:8d:5f     00:04:13:22:72:35     ARP      42     192.168.20.1 is at 00:1b:21:11:8d:5f
      7 1.640076    00:04:13:22:72:35     ff:ff:ff:ff:ff:ff     ARP      60     Who has 192.168.20.2?  Tell 192.168.20.241
      8 1.640103    00:1b:21:11:8d:5f     00:04:13:22:72:35     ARP      42     192.168.20.2 is at 00:1b:21:11:8d:5f
     29 2.640117    00:04:13:22:72:35     ff:ff:ff:ff:ff:ff     ARP      60     Who has 192.168.20.2?  Tell 192.168.20.241
     30 2.640132    00:1b:21:11:8d:5f     00:04:13:22:72:35     ARP      42     192.168.20.2 is at 00:1b:21:11:8d:5f
     33 4.002230    00:04:13:22:72:35     ff:ff:ff:ff:ff:ff     ARP      60     Who has 192.168.20.1?  Tell 192.168.20.241
     34 4.002256    00:1b:21:11:8d:5f     00:04:13:22:72:35     ARP      42     192.168.20.1 is at 00:1b:21:11:8d:5f
     35 5.000155    00:04:13:22:72:35     ff:ff:ff:ff:ff:ff     ARP      60     Who has 192.168.20.1?  Tell 192.168.20.241
     36 5.000181    00:1b:21:11:8d:5f     00:04:13:22:72:35     ARP      42     192.168.20.1 is at 00:1b:21:11:8d:5f
     37 6.000087    00:04:13:22:72:35     ff:ff:ff:ff:ff:ff     ARP      60     Who has 192.168.20.1?  Tell 192.168.20.241
     38 6.000110    00:1b:21:11:8d:5f     00:04:13:22:72:35     ARP      42     192.168.20.1 is at 00:1b:21:11:8d:5f
     39 6.641973    00:04:13:22:72:35     ff:ff:ff:ff:ff:ff     ARP      60     Who has 192.168.20.2?  Tell 192.168.20.241
     40 6.641998    00:1b:21:11:8d:5f     00:04:13:22:72:35     ARP      42     192.168.20.2 is at 00:1b:21:11:8d:5f
     46 7.640149    00:04:13:22:72:35     ff:ff:ff:ff:ff:ff     ARP      60     Who has 192.168.20.2?  Tell 192.168.20.241
     47 7.640168    00:1b:21:11:8d:5f     00:04:13:22:72:35     ARP      42     192.168.20.2 is at 00:1b:21:11:8d:5f
     48 8.640206    00:04:13:22:72:35     ff:ff:ff:ff:ff:ff     ARP      60     Who has 192.168.20.2?  Tell 192.168.20.241
     49 8.640226    00:1b:21:11:8d:5f     00:04:13:22:72:35     ARP      42     192.168.20.2 is at 00:1b:21:11:8d:5f

Hinweis:
192.168.20.1 ist das defaultgateway
192.168.20.2 ist der primäre DNS (läuft in einer jail)
192.168.20.241 ist das Telefon

Die einzige Änderung in der letzten Zeit war ein Speicherupgrade des Server von 2GB auf 4GB RAM und der damit verbundene Neustart.

Ich bin soweit erstmal ziemlich am Ende mit meinem Latein. Was kann ich tun um diesem Problem auf die Spur zu kommen.


Grüße,
Errorsmith
 
Ich lass den mal durchlaufen.
Würde mich nur insofern wundern als das das Problem reproduzierbar nur bei den Telefonen auftritt, nirgendwo sonst und es die beiden Telefone sind die das Segment mir arps fluten...

Melde mich...

Grüße,
Errorsmith
 
Moin Moin,

oder switch defekt, hatte ich auch schon. Das waren dann ganz komische Fehler. Zugriffe im LAN funktionierten. Surfen funktionierte nicht!

Gruß ré
 
Wie kann ich das mit dem Switch am besten diagnostizieren?
Hab grad den Selbsttest von dem Teil durchlaufen lassen und der sagt "alles in ordnung".

Memory scheint OK zu sein, läuft aber noch. Batterie hab ich noch nicht gecheckt. Die Telefone haben keine, der Switch auch nicht.

Grüße,

Errorsmith
 
entweder den switch tauschen oder mal die Ports vertauschen, ist da ein Lüfter drin der vielleicht versagt hat und das Ding überhitzt?

Gruß ré
 
Da sind drei Lüfter drin. Die laufen alle aber noch und auch der Thermosensor meckert auch nicht. Der Switch ist noch nicht sooo alt.
Im Moment kann ich es nicht weiterverfolgen, das Problem tritt gerade nicht auf. Die Telefone haben Kontakt zum Netz und der andere Rechne läßt immer noch memtest laufen.

Das macht es ja so schwierig zu untersuchen: Kann sein das der Fehler morgen erst wieder auftritt.

edit: Switch tauschen ist übrigens schlecht. Ich hab nur den einen

Grüße,
Errorsmith
 
Stunden später...

Der memtest lief "erfolgreich" durch. Der Speicher ist also soweit man das nun sagen kann in Ordnung.

Hm.

Grüße,
Errorsmith
 
Hi,

das hört sich für den Bären eher nach Telefonen an die von alleine per Magie sich en Firmware / Software Update reinzogen hams das eventuell oifach ned richtig läuft oder buggy ist oder oi mal auf factory defaults zurückgesetzt und neu konfiguriert werden sollte. Prüf mal die Versionen da druf und schau mal ob sich da was getan hat.

Gruß Bär
 
Moin

Vielleicht sollte ich sie mal updaten. zumindest das eine hat eine ältere Version drauf. Die sind aber beide auf der Version auf der sie vorher schon waren. Auch alle Einstellungen sind so wie sie sein sollten. Das Auto-Update Feature für Firmware / Konfiguration ist deaktiviert. Die Dinger haben ansonsten auch keinen Kontakti zum Internet, das wir durch pf unterbunden, die können nur mit dem Server kommunizieren.

Guter Einwand aber, da wär ich jetzt nicht drauf gekommen.

Was mir gestern Abend noch aufgefallen ist:
Die arp-requests werden beantwortet, aber die Antworten kamen - gestern - nicht bei den Dingern an. Heute aber schon. Für den Speichertest hab ich den Server ja nochmal neugestartet. Ich frage mich gerade ob da mit pf was schief gelaufen ist. (Filtert pf das arp/rarp protokoll irgendwie? Und wenn ja: Warum nur bei den Telefonen? Im Moment laufen die Teile erstmal, seit ca 15 Stunden.

Grüße,
Errorsmith
 
Zurück
Oben