Hallo zusammen,
wir haben ein ganz komisches Problem. Unser Netzwerk besteht aus mehreren Servern sowie Clients. Es gibt drei Hauptserver, die via CARP "zusammengeschlossen" sind (ein Master, zwei Backups). Der Master hat die Aufgaben NIS, NFS, AFP, PostgreSQL und Synchronisation der Daten (zur Zeit noch via rsync) auf die anderen Server.
Etwas mehr als vierzig Clients sind an das NIS gebunden, davon um die 20 Macs (zw. Mountain Lion und Mavericks), 20 Ubuntu (12.04) und ein paar FreeBSD-Clients (10.1-RELEASE).
Die Ubuntu- sowie die FreeBSD-Maschinen haben ihr "Home" via NFS gemountet und greifen noch auf eine weitere Freigabe zu. Die Macs greifen via AFP zu. Ab und an wird mal ein wenig Samba gesprochen, aber eher selten. Des Weiteren führen die Macs regelmäßig TimeMachine-Backups durch.
Auf den Servern läuft FreeBSD 10.1-RELEASE mit Software-RAIDs, wobei die Festplatten an LSI-Controllern (9201-16i mit IT-Firmware 19.0) auf SuperMicro-Boards angeschlossen sind. Die Konstellation ist folgende:
3 x SSDs, partitioniert nach "Boot", "/" (UFS) und Swap und jeweils in einem GEOM_MIRROR (gmirror)
3 x SSDs, für ZFS Log und Cache
8 x HDDs, NL-SAS WD-RE mit 4TB zu einem zraid2 (GELI AES 256bit verschlüsselt, AESNI ist geladen und wird unterstützt)
Hier genauer:
Es sind zur Zeit zwei NICs via LACP an einem HP 1810-48-Switch angeschlossen (vorher waren es vier, wir haben aber testweise mal zwei entfernt):
Auf dem Server läuft das Schreiben und Lesen von Daten recht schnell (300 bis 450 Megabytes pro Sekunde). Es gibt jetzt zwei Probleme:
1) Kopiere ich per Netzwerk (NFS oder SSH) Daten auf den Server, bekomme ich nur zw. 30 und 45 MB pro Sekunde. Per iperf kommen aber immer so 800 bis 900 Mbit zusammen. Woran kann das liegen? Die Festplatten sind letztlich ja schnell genug und ich habe auch probiert, in tmpfs zu schreiben mit dem selben Problem.
2) Das wesentlich wichtigere Problem ist, dass laufend die Desktops (vereinzelt auch einzelne Programme) der Workstations "einfrieren". Das äußert sich so, dass sich oftmals die Maus noch bewegen lässt, aber die Arbeitsflächen nicht mehr gewechselt werden können und Programme nicht mehr reagieren oder neugezeichnet werden. Und das bei Ubuntu und FreeBSD. Bei den Macs kommt dann der Sat1-Ball. Nach 10 Sekunden bishin zu wenigen Minuten geht es dann weiter. Dieses Problem tritt etliche Male am Tag auf.
Woran könnte das liegen?
Wir haben bisher folgendes gemacht:
- Server getauscht gegen Backup-Server - selbes Problem (die Hardware ist anders und etwas älter, aber es ist der gleiche LSI-Controller und die gleiche Plattenkonstellation drin
- BIOS + NIC-Firmwares auf aktuellen Stand gebracht
- Switch getauscht (gegen nicht LACP-fähigen aus Mangel, LACP abgeschaltet)
- Alle "unnötigen" Karten aus dem Server ausgebaut
- Von LWL-Switch-Verbindungen auf Kupferverbindungen gewechselt (die LWL-Module setzen wir gerade seit einem Monat ein)
- "Kuriose" Netzwerkgeräte (so Mini-Switches) aus dem Netzwerk entfernt
- Logs geprüft von Server und Clients. Es steht rein gar nichts drin
- ARC limitiert (auf 15GB bei einem Server mit 64G RAM)
Mir fällt nichts mehr ein. Hat vielleicht jemand von Euch noch eine Idee?
Viele Grüße
Morfio
wir haben ein ganz komisches Problem. Unser Netzwerk besteht aus mehreren Servern sowie Clients. Es gibt drei Hauptserver, die via CARP "zusammengeschlossen" sind (ein Master, zwei Backups). Der Master hat die Aufgaben NIS, NFS, AFP, PostgreSQL und Synchronisation der Daten (zur Zeit noch via rsync) auf die anderen Server.
Etwas mehr als vierzig Clients sind an das NIS gebunden, davon um die 20 Macs (zw. Mountain Lion und Mavericks), 20 Ubuntu (12.04) und ein paar FreeBSD-Clients (10.1-RELEASE).
Die Ubuntu- sowie die FreeBSD-Maschinen haben ihr "Home" via NFS gemountet und greifen noch auf eine weitere Freigabe zu. Die Macs greifen via AFP zu. Ab und an wird mal ein wenig Samba gesprochen, aber eher selten. Des Weiteren führen die Macs regelmäßig TimeMachine-Backups durch.
Auf den Servern läuft FreeBSD 10.1-RELEASE mit Software-RAIDs, wobei die Festplatten an LSI-Controllern (9201-16i mit IT-Firmware 19.0) auf SuperMicro-Boards angeschlossen sind. Die Konstellation ist folgende:
3 x SSDs, partitioniert nach "Boot", "/" (UFS) und Swap und jeweils in einem GEOM_MIRROR (gmirror)
3 x SSDs, für ZFS Log und Cache
8 x HDDs, NL-SAS WD-RE mit 4TB zu einem zraid2 (GELI AES 256bit verschlüsselt, AESNI ist geladen und wird unterstützt)
Hier genauer:
Code:
[18:16:36 thorsten@grobi ~]: gpart show -l
=> 34 250069613 da0 GPT (119G)
34 6 - free - (3.0K)
40 1024 1 (null) (512K)
1064 984 - free - (492K)
2048 41943040 2 swap2 (20G)
41945088 208124559 3 system2 (99G)
=> 34 250069613 da1 GPT (119G)
34 6 - free - (3.0K)
40 1024 1 (null) (512K)
1064 984 - free - (492K)
2048 41943040 2 swap1 (20G)
41945088 208124559 3 system1 (99G)
=> 34 250069613 da2 GPT (119G)
34 6 - free - (3.0K)
40 1024 1 (null) (512K)
1064 984 - free - (492K)
2048 41943040 2 swap0 (20G)
41945088 208124559 3 system0 (99G)
=> 34 250069613 da3 GPT (119G)
34 125034496 1 cache0 (60G)
125034530 125035117 2 log0 (60G)
=> 34 7814037101 da4 GPT (3.6T)
34 7814037101 1 storage1 (3.6T)
=> 34 7814037101 da5 GPT (3.6T)
34 7814037101 1 storage0 (3.6T)
=> 34 250069613 da6 GPT (119G)
34 125034496 1 cache2 (60G)
125034530 125035117 2 log2 (60G)
=> 34 250069613 da7 GPT (119G)
34 125034496 1 cache1 (60G)
125034530 125035117 2 log1 (60G)
=> 34 7814037101 da8 GPT (3.6T)
34 7814037101 1 storage5 (3.6T)
=> 34 7814037101 da9 GPT (3.6T)
34 7814037101 1 storage4 (3.6T)
=> 34 7814037101 da10 GPT (3.6T)
34 7814037101 1 storage3 (3.6T)
=> 34 7814037101 da11 GPT (3.6T)
34 7814037101 1 storage2 (3.6T)
=> 34 7814037101 da12 GPT (3.6T)
34 7814037101 1 storage7 (3.6T)
=> 34 7814037101 da13 GPT (3.6T)
34 7814037101 1 storage6 (3.6T)
[18:16:39 thorsten@grobi ~]: gmirror status
Name Status Components
mirror/swap COMPLETE da0p2 (ACTIVE)
da1p2 (ACTIVE)
da2p2 (ACTIVE)
mirror/system COMPLETE da0p3 (ACTIVE)
da1p3 (ACTIVE)
da2p3 (ACTIVE)
pool: server
state: ONLINE
status: One or more devices has experienced an unrecoverable error. An
attempt was made to correct the error. Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
using 'zpool clear' or replace the device with 'zpool replace'.
see: http://illumos.org/msg/ZFS-8000-9P
scan: resilvered 897G in 35h47m with 0 errors on Thu Dec 18 23:50:43 2014
config:
NAME STATE READ WRITE CKSUM
server ONLINE 0 0 0
raidz2-0 ONLINE 0 0 0
gpt/storage0.eli ONLINE 0 0 0
gpt/storage1.eli ONLINE 0 0 0
gpt/storage2.eli ONLINE 0 0 0
gpt/storage3.eli ONLINE 0 0 0
gpt/storage4.eli ONLINE 0 0 0
gpt/storage5.eli ONLINE 0 0 0
gpt/storage6.eli ONLINE 0 0 0
gpt/storage7.eli ONLINE 0 0 0
logs
mirror-1 ONLINE 0 0 0
gpt/log0.eli ONLINE 0 0 0
gpt/log1.eli ONLINE 0 0 0
gpt/log2.eli ONLINE 0 0 0
cache
gpt/cache0.eli ONLINE 0 9,24M 0
gpt/cache1.eli ONLINE 0 9,23M 0
gpt/cache2.eli ONLINE 0 9,23M 0
errors: No known data errors
Es sind zur Zeit zwei NICs via LACP an einem HP 1810-48-Switch angeschlossen (vorher waren es vier, wir haben aber testweise mal zwei entfernt):
Code:
lagg0: flags=8943<UP,BROADCAST,RUNNING,PROMISC,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=403bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,VLAN_HWTSO>
ether 00:25:90:81:29:9a
inet 192.168.0.3 netmask 0xffffff00 broadcast 192.168.0.255
inet 192.168.0.2 netmask 0xffffff00 broadcast 192.168.0.255 vhid 1
nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL>
media: Ethernet autoselect
status: active
carp: MASTER vhid 1 advbase 1 advskew 100
laggproto lacp lagghash l2,l3,l4
laggport: igb1 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING>
laggport: igb0 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING>
Auf dem Server läuft das Schreiben und Lesen von Daten recht schnell (300 bis 450 Megabytes pro Sekunde). Es gibt jetzt zwei Probleme:
1) Kopiere ich per Netzwerk (NFS oder SSH) Daten auf den Server, bekomme ich nur zw. 30 und 45 MB pro Sekunde. Per iperf kommen aber immer so 800 bis 900 Mbit zusammen. Woran kann das liegen? Die Festplatten sind letztlich ja schnell genug und ich habe auch probiert, in tmpfs zu schreiben mit dem selben Problem.
2) Das wesentlich wichtigere Problem ist, dass laufend die Desktops (vereinzelt auch einzelne Programme) der Workstations "einfrieren". Das äußert sich so, dass sich oftmals die Maus noch bewegen lässt, aber die Arbeitsflächen nicht mehr gewechselt werden können und Programme nicht mehr reagieren oder neugezeichnet werden. Und das bei Ubuntu und FreeBSD. Bei den Macs kommt dann der Sat1-Ball. Nach 10 Sekunden bishin zu wenigen Minuten geht es dann weiter. Dieses Problem tritt etliche Male am Tag auf.
Woran könnte das liegen?
Wir haben bisher folgendes gemacht:
- Server getauscht gegen Backup-Server - selbes Problem (die Hardware ist anders und etwas älter, aber es ist der gleiche LSI-Controller und die gleiche Plattenkonstellation drin
- BIOS + NIC-Firmwares auf aktuellen Stand gebracht
- Switch getauscht (gegen nicht LACP-fähigen aus Mangel, LACP abgeschaltet)
- Alle "unnötigen" Karten aus dem Server ausgebaut
- Von LWL-Switch-Verbindungen auf Kupferverbindungen gewechselt (die LWL-Module setzen wir gerade seit einem Monat ein)
- "Kuriose" Netzwerkgeräte (so Mini-Switches) aus dem Netzwerk entfernt
- Logs geprüft von Server und Clients. Es steht rein gar nichts drin
- ARC limitiert (auf 15GB bei einem Server mit 64G RAM)
Mir fällt nichts mehr ein. Hat vielleicht jemand von Euch noch eine Idee?
Viele Grüße
Morfio