SAS2308 Probleme mit ST10000VN0004-2GS11L ( Seagate IronWolf 10TB ) ?

jup. nun zfs replace gemacht.

Code:
nas4free: ~# smartctl -a /dev/da4
smartctl 7.0 2018-12-30 r4883 [FreeBSD 11.2-RELEASE-p9 amd64] (local build)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               SEAGATE
Product:              ST10000NM0096
Revision:             E002
Compliance:           SPC-4
User Capacity:        10,000,831,348,736 bytes [10.0 TB]
Logical block size:   512 bytes
Physical block size:  4096 bytes
LU is fully provisioned
Rotation Rate:        7200 rpm
Form Factor:          3.5 inches
Logical Unit id:      0x5000c500b6ec483f
Serial number:        ZA27C5GR0000C8444XXX
Device type:          disk
Transport protocol:   SAS (SPL-3)
Local Time is:        Fri Jun 14 12:18:49 2019 CEST
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Grown defects during certification <not available>
Total blocks reassigned during format <not available>
Total new blocks reassigned <not available>
Power on minutes since format <not available>
Current Drive Temperature:     30 C
Drive Trip Temperature:        60 C

Manufactured in week 44 of year 2018
Specified cycle count over device lifetime:  10000
Accumulated start-stop cycles:  48
Specified load-unload count over device lifetime:  300000
Accumulated load-unload cycles:  51
Elements in grown defect list: 0

Vendor (Seagate Cache) information
  Blocks sent to initiator = 27744
  Blocks received from initiator = 3295040
  Blocks read from cache and sent to initiator = 5770
  Number of read and write commands whose size <= segment size = 2497
  Number of read and write commands whose size > segment size = 134

Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 0.52
  number of minutes until next internal SMART test = 41

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:       3556        0         0      3556          0          0.014           0
write:         0        0         0         0          0          1.713           0

Non-medium error count:        3


[GLTSD (Global Logging Target Save Disable) set. Enable Save with '-S on']
No Self-tests have been logged
 
mhh nun ist die auch schon rausgeflogen

Code:
 .......
GEOM_ELI: g_eli_read_done() failed (error=5) gpt/zfs10TB4sas.eli[READ(offset=65536, length=4096)]
        (da4:mps0:0:18:0): READ(10). CDB: 28 00 02 00 00 28 00 00 08 00 length 4096 SMID 678 terminated ioc 804b loginfo 31120100 scsi 0 state c xfer 0
(da4:mps0:0:18:0): READ(10). CDB: 28 00 02 00 00 28 00 00 08 00
(da4:mps0:0:18:0): CAM status: CCB request completed with an error
(da4:mps0:0:18:0): Retrying command
        (da4:mps0:0:18:0): READ(10). CDB: 28 00 02 00 00 28 00 00 08 00 length 4096 SMID 721 terminated ioc 804b loginfo 31120100 scsi 0 state c xfer 0
(da4:mps0:0:18:0): READ(10). CDB: 28 00 02 00 00 28 00 00 08 00
(da4:mps0:0:18:0): CAM status: CCB request completed with an error
(da4:mps0:0:18:0): Retrying command
        (da4:mps0:0:18:0): READ(10). CDB: 28 00 02 00 00 28 00 00 08 00 length 4096 SMID 729 terminated ioc 804b loginfo 31120100 scsi 0 state c xfer 0
(da4:mps0:0:18:0): READ(10). CDB: 28 00 02 00 00 28 00 00 08 00
(da4:mps0:0:18:0): CAM status: CCB request completed with an error
(da4:mps0:0:18:0): Retrying command
        (da4:mps0:0:18:0): READ(10). CDB: 28 00 02 00 00 28 00 00 08 00 length 4096 SMID 765 terminated ioc 804b loginfo 31120100 scsi 0 state c xfer 0
(da4:mps0:0:18:0): READ(10). CDB: 28 00 02 00 00 28 00 00 08 00
(da4:mps0:0:18:0): CAM status: CCB request completed with an error
(da4:mps0:0:18:0): Retrying command
        (da4:mps0:0:18:0): READ(10). CDB: 28 00 02 00 00 28 00 00 08 00 length 4096 SMID 723 terminated ioc 804b loginfo 31120100 scsi 0 state c xfer 0
(da4:mps0:0:18:0): READ(10). CDB: 28 00 02 00 00 28 00 00 08 00
(da4:mps0:0:18:0): CAM status: CCB request completed with an error
(da4:mps0:0:18:0): Error 5, Retries exhausted
GEOM_ELI: g_eli_read_done() failed (error=5) gpt/zfs10TB4sas.eli[READ(offset=0, length=4096)]
 
Also fürs Verständnis. Die neue Platte hängt an der Backplane und die BP am SAS-Controller?

Hast du mal einen anderen Slot an der Backplane ausprobiert?

sdparm -s ccf_stop=1 -S da4 Setz' das mal so, schaden kanns nicht. Wenns das bei der Platte nicht gibt, dann ccf_stop=0
Nach solchen Schritten besser immer einen reboot. timeouts/standby/stromspar-zeug nochmal überprüft, ob das im Webinterface von nas alles deaktiviert ist?

Accumulated start-stop cycles: 48 Ich glaube nämlich nicht, dass du den Server jetzt bisher 48x manuell aus und eingeschaltet hast.
Irgendwas an standby ist da aktiviert.

Mir fällt noch was ein: Hast du damals beim Flashen der IT-Firmware das BIOS mitgeschrieben? Wenn ja, ist da ggf. was mit disk-standby aktiviert?
 
Zuletzt bearbeitet:
disk -> management . Stand By ist bei allen HDDs auf "always on"
jup, ich habe die kiste garnicht neu gestartet...

powerd_flags -a hiadaptive -b hiadaptive -n hiadaptive


nas4free: /# sdparm -s ccf_stop=1 -S da4
couldn't find field acronym: ccf_stop
[perhaps a '--transport=<tn>' or '--vendor=<vn>' option is needed]

bei =0 kommt der gleiche Fehler.
 
Code:
CCF_STOPP     2  [cha: y, def:  2, sav:  2]

Es sind 2 "P" ;), sorry mein Fehler!

CCF_STOPP

Schreib es mal in Großbuchstaben.
 
nas4free: ~# sdparm -s ccf_stopp=1 -S da4
da4: SEAGATE ST10000NM0096 E002

wie kann man den status bei den anderen hdds abfragen?

bin beim suchen noch gekommen auf:
smartctl -n standby ... und ataidle
kann das noch helfen?
 
Falls dir Lesestoff reingeht: http://sg.danny.cz/sg/sdparm.html

Zur betreffenden Platte kannst du jetzt nochmal mit sdparm -a da4 schauen, ob das gefressen wurde.

Bei SAS gibt es feingranulare Einstellmöglichkeiten zu Stromsparmechanismen, die IMHO besser sind, weil sie bei mir sauber funktionieren, wenn korrekt eingestellt. Ich habe aber keine große Erfahrung, das ist auch mein erster Satz SAS-Platten, den ich habe und gleich mal sauber auf die Schnauze geflogen...aber besser direkt ins kalte Wasser und was dabei gelernt, als andersrum. ;)
Hier die ganze Palette, was deine Platte anbietet (Details zu den Modepages finden sich immer in den dicken Handbüchern zu den Plattenserien, findest du bestimmt auf der Herstellerseite):
Code:
Power condition mode page:
  PM_BG         0  [cha: n, def:  0, sav:  0]
  STANDBY_Y     0  [cha: y, def:  0, sav:  0]
  IDLE_C        0  [cha: y, def:  0, sav:  0]
  IDLE_B        1  [cha: y, def:  1, sav:  1]
  IDLE          1  [cha: y, def:  1, sav:  1]
  STANDBY       0  [cha: y, def:  0, sav:  0]
  ICT           1  [cha: y, def:  1, sav:  1]
  SCT           9000  [cha: y, def:9000, sav:9000]
  IBCT          1200  [cha: y, def:1200, sav:1200]
  ICCT          6000  [cha: y, def:6000, sav:6000]
  SYCT          6000  [cha: y, def:6000, sav:6000]
  CCF_IDLE      1  [cha: y, def:  1, sav:  1]
  CCF_STAND     1  [cha: y, def:  1, sav:  1]
  CCF_STOPP     2  [cha: y, def:  2, sav:  2]

Bei SATA kannst du mit camcontrol identify ada0 gucken.
Code:
power management               yes      yes
advanced power management      yes      yes     254/0xFE
automatic acoustic management  no       no

Wenn Support auf no steht, dann kann die Platte das nicht. APM und AAM geht von 0-254 und ist immer unterschiedlich je nach Plattenserie oder Hersteller. Beim einen stoppt der Motor z.b. bei 128, beim anderen erst unterhalb von 80. Man muss sich also genau das Manual einfahren, wenn man das korrekt machen will. Grobe Regel: je niedriger, desto aggressiver.
Ich persönlich mag es bei SATA nicht, wenn Platten sich selber ums Stromsparen kümmern, gerade wegen dem Wildwuchs und den Unterschieden. Wie in meinen ersten Beiträgen hier schon erwähnt, haben mittlerweile viele SATA-Platten die Werkseinstellung, möglichst nach ein paar Sekunden die Köpfe zu parken. Nichts gegen Stromsparen, wir haben nur diesen Planeten, aber wenn die Platte nach einem Jahr sich selber kaputtgeparkt hat (Load Cycles) und ich nachkaufen muss, dann ist an so einer Platte gar nichts 'green'. Das Horrorbeispiel waren die ersten WD Green (parken nach 8 Sekunden oder so), google ist voll damit. ;)

Sonderfälle wie hier in meinem Beispiel gibts oft: APM hätte ich da gerne deaktiviert, geht mit der Platte aber nicht. Meist kann man APM mit dem Level 254 ausschalten, hier aber nicht.
Dann kommt noch hinzu, dass manche Platten das nicht abspeichern (ist vor dem Kauf selten bis nie in Erfahrung zu bringen, in meinem Beispiel ist das so). Dann fährst du den Server neu hoch und das irre Kopfparken beginnt erneut. Manchmal kann man das fest in die Firmware mit hdat2 schreiben, bei mir hats nicht geklappt. Mein workaround ist hier, dass ich automatisch bei boot ein camcontrol apm ada0 -l 254 setze. Das müsste dir die Oberfläche vom NAS aber auch anzeigen. Hoffe, ich hab nix vergessen zu erklären. ;)
 
Ich brauche dringend eine funktionierende Lösung. Gestern wurde mir der pool noch als zerstört ("zfs: cannot import : I/O error Destroy and re-create the pool from a backup source") angezeigt.

Jetzt habe ich die 5 platten (ohne die SAS) in ein anderes Gehäuse gesteckt und kann ihn zum Glück wieder importieren.
vor 2 Tagen habe ich ja die gpt/zfs10TB4.eli ersetzt durch gpt/zfs10TB4sas.eli

Dieser Vorgang wurde aber nie abgeschlossen da die Platten ja Probleme haben in dem SC836. Kann ich JETZT die zfs10TB4sas.eli removen? Oder wie ist das weitere Vorgehen?

Code:
  pool: tank10TBnas1
 state: DEGRADED
status: One or more devices is currently being resilvered.  The pool will
        continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
  scan: resilver in progress since Fri Jun 14 14:20:15 2019
        860G scanned out of 43.8T at 89.3M/s, 140h18m to go
        32.4G resilvered, 1.92% done
config:

        NAME                        STATE     READ WRITE CKSUM
        tank10TBnas1                DEGRADED     0     0     0
          raidz2-0                  DEGRADED     0     0     0
            gpt/zfs10TB1.eli        ONLINE       0     0     0
            gpt/zfs10TB2.eli        ONLINE       0     0     0
            gpt/zfs10TB3.eli        ONLINE       0     0     5
            replacing-3             DEGRADED     0     0     1
              gpt/zfs10TB4.eli      ONLINE       0     0     0
              12658230921378056351  UNAVAIL      0     0     0  was /dev/gpt/zfs10TB4sas.eli
            gpt/zfs10TB5.eli        ONLINE       0     0     3
        logs
          mirror-1                  UNAVAIL      0     0     0
            9782815034976825411     UNAVAIL      0     0     0  was /dev/gpt/ssdlog0
            9998429931304516180     UNAVAIL      0     0     0  was /dev/gpt/ssdlog1

errors: No known data errors
 
Nach nun 6 Stunden im anderen Gehäuse/Board läuft es problemlos. Keine Fehler beim resilvering. Nur dauert es immernoch 129h.

Was ich im Netz gefunden habe. Scheint mit dem Board zusammenzuhängen. Insbesondere in [2] wird das gleiche Phänomen ("removed" hdds) beschrieben.

"Remember, only 6 of the drives are using the Intel SATA controllers. The other 6 are on Marvell, and Marvell at least during the 9.3 days weren't recommended for use as the Marvell was much more flaky than acceptable for many people. " [1]

""Don't use the Marvell ports" is a pretty common refrain here. Replacing the power cable makes sense too. " [2]

"There's are known issues with the Marvell ports on those boards and dropped disks, if you want to continue to use them make sure they have the latest firmware available on the Asrock support site, it can fix or at least considerably mitigate the problem. " [2]

[1] https://www.ixsystems.com/community...o-reboot-during-a-resilver.55599/#post-389490 ff
[2] https://www.ixsystems.com/community...removed-during-resilvering.55575/#post-388160 ff

Was aber leider die Theorie, dass es einzig am Board liegt, sprengt, ist, dass das auch so ist mit Platten die am SAS2308 angeschlossen sind.

In dem anderen Gehäuse habe ich dieses Board:
https://www.supermicro.com/products/motherboard/atom/A2SDi-2C-HLN4F.cfm

Damit läuft es bis jetzt.
Wenn das durch ist, könnte ja dieses Board in das SC836 mit dem HBA einbauen?
(Und ich schließe nochmals ALLE Platten dieses pools an den HBA an...)

Grüße
 
Horror-Story, auf das Board wär ich nicht gekommen.

Dieser Vorgang wurde aber nie abgeschlossen da die Platten ja Probleme haben in dem SC836. Kann ich JETZT die zfs10TB4sas.eli removen? Oder wie ist das weitere Vorgehen?
So lassen bis der resilver durch ist, dann erst entfernen.

Was aber leider die Theorie, dass es einzig am Board liegt, sprengt, ist, dass das auch so ist mit Platten die am SAS2308 angeschlossen sind.
Für mich klingt das (habe die Threads ganz gelesen), als wäre das Board kompletter Murks. Daher sollte das mit dem Supermicro + HBA klappen.
 
es ist ein aerocool 700W ( https://www.aerocool.com.tw/de/psu/xpredator/xpredator-700w )
Was heisst ausschließen.. also ich bin kein Elektotechniker.

Jetzt läuft ein scrub auf den 4x 6TB der noch in der backplane steckt. Habe alle an den HBA gesteckt. Wenn der in 7h durch ist, würde das ja die Board-These stützen. Dann könnte ich den ans board-only anschließen und nochmal einen scrub machen..

Als nächstes würde ich dann den 5x 10TB Satz, wenn der in 60h fertig ist, auch an den HBA-only anschließen. Oder wie würdet ihr vorgehen? Das board habe ich nun auf dem "Kicker" und würde es am liebsten gleich rausschmeissen;)

Den Umbauaufwand ( C2550D4I raus, A2SDi-2C-HLN4F ins SC836 rein) würde ich aber gerne nur 1x machen;)

Wenn ich das richtig sehe, ist der Atom C3338 sogar etwas besser ist als der Avoton C2550.
 
Klingt ja schonmal sehr gut.

bin kein Elektotechniker.
Musst du auch nicht sein, es gibt sog. ATX-Prüfgeräte für echt kleines Geld. Das Ding hat viele Anschlüsse und zeigt dann alles relevante an/misst durch. 100%-Diagnosen kann das Ding naturbedingt nicht, weil es keine große Last simulieren kann. Dafür ist es schneller und sicherer (für einen selber!) als mit dem Multimeter. Aber wenn das Netzteil längere Zeit ein anderes Board problemlos betreibt, dann ist das aber bereits eine klitzekleine Gewissheit. :)

Dann könnte ich den ans board-only anschließen und nochmal einen scrub machen.
Jep, sicher ist sicher.

Als nächstes würde ich dann den 5x 10TB Satz, wenn der in 60h fertig ist, auch an den HBA-only anschließen.
4+5=9
Je Anschluß am HBA lassen sich doch ohne Expander nur 4 betreiben und der 2308 hat nur 2. Aber ja, ich würd primär den HBA bestücken und die SATA-Anschlüsse nur nutzen, wenn Expander/zweiter HBA nicht möglich wäre.

würde es am liebsten gleich rausschmeissen
CPU/RAM kann man sicher noch woanders benutzen, aber das nackte Board kann zur Dartscheibe gemoddet werden. :D
 
klar, der HBA hat nur 8 ports. Ich könnte aber einen mit 16 holen. Aber wenn das Supermicro board eh besser / schneller ist, und dort kann ich verm. auch die onboard ports wieder mitbenutzen, tausche ich die Board aus.

CPU/RAM kann man sicher noch woanders benutzen, aber das nackte Board kann zur Dartscheibe gemoddet werden. :D
achwas, ich verkaufe es hier im bsdforum :D

scrub am hba lief nun durch. jetzt stecke ich die platten auf onboard um, und mach nochmal einen scrub.
oder kann man den pool auch anderweitig "stressen" (Last erzeugen)?
 
Ich könnte aber einen mit 16 holen.
Denkst du da an einen bestimmten bzw. hast einen ausgewählt, der auf IT-Mode flashbar ist? Mir reichen bisher 8 Slots, aber man weiß ja nie, was die Zukunft bringt. ;)
Ich hab ein 2HE-Servergehäuse, da darf die Karte auch nicht fullsize sein. Gibts so einen HBA in halber Höhe mit 4 Slots überhaupt? Welches Gehäuse hast du nochmal und wie teuer war das?
Ich hab letztes Jahr meinem Paps einen Chenbro-Servertower (300€ irgendwas) besorgt, weil irgendwie ich zu blöd oder sonst nichts verfügbar war. Die andere Option wäre noch eins von Norco(?) gewesen, aber da hat mich ein Foto der Rezensionen abgeschreckt...zu knapp hinter der BP bemessen, daher Kabelknick schon garantiert. ;)

wenn das Supermicro board eh besser / schneller ist, und dort kann ich verm. auch die onboard ports wieder mitbenutzen
Öhm, ich glaube die HBAs sind immer noch unübertroffen hinsichtlich der Anbindung und dem Timing. Phoronix (?weiß ich nicht mehr genau) hat einen SAS2008 gegen die SATA-Slots gebencht, da sieht mans deutlich.
Du hast (wie ich) sogar einen SAS2308, der doppelt so schnell angebunden werden kann, wenn es das Mainboard mitmacht. Meins leider nicht. ;)

achwas, ich verkaufe es hier im bsdforum :D
Schlägerei! :D

kann man den pool auch anderweitig "stressen" (Last erzeugen)?
Ein scrub ist eigentlich genau das...es wird primär Konsistenz von allen Daten getestet und das 'Beiwerk' ist die Lasterzeugung jeder Platte (zumindest der befüllte Bereich). Der Rest wird die Zeit zeigen bzw. wie sich der Pool im idle verhält etc.
Aber ich denke, man kann das jetzt einfach genießen und aufs Board schieben - so wie davon erzählt wurde im Forum. Ist halt mal so, dass mittendrin ein Produkt Murks/Montagsmodell ist. Früher (gefühlt 1998-2000) mit den reihenweise ausfallenden Mainboards wegen den schlecht produzierten Kondensatoren waren ja viele Hersteller betroffen (man konnte es zumindest selber fixen) und ein Mainboard hat sich auch noch nicht wie ein Wegwerfartikel angefühlt.
 
> Denkst du da an einen bestimmten bzw. hast einen ausgewählt, der auf IT-Mode flashbar ist? Mir reichen bisher 8 Slots, aber man weiß ja nie, was die Zukunft bringt. ;)

habe damit keine Erfahrung, nur hier was gefunden: http://itramblings.com/2016/12/from-32-to-2-ports-ideal-satasas-controllers-for-zfs-linux-md-raid/

> Gibts so einen HBA in halber Höhe mit 4 Slots überhaupt?
sieht ned so aus


> Welches Gehäuse hast du nochmal und wie teuer war das?

Das andere, wo nun die 10TB platten am SuperMicro board hängen, ist ein SilverStone SST-DS380. Sehr hoche Plattendichte (8x 3.5" + Platz für ein paar SSDs). Das große ist ein supermicro sc836, welches ich vor vielen Jahren mal gebraucht bei ebay gekauft habe für ca 300-400 eur. Genau weiss ich es nicht. Dort habe ich aber das besagte 700W Netzteil drin liegen, da diese redundanten RZ-Netzteile ultra laut sind. Auch die Lüfter sind mit Drehzahlregler ergänzt oder gegen Noctua ausgetauscht. Mit vielen Platten muss man aber schon drauf achten dass es nicht zu heiss wird.

Das paktische an 16 HDD einschüben des SC836 ist halt, dass man locker mal mehrere Pools drin haben kann UND dann auch noch weitere(n) fürs Backup... klar, mir reichen für den Betrieb auch 8... aber ich nehme gerne mal ne Hand voll ältere, kleine HDDs (z.b.6TB) als Backup-Pool oder so.

> man kann das jetzt einfach genießen und aufs Board schieben...
Bin sehr froh dass die Ursache nun (verm.) gefunden wurde! Danke auch für die Hilfe dazu!

Grüße
 
LSI SAS2116 -> FreeBSD support: mps (first in FreeBSD 9.0) :)

da diese redundanten RZ-Netzteile ultra laut sind
Jep, Flugzeugturbine. Aber da hatte ich auch Muse und diesen Lüfter auch gegen einen noctua getauscht, das Kabel rausgeführt und nicht an der NT-Platine angeschlossen. Das war auch arg kriminell experimentell (:D), da der noctua nichtmal annähernd auf das Luftvolumen des originalen Lüfters kommt. Weil ich den Server aber lose auf dem Tisch liegen habe und nicht im Schrank zwischen zwei anderen Heizkraftwerken, hatte ich auf gütlich einberechnete Toleranzwerte gehofft und so wars dann auch - es reicht aus. ;)
Wie gesagt, 2HE...da passt ein normales NT nicht rein.

Mit vielen Platten muss man aber schon drauf achten dass es nicht zu heiss wird.
U.a. hatte ich deswegen bei der SAS-Platte die Trip-Temperaturen wissen wollen. ;)

Bin sehr froh dass die Ursache nun (verm.) gefunden wurde!
FreeBSD und ZFS sind erprobt, dieser HBA auch und von der 20.7er Firmware hört man auch nichts. Von daher blieb nicht viel übrig.:)

Danke auch für die Hilfe dazu!
Selbstverfreilich - geben und nehmen. ;)
 
oh menno lieber rakso - Du hast viel Geduld mit der Hardware. Ich denke, ich hätte längst einen Vorschlagshammer genommen ;-)

Aber ich kenne auch diese dummen Probleme - machen einen manchmal sehr müde...

Viele Grüße, Norbert
 
Hi ré,

danke für den Link. Da bleibt (insb. preislich) eigentlich nur das ASRock Rack C3758D4I-4L , aber hier stellt sich die Frage, ob ASRock da was aus dem Desaster mit dem C2550D4I gelernt hat und das Board besser ist?

Grüße, rakso
 
Hallo Rakso,

wenn ich die Preise sehe überlege ich ob du mit einem günstigem Board + Celeron + SAS HBA besser kommst?

Gruß ré
 
Zurück
Oben