Sorry, wenn ich den Thread nochmal bumpe, aber musste gerade daran denken und ich kann ja eigentlich auch ohne NDA-Bruch davon erzählen. Ich muss ja nicht auf das Projekt im Speziellen eingehen.
Im Jahr 2019 über mindestens 9 Monate war es in der Google Cloud Platform nicht möglich in Deutschland das Kontingent von CPUs, IPs und anderen Ressourcen zu erhöhen. Und ich rede hier auch von kleinen Erhöhungen, also weit unter dem worüber wir geredet haben. Das heißt, wenn man das Kontingent (das angesprochene Soft Limit) anheben will schlägt das fehl und der Support sendet eine E-Mail auf andere Regionen auszuweichen, was prima ist wenn man das aus Compliance-Gründen nicht tun kann und in Deutschland die Ressourcen braucht. Mal abgesehen davon dass es auch diverse andere Gründe geben kann, dass man Ressourcen in einer bestimmten Region braucht.
Was auch nett ist, ist dass die Standard-Antwort vom Support den Satz "please rest assured that we are working hard to resolve this issue and restricting access is an exceptionally rare event" beinhaltet hat. Großartig, wenn die keine Auskunft darüber geben können, wann es wieder Ressourcen gibt und das Ganze sich über Monate streckt.
Bitte auch berücksichtigen, dass war quer über alle Zones in der Region. Das heißt es war schlicht unmöglich, in Deutschland Ressourcen zu bekommen.
Und sucht einfach mal nach dem Thema. Klar, Cloud Provider hängen das nicht an die große Glocke, dass sie Probleme mit einem ihrer großen Selling Points haben, aber in einzelnen AZs passiert das noch häufiger. Hier mal die ersten drei Treffer bzgl. GCP.
I failed to start my instance (through the web browser), it gave me the error: "The zone 'projects/XXXXX/zones/europe-west4-b' does not have enough resources available to fulfill the request....
stackoverflow.com
not have enough resources available to fulfill the request try a different zone All of my machines in the different zone have the same issue and can not run. "Starting VM instance "home-1" fail...
stackoverflow.com
We are getting more often than not the error message when deploying to Google App Engine - GAE: The region europe-west3 does not have enough resources available to fulfill the request. Please try a...
stackoverflow.com
Und nein, das ist nicht die Meldung für die Soft Limits. Das sind bei denen Quotas.
War eine stressige Zeit damals, schon ohne dem Problem.
Gibt dann noch andere Themen, wie dass es mitunter schwierig sein kann wenn Produkte wie Load Balancer oder andere Services unangekündigte Änderungen haben, die Bugs bringen. Da habe ich aber bessere Erfahrungen. Auf echte Bugs reagieren alle großen Cloud-Anbieter sehr, sehr schnell. Auch auf Sicherheitslücken wird sehr schnell reagiert. Man darf halt nicht annehmen, dass nur weil da Google, Amazon oder sonst wer drauf steht, da keine Fehler passieren. Oder dass man selbst in keine reinläuft, nur weil die so viele Kunden haben. Auch muss man bedenken, dass drunter physische Hardware läuft, die ebenfalls Macken hat. Klar, da kann man schnell mal austauschen mit VMs - zumindest nicht wenn man beim neu anlegen nicht auf der eben gerade freigewordenen Maschine landet. Das kann schon mal passieren. Aber wie gesagt, der Support ist generell professionell und die Leute wissen, was zu elevaten und fixen ist. Oft genug erkannt das aber auch deren Monitoring. Kommt halt alles mal vor mit genug Instanzen. Und eben auch oben geschildertes. Da steht auch Google nicht allein damit da. Das betrifft Amazon und Microsofts Cloud genauso.
EDIT: Achja, nur weil das sicher kommen wird. Ja, das ist alles nichts spezielles bei Cloud-Anbietern. Das passiert Dedicated und mit eigenem DC auch. Meist hat man aber mehr Kontrolle und die Chance sich von einem Produkt abhängig zu machen ist auch kleiner. Zum Glück geht ja der Trend ein bisschen in die Richtung, dass man Hybrid Cloud macht, alles S3 spricht, man ohnehin mit Kubernetes, Nomad und Co. quatscht und man ganz generell nicht mit vendorspezifischen APIs kommuniziert sondern da irgendeine Art von Abstraktion davor ist. Dann ist es auch relativ egal, ob man jetzt beim einen oder anderen Cloud-Provider ist oder man das ganze im eigenen DC laufen hat.
Und darum geht's mir eben auch. Vieles von dem was man mit Cloud verbindet kann man sehr gut selber machen. Dinge sind standardisiert, abstrahiert, wenn Anwendungen State extern in einer DB haben dann macht das vieles einfacher, wenn man dann noch Minio, SeaweedFS oder sonst was nutzt und Storage abstrahiert, dann hat man sein S3-Interface, egal ob das jetzt bei Amazon, Backblaze oder auf dem NFS-Server liegt. Klappt auch alles wunderbar unter allen BSDs. Mit Nomad und pot oder Nomad und Executables oder einem Eigenbau und einer CI kann das der App-Entwickler auch nicht wirklich unterscheiden. Und dann bleibt nur noch die Frage, was man im Endeffekt Outsourcen will. Denn genau das ist es, wenn man einen Cloud-Anbieter nimmt. Outsourcing mit allen Vor- und Nachteilen. Aber das ist eine ähnliche Frage, wie wenn man vor 20 Jahren gesagt hat, hoste ich meine Website, mein Wordpress auf einem eigenen Server (im eigenen DC, auf einem dedicated Server, auf einem vServer), geh ich zu einem Webspace-Anbieter oder gar zu einem Wordpress-Hoster.
Wenn ich dann Firmen sehe, die sich denken sie machen jetzt Cloud weil sie im Grunde einen vServer haben, nur dass der halt bei Amazon ist und sie das zehnfache von jedem anderen vServer zahlen ohne irgendwie zu profitieren, weil es ein Standard-LAMP-Image ist, und so eben nicht skalieren können oder sonstige Vorteile haben, nichtmal das CDN aktivieren, dann merkt was der Hype und das Marketing teilweise anrichtet. Aber die Leute fühlen sich zukunftsorientiert.