Also korrekte Daten zu haben hilft natürlich. Aber ist trotzdem kein Garant.
Jetzt mal alles sehr sehr vereinfacht ausgedrückt:
Im Grunde ist ja das was LLMs ausgeben Ergebnis einer statistischen Betrachtung. Sprich: Das LLM guckt auf das das Du eingibst und was es selbst schon als Text produziert hat und versucht dann herherzusagen, welches das nächste Token ist und gibt das aus.
Ein Token ist - stark vereinfacht gesagt - ein Wort bzw. eine Silbe.
Das LLM selbst hat keine Vorstellung von der Bedeutungen der Worte. Das weiß nicht mal, das so was wie eine Versionsnummer eine Zahl sein muss.
Warum LLMs dann trotzdem Wissen wiedergeben können ist, das denen Sprache damit beigebracht worden ist, in dem man ihm viele Texte zeigt und es anhand dessen lernt, welche Worte in einem Zusammenhang stehen. Aber lernen nicht im Sinne Verstehen sondern eher Assoziation.
Um die Genauigkeit weiter zu erhöhen, haben LLMs häufig zusätzlich noch Zugriff auf einen Suchindex und können deshalb Texte noch lesen bevor sie eine Antwort geben, was die Genauigkeit erhöht. Aber die Unsicherheiten trotzdem nicht ganz weg kriegt.
Teilweise ist das technik-inhärent. Teilweise ist das aber auch menschen-gemacht da nach dem eigentlichen Daten ins Modell pressen noch eine Phase kommt, in der Antworten/Ausgaben bewertet werden und irgendwas was plausibel klingt tendenziell höher bewertet wird als gar nichts zu sagen oder zuzugeben, das man keine Antwort hat.
Unglücklicherweise werden diese Dinger gerne als Expertensystem vermarktet. Sind sie aber nicht.