Größe einer Information

grünschnabel · 7 Juli 2014

Hallo,

ich lese zur Zeit ein Skript über Datenkommunikation und verstehe etwas nicht so ganz beziehungsweise frage lieber nochmal nach bevor ich mir etwas falsch merke. Dort steht:

"Nachrichten und Informationen sind nicht identisch, insbesondere kann die gleiche Nachricht (mit gleicher Information) auf verschiedene Empfänger unterschiedliche Wirkung haben. Es gibt aber auch Nachrichten, die subjektiv keine Information enthalten.

Beispiel: Bei welcher Nachricht ist die Information größer?
a) Am 1. Juli war die Temperatur größer als 25 Grad.
b) Am 1. Juli betrug die Temperatur 29 Grad.

Bei a) gibt es nur zwei Möglichkeiten (kleiner/größer 25 Grad), bei b) sind theoretisch beliebig viele Möglichkeiten gegeben. Also ist bei b) die Information größer. Daraus folgt, daß Information mit der Zahl der Möglichkeiten zu tun hat.

Beispiel: Wie komme ich zu meiner Freundin?
Einfacher Weg: Sie wohnt in derselben Straße. Es gibt nur eine Entscheidung (nach rechts oder nach links gehen).
Komplizierter Weg: Es gibt mehrere Abzweigungen; bei jeder Gabelung muß entschieden werden, ob man rechts oder links geht.

Der Informationsgehalt einer Nachricht ist also feststellbar und wird durch die Anzahl der (rechts-links) Entscheidungen bestimmt und wird in "bit" gemessen. 1 bit entspricht dabei einer Entscheidung:

Einfacher Weg:Information 1 bit
Komplizierter Weg:2 Weggabelungen --> 4 Möglichkeiten, 2 bit
3 Weggabelungen --> 8 Möglichkeiten, 3 bit
4 Weggabelungen --> 16 Möglichkeiten, 4 bit
usw." Prof. Plate, Jürgen: "Datenkommunikation". URL: http://www.netzmafia.de/skripten/modem/dfue1.html#1.1 [07.07.2014]

Ich verstehe nicht warum beim ersten Beispiel bei b) beliebig viele Möglichkeiten gegeben sind. Dort steht doch, dass die Temperatur 29 Grad betrug, weshalb es ja nur 1 Möglichkeit gibt. Oder muss man das ganze unter dem Gesichtpunkt der Weggabelungen sehen? Dann würde es nämlich Sinn ergeben, weil bei Satz b) ja quasi "kein Weg" angegeben wird.

Mit freundlichen Grüßen
grünschnabel

worldi · 7 Juli 2014

grünschnabel schrieb:
Beispiel: Bei welcher Nachricht ist die Information größer?
a) Am 1. Juli war die Temperatur größer als 25 Grad.
b) Am 1. Juli betrug die Temperatur 29 Grad.

Ich verstehe nicht warum beim ersten Beispiel bei b) beliebig viele Möglichkeiten gegeben sind.

Wenn man die Beispiele als Fragen formuliert wird's klarer:

a) War's wärmer als 25 Grad? Mögliche Antworten: ja, nein.
b) Wie warm war's? Mögliche Antworten: beliebige Zahl

grünschnabel · 7 Juli 2014

Vielen Dank.

Kamikaze · 8 Juli 2014

Die Antwort ist zwar richtig aber die Erklärung ist etwas zu einfach.

Der Informationsgehalt einer Nachricht, hängt von der Wahrscheinlichkeit eines Ereignisses ab.

Ich würde die Wahrscheinlichkeit von Ereignis p_1: Temperatur > 25° auf ca. 50% schätzen.

Damit ist der Informationsgehalt I_1 = log(1 / p_1)/log(2) = 1

Die 2 kommt daher, dass es 2 Möglichkeiten gibt.

Die Anzahl der möglichen Antworten ist natürlich viel höher, aber weit von beliebig. Erst einmal haben wir eine Gruppenbreite von 1°C bei der Erfassung, zweitens gibt es eine begrenzte Anzahl möglicher Temperaturen. Der absolute Nullpunkt liegt oberhalb von -274°C. Werte über 100°C kann man im Grunde auch zu "Oh mein Gott, die Welt geht unter!" zusammenfassen. Haben wir 375 unterschiedliche Werte.

Die Wahrscheinlichkeit von 29° ist wahrscheinlich hoch. Sagen wir mal 5%.

I_29 = log(1/0.05)/log(375) = ~0.51

In diesem Fall gewinnt also die einfach ja/nein Frage weil der Informationsgehalt einer bestimmten Information von der Anzahl der Möglichkeiten beeinflusst wird. Je mehr Ereignisse zur Auswahl stehen, desto weniger ist eine einzelne Information wert. Entgegengesetzt gilt, eine seltenere Information ist mehr Wert. "Die Sonne ist pünktlich um 6:30" aufgegangen ist jetzt nicht besonders spannend. "Die Sonne ist heute mit 30 Minuten Verspätung aufgegangen" würde es in die Zeitung machen, wahrscheinlich über Jahre, wenn wir so ein kosmisches Ereignis überleben.

Wenn man die Temperaturen etwas realistischer eingrenzt auf, sagen wir mal 50 Werte, sieht der Informationsgehalt schon besser aus (an der Wahrscheinlichkeit des Ereignisses ändert das erst mal nichts, da die Werte die wir gerade zusammengefasst haben so ziemlich die Wahrscheinlichkeit 0 haben):
I_29b = log(1/0.05)/log(50) = ~0.77

Immer noch niedriger. Anders sieht es aus, wenn wir ein Ereignis 5°C am 1. Juli haben.
I_0b = log(1/0.001)/log(50) = 1.78

Die Information würde gewinnen.

grünschnabel · 8 Juli 2014

Ich verstehe es jetzt etwas mehr, danke.

ralli · 8 Juli 2014

Eine wunderschöne aber weltfremde Sichtweise aus der Perspektive von Menschen, die tatsächlich meinen, man könne den Wahrheitsgehalt einer Nachricht berechnen.
Wie stell ich mir das jetzt vor, soll ich mit dem Taschenrecher bei jeder Nachricht den statistischen Wahrheitsgehalt einer Nachricht berechnen und überprüfen?

Wie eine Nachricht verarbeitet wird, liegt an der Interpretation des Empfängers. Er bestimmt seinen persönlichen Wahrheitsgehalt durch die Brille seiner subjektiven Erfahrungen, gesellschaftlichen Konditionierungen und vieles mehr. Es gibt so etwas wie die selbsterfüllende Prophezeiung, die im Positiven wie im Negativen wirkt. Auch unser Unterbewußtsein spielt dabei keine untergeordnete Rolle. Es ist erwiesen, das die Wahrnehmung zu unterschiedlichen Tageszeiten auch sehr stark schwankt. Wenn nach einem langen und möglicherweise stressigen Arbeitstag die Kräfte schwinden, wirkt sich das auch auf die Wahrnehmung aus.

Tronar · 8 Juli 2014

Kamikaze, IMO ist das, was Du da schreibst, falsch. Der Informationsgehalt in Bit berechnet sich als Logarithmus zu Basis zwei (!) von der inversen Wahrscheinlichkeit, also: log(1/p)/log(2). Der Informationsbehalt in Byte wäre log(1/p)/log(256) usw. Wenn ein Ereignis mit 50 % Wahrscheinlichkeit eintritt, enthält die Nachricht seines Eintretens eine Information von 1 bit, unabhängig davon, ob es alternativ noch zehn mögliche andere Ausgänge mit je 5 % Wahrscheinlichkeit gegeben hätte oder was auch immer.
Eine Auswahl aus zwei gleichwahrscheinlichen Möglichkeiten hat grundsätzlich einen niederen Informationsgehalt als eine Auswahl aus drei gleichwahrscheinlichen Möglichkeiten. Bei Deiner Rechenmethode wären beide gleich eins. Zum oben ursprünglichen Beispiel:
Wenn man mir sagt, die Temperatur liege über 25 ⁰C, weiß ich etwas mehr. Wenn man mir sagt, sie betrage 29 ⁰C, weiß ich deutlich mehr. Diese Nachricht schließt ja jene mit ein, muß also einen höheren Informationsgehalt haben, ganz im Gegensatz zu dem, was Du sagtest.

Kamikaze · 8 Juli 2014

Ich beziehe mich auf Shannon.

Die Informationen sind nach Auftrittswahrscheinlichkeit statistisch komprimierbar (etwa wie bei Morse-Code). Wenn alle Wahrscheinlichkeiten gleich sind, ist das nicht mehr der Fall. Dann hat jeder Wert genau ein Bit Informationsgehalt.

Dann kann man aber immer noch semantisch komprimieren. Das kann man aber nicht mehr allgemein berechnen.

Tronar · 8 Juli 2014

Kamikaze schrieb:
Ich beziehe mich auf Shannon.

Das macht keinen Unterschied; was Du sagtest, ist trotzdem falsch. "Bit" ist mehrdeutig, es kann den Informationsgehalt bezeichnen (und ist dann gleichbedeutend mit Shannon) oder die einfache Datenmenge, die i. a. größer ist. Daß ich mich auf den Informationsgehalt bezog, ging eigentlich aus dem Kontext hervor.
Der Logarithmus wird grundsätzlich zur Basis 2 genommen, nicht zur Basis 375 oder was Du so daherbrachtest. Die Zahl der Möglichkeiten spielt keine direkte Rolle, nur eine indirekte dadurch, daß sie sich auf die Wahrscheinlichkeiten auswirkt.
Kamikaze, Du behauptest, wenn man mir "29 ⁰C" sagt, dann wüßte ich weniger, als wenn man mir sagt: "> 25 ⁰C" Das ist doch absurd!

Kamikaze · 8 Juli 2014

Du stellst die 2 Aussagen in den gleichen Kontext, das geht natürlich nicht, dann muss man sie ja zur gleichen Basis nehmen.

Aber so ist das ja nicht. Du hast 2 Separate Szenarien. Wie du selbst sagst hast du nur eine 1:2 Auswahl während du bei den 29°C ein ganz anderes Szenario hast, das einer 1:375 oder einer 1:256 Auswahl … die Basis ist nicht klar vorgegeben aber eine ganz andere.

Die inhaltliche Verwandschaft impliziert das die 2 Aussagen etwas miteinander zu tun haben - bei der Betrachtung des Informationsgehalts ist das aber nicht der Fall. Du hast zwei Sätze an Zeichen (Ereignisse), die nichts miteinander zu tun haben.

grünschnabel · 8 Juli 2014

So langsam bringt Ihr mich durcheinander...

Bei b) gibt es mehr Möglichkeiten, wenn man die Aussage in demselben Kontext versteht wie das 2. b), oder? Und deshalb ist ja auch der Informationsgehalt größer, was man mit der Logarithmusformel beweisen kann.

In dem Skript taucht zwar nur die Formel zum Shannonschen Informationsmaß H auf, aber ich denke mal, dass die Logarithmusformel irgendwie davon abgeleitet werden kann.

Tron · 8 Juli 2014

Einfaches Beispiel: Zahlen raten.
Ich denke mir zufällig gleichverteilt eine ganze Zahl von 0 bis 15 (einschließlich) aus, du musst sie erraten.

Jetzt habe ich hier zwei mögliche Tipps:
a) Die Zahl ist mindestens 8.
b) Die Zahl ist 12.

Welche der beiden enthält mehr Information?
Man kann den Informationsgehalt genau benennen:
a liefert 1 Bit Information, b 4 Bit.

Kamikaze · 8 Juli 2014

Der Unterschied ist hier, dass ich den Informationsgehalt auf die Anzahl verfügbarer Zeichen beziehe. Deshalb sind die Ergebnisse der 2 Beispiele nicht direkt vergleichbar.

Während ihr mit Bits rechnet arbeite ich mit Zeichen.

Wenn man das Beispiel I_29 mit 256 Zeichen rechnet:
log(1/0.05)/log(256) = ~0.54

Kann man das einfach *8 nehmen, dann kommt man auf 4.3219 Bit für die Information.

Was natürlich auch herauskommt, wenn man direkt die Basis 2 verwendet.

Tron · 8 Juli 2014

Mein Beispiel unterscheidet sich nicht fundamental vom Temperaturbeispiel.
Ich habe nur Grundmenge und Verteilung präzise angegeben und rundere Zahlen gewählt (so dass keine krummen Bits rauskommen).

Die Aussage "es hat 29 Grad" enthält mehr Information als "es hat mindestens 25 Grad", da erstere spezifischer ist.
Verwenden wir deine Grundmenge an Temperaturen (-274 bis 100, also 375 Werte) und setzen Gleichverteilung voraus (was du auch getan hast).
"= 29" hat einen Informationsgehalt von ~8,55 Bit (-ld(1/375)), ">= 25" nur von 2,30 Bit (-ld(76/375)), da davon 76 der möglichen Werte abgedeckt werden.

Tronar · 8 Juli 2014

Kamikaze schrieb:
Du stellst die 2 Aussagen in den gleichen Kontext, das geht natürlich nicht, dann muss man sie ja zur gleichen Basis nehmen.

Was immer Du mit "Kontext" meinst - es geht darum, eine Information über einen Zahlenwert zu erhalten, und dazu werden zwei Aussagen betrachtet. Die Definition des "Informationsgehalts" hat ja den einzigen Zweck, diese Aussagen vergleichbar zu machen.

Kamikaze schrieb:
Die inhaltliche Verwandschaft impliziert das die 2 Aussagen etwas miteinander zu tun haben - bei der Betrachtung des Informationsgehalts ist das aber nicht der Fall. Du hast zwei Sätze an Zeichen (Ereignisse), die nichts miteinander zu tun haben.

Trotzdem muß jede sinnvolle Definition von "Informationsgehalt" der Aussage "29 ⁰C" einen höheren Wert zuerkennen. Und das tut Shannon auch, aber er definiert sich anders, als Du es dargestellt hast, siehe z. B. die Wikipedia! Die Basis des Logarithmus ist eben nicht die Zahl aller möglichen Nachrichten, sondern nur die Zwei als Anzahl der verwendeten Buchstaben im Dualsystem. Daneben gibt es, wie ich gerade gelesen habe, auch die Einheit Hartley (fürs Dezimalsystem, also 1 Hart = log(10)/log(2) Sh), und wir Physiker haben was ganz Abgedrehtes, nämlich den natürlichen Logarithmus, und nennen das Entropie.
Grünschnabel, poste doch hier mal Deine Definition des Shannonschen Informationsgehalts H!

grünschnabel · 8 Juli 2014

"Das Shannonsche Informationsmaß H, oder kurz die Datenmenge, ist definiert als:

Dabei gilt:
N = Gesamtzahl der verwendeten Zeichen
pi = Wahrscheinlichkeit für das Auftreten des Zeichens i
ld = Logarithmus zur Basis 2
Sind alle Symbole gleichwahrscheinlich, vereinfacht sich die Formel zu: H = ld(N) bit

Anmerkung:
ld = logarithmus dualis: y = 2n --> n = ld(y)
Umrechnung: ld z = lg(z)/lg(2) = ln(z)/ln(2) (Basis beliebig)

Beträgt die Zeichenzahl N = 2n, so werden n bit übertragen. Man könnte dies als n aufeinanderfolgende Antworten auf jeweils eine Ja-Nein-Frage auffassen." Prof. Plate, Jürgen: "Datenkommunikation". URL: http://www.netzmafia.de/skripten/modem/dfue1.html#1.1 [08.07.2014]

Warum spricht der gute Mann plötzlich von Zeichen? In seinen vorherigen Beispielen tauchen nirgendswo Zeichen auf. Meint er damit vielleicht einfach die Möglichkeiten, z.B. die möglichen Temperaturwerte oder die möglichen Wege?

Tronar · 8 Juli 2014

grünschnabel schrieb:
Dabei gilt:
N = Gesamtzahl der verwendeten Zeichen
pi = Wahrscheinlichkeit für das Auftreten des Zeichens i
ld = Logarithmus zur Basis 2
Sind alle Symbole gleichwahrscheinlich, vereinfacht sich die Formel zu: H = ld(N) bit

Warum spricht der gute Mann plötzlich von Zeichen? In seinen vorherigen Beispielen tauchen nirgendswo Zeichen auf. Meint er damit vielleicht einfach die Möglichkeiten, z.B. die möglichen Temperaturwerte oder die möglichen Wege?

Ja, genau, die meint er. Bei Gleichverteilung ist also H = ld(n) = ld(1/p) = log(1/p)/log(2). Kamikaze meinte, H = log(1/p)/log(N), was bei Gleichverteilung immer eins ist.
Kamikaze, ich bin normalerweise nicht rechthaberisch, aber heute bin ich's doch.

grünschnabel · 9 Juli 2014

Danke nochmal ^^

ralli · 11 Juli 2014

Natürlich kenne ich Claude Elwood Shannon. Nach ihm wurde die Einheit des Informationsgehaltes einer Nachricht, das Shannon, benannt. Er scheint ein sehr kreativer Mensch gewesen zu sein. Auch kenne ich diese Seite:

http://www.netzmafia.de/skripten/digitaltechnik/index.html

und die Einführung in die Digitaltechnik von Prof. Jürgen Plate.

Die Aufgaben beziehen sich doch überwiegend auf die Wahrscheinlichkeitsrechnung (Stochastik) und ich fand diesen mathematischen Zweig schon immer faszinierend und interessant.

Gehört das alles zu den Grundlagen der Informatik und ist das auch Inhalt eines Informatikstudiums?

Mir fehlt ein bisschen der Bezug zur Lebenswirklichkeit. Muß ein heutiger Programmierer das alles wissen? Mich würden Bereiche interessieren, wo diese Theorien auch in der Praxis angewandt werden. Braucht das jemand von Euch in seinem Beruf?

Vorstellen kann ich mir, das es bestimmt auch einen Praxisschock gibt, wenn nach erfolgreichem akademischen Abschluß das alles umgesetzt werden muß. Nun der wissenschaftliche Anspruch ist ja gerechtfertigt, aber noch ein Mal, wo wird das im Berufsleben wirklich angewandt und gebraucht?

grünschnabel · 11 Juli 2014

Das würde mich auch interessieren.

Kamikaze · 11 Juli 2014

Viel relevanter als Shannon geht es eigentlich kaum. Das sind die Grundlagen für Kompression und Übertragungstechniken.

Klar, man kriegt das alles auch ohne das Wissen hin. Dann weiß man halt nicht was man da tut. Und das heißt in der Regel das man es schlecht macht.

ralli · 11 Juli 2014

Aha, jetzt hast Du mir zwei Bereiche genannt. Nehmen wir mal die Kompression als Beispiel. Ist es möglich, das ohne dieses Wissen das Fraunhofer Institut kein MP3 hätte entwickeln können? Dann wäre das ja eine konkrete Anwendung, wo das Wissen eingeflossen ist. Oder irre ich mich?

Kamikaze · 11 Juli 2014

Die Antwort ist ein klares Jein. Shannon zeigt die die Möglichkeiten und Grenzen verlustloser Kompression auf.

MP3 ist aber alles andere als verlustlos. Es basiert auf einem Psychoakustischen Modell. Dazu muss das Signal in seine harmonischen Schwingungen zerlegt werden (ich vermute dafür wird eine Fourier-Transformation verwendet). Dann hat man für jede Frequenz eine Amplitude und das Menschliche Gehör kann benachbarte Frequenzen die leiser sind nicht mehr hören (diese Kurven sind empirisch per Hörtests ermittelt). Das heißt man kann, wenn man irgendwo einen lauten Ton hat, den Großteil vom Rest wegwerfen.

MP3 ist also ein semantisches Kompressionsverfahren, das dazu noch verlustbehaftet ist (die Kompression funktioniert über Kontext statt über statistische Auftrittswahrscheinlichkeit). Das ganze hat ein paar Seiteneffekte, man muss die Zerlegung auf ein Zeitfenster anwenden und man kann keine Frequenzen erkennen bei denen die Schwingung nicht ins Zeitfenster passt. Das erzeugt entweder Probleme bei Bässen (bei einem kleinen Zeitfenster) oder viel Latenz (bei einem großen Zeitfenster). Deshalb ist MP3 kein gutes Verfahren zur Echtzeitübertragung.

Wenn Du dir aber zum Beispiel Text, Messdaten usw. anschaust, da kommt eine verlustbehaftete Kompression gar nicht in Frage. Stell dir mal vor Du hättest einen Text der nur zu 99% mit dem Original übereinstimmt. Das sähe dann aus als wäre der voller Tippfehler. Und 99% sind das bei MP3 nicht das liegt sehr deutlich unter 50%.

Als Informatiker stehst Du vor der Aufgabe Wirklichkeit zu modellieren. Dazu musst Du diese erkennen und das relevante vom irrelevanten trennen können. Aber eben auch mathematisch verstehen und beschreiben. Du musst die Welt nicht bloß qualitativ (was eher der menschlichen Intuition entspricht) erkennen, sondern quantifizieren.

Wenn Du in irgendeiner Klitsche GUIs nach einer Guideline zusammenklickst, brauchst Du das ganze KnowHow nicht (in den Guidelines steckt auch wieder eine menge "fachfremdes" KnowHow über menschliche Wahrnehmung, Gedächtnisleistung und Lernen). Aber sobald du etwas modellierst bist Du darauf angewiesen, dass dein Denken entsprechend geschult ist.

ralli · 11 Juli 2014

Danke Kamikaze für die Aufklärung und Deine interessanten Informationen. Ich habe gelesen, das der Codec Opus besser geeignet ist für die Echtzeitübertragung. Das Informatiker die Wirklichkeit abbilden, war mir nicht neu. Und deshalb sollten Sie von Ihrer zu lösenden Aufgabe wirklich Fachkompetenz besitzen. Nur ein wirklich guter Schachspieler kann deshalb auch nur ein starkes Schachspiel programmieren. Und die Modellierung spielt ja in der Wissenschaft auch eine große und wichtige Rolle. Und natürlich sind viele Probleme nur mit naturwissenschaftlichen Methoden zu lösen. Insgesammt ein faszinierendes Thema, so finde ich.

rubricanis · 12 Juli 2014

ralli schrieb:
Das Informatiker die Wirklichkeit abbilden, war mir nicht neu.

Na ja, sie bemühen sich. Das hat aber doch erhebliche Grenzen. Ich würde eher sagen sie erschaffen Wirklichkeit.

Informatiker bauen Maschienen die Daten verarbeiten, nicht mehr, aber auch nicht weniger. Der Rest ist Ideologie... :rolleyes:

Nur ein wirklich guter Schachspieler kann deshalb auch nur ein starkes Schachspiel programmieren.

Also das bezweifele ich ernsthaft. Wenn die Beherrschung der Sache Voraussetzung wäre um die entprechenden Programme schreiben zu können, dann gebe es nur recht wenige Programme.

Und natürlich sind viele Probleme nur mit naturwissenschaftlichen Methoden zu lösen.

Na gut, eine bestimmte Klasse von Problemen lassen sich (vielleicht) mit Naturwissenschatlichen Methoden lösen. Im übrigen ist Informatik keine Naturwissenschaft.

Größe einer Information

Well-Known Member

wirrköpfiger Philosoph

Well-Known Member

Warrior of Sunlight

Well-Known Member

ralli

Guest

aus Überzeugung altmodisch

Warrior of Sunlight

aus Überzeugung altmodisch

Warrior of Sunlight

Well-Known Member

Well-Known Member

Warrior of Sunlight

Well-Known Member

aus Überzeugung altmodisch

Well-Known Member

aus Überzeugung altmodisch

Well-Known Member

ralli

Guest

Well-Known Member

Warrior of Sunlight

ralli

Guest

Warrior of Sunlight

ralli

Guest

Homo ludens

Wir schützen deine Privatsphäre