Die Vorgeschichte
Zwischen 2003 und 2012 war ich für eine Reihe von kleinen Mailservern (damals Postfix/Cyrus IMAP) verantwortlich und mit den verschiedenen „Before Queue“-Maßnahmen konnten wir damals schon etwa 90 % des hereinkommenden Spams abblocken. Allerdings gab es und gibt es immer noch diesen Rest, der auf die eine oder andere Weise dann doch durchkommt, und dafür hatte ich damals einen After-Queue-Spam-Filter mit CRM114 aufgesetzt. Der basiert auf einem „Markov Random Field“-Algorithmus der im Gegensatz zum einfachen Bayes-Spamfilter ganze Phrasen statistisch auswertet und von daher mit einer wesentlich höheren Präzision arbeitet. Das konnte ich damals bestätigen, mit dem Bayes-Spamfilter in SpamAssassin lag die Fehlerrate bei uns bei ca. 30 %. Beim CRM114, dessen Datensatz strikt via TOE (Training on Error) gefüttert wurde, lag die falsche Klassifizierung bei etwa 1 von 2000, d. h. 0,025 % falsch positive und 0,025 % falsch negative E-Mails. Die Gesamteffizienz der Spam-Bekämpfung lag also bei 99,9975 % (90 % "Before Queue" + 9,9975 % "After Queue"), d.h. nur 1 von 40000 Spams schaffte es in den Posteingang eines Benutzers.
11 Jahre später
Anfang diesen Jahres, habe ich wieder einen Mail-Server, diesmal mit Postfix/Dovecot unter FreeBSD aufgesetzt, wieder für eine kleine Firma, etwa 50 Benutzer. Einige der Konten waren mehr als 20 Jahre in Betrieb, und trotz der „Before Queue“-Maßnahmen kam da unerträglich viel Müll durch. Einige Benutzer haben mir geholfen, eine Stichprobe von knapp 1500-Spam-Mails zu sammeln. Aus einigen einschlägigen Postfächern haben wir dann noch 1500 (verifiziert) gute Mails zusammengestellt, und CRM114 mit dem Markov-Algorithmus damit abwechselnd per TOE trainiert, nämlich jeweils 1 Spam-Mail, dann 1 Good-Mail.
Vor einer Woche habe ich den CRM114-Filter schließlich aktiviert. An den ersten 2 Tagen gab es noch eine Handvoll falsche Klassifizierungen, die trainiert wurden. Seitdem ist Ruhe im Karton - 100 Spams pro Tag, die nicht ihr Ziel erreichen sondern in einem speziellen Junk-Konto landen.
Wenn die Empfänger im Schnitt 1 min ihrer Arbeitszeit mit Spam opfern (manche Spams sind schneller aussortiert, bei anderen muß man in die Header schauen bzw. schauen lassen, um zu sehen daß es sich z.B. um eine Fake-Rechnung handelt), dann kommt man bei Arbeitskosten von ca. 50 €/h im Jahr auf Spam-Kosten für ein kleines Unternehmen von 100 min/d * 365 d / (60 min/h) * 50 €/h = 30416,67 €. Das haben wir jetzt gespart, und wieder frage ich mich, wieso CRM114 so ein Schattendasein führt.
Zwischen 2003 und 2012 war ich für eine Reihe von kleinen Mailservern (damals Postfix/Cyrus IMAP) verantwortlich und mit den verschiedenen „Before Queue“-Maßnahmen konnten wir damals schon etwa 90 % des hereinkommenden Spams abblocken. Allerdings gab es und gibt es immer noch diesen Rest, der auf die eine oder andere Weise dann doch durchkommt, und dafür hatte ich damals einen After-Queue-Spam-Filter mit CRM114 aufgesetzt. Der basiert auf einem „Markov Random Field“-Algorithmus der im Gegensatz zum einfachen Bayes-Spamfilter ganze Phrasen statistisch auswertet und von daher mit einer wesentlich höheren Präzision arbeitet. Das konnte ich damals bestätigen, mit dem Bayes-Spamfilter in SpamAssassin lag die Fehlerrate bei uns bei ca. 30 %. Beim CRM114, dessen Datensatz strikt via TOE (Training on Error) gefüttert wurde, lag die falsche Klassifizierung bei etwa 1 von 2000, d. h. 0,025 % falsch positive und 0,025 % falsch negative E-Mails. Die Gesamteffizienz der Spam-Bekämpfung lag also bei 99,9975 % (90 % "Before Queue" + 9,9975 % "After Queue"), d.h. nur 1 von 40000 Spams schaffte es in den Posteingang eines Benutzers.
11 Jahre später
Anfang diesen Jahres, habe ich wieder einen Mail-Server, diesmal mit Postfix/Dovecot unter FreeBSD aufgesetzt, wieder für eine kleine Firma, etwa 50 Benutzer. Einige der Konten waren mehr als 20 Jahre in Betrieb, und trotz der „Before Queue“-Maßnahmen kam da unerträglich viel Müll durch. Einige Benutzer haben mir geholfen, eine Stichprobe von knapp 1500-Spam-Mails zu sammeln. Aus einigen einschlägigen Postfächern haben wir dann noch 1500 (verifiziert) gute Mails zusammengestellt, und CRM114 mit dem Markov-Algorithmus damit abwechselnd per TOE trainiert, nämlich jeweils 1 Spam-Mail, dann 1 Good-Mail.
Vor einer Woche habe ich den CRM114-Filter schließlich aktiviert. An den ersten 2 Tagen gab es noch eine Handvoll falsche Klassifizierungen, die trainiert wurden. Seitdem ist Ruhe im Karton - 100 Spams pro Tag, die nicht ihr Ziel erreichen sondern in einem speziellen Junk-Konto landen.
Wenn die Empfänger im Schnitt 1 min ihrer Arbeitszeit mit Spam opfern (manche Spams sind schneller aussortiert, bei anderen muß man in die Header schauen bzw. schauen lassen, um zu sehen daß es sich z.B. um eine Fake-Rechnung handelt), dann kommt man bei Arbeitskosten von ca. 50 €/h im Jahr auf Spam-Kosten für ein kleines Unternehmen von 100 min/d * 365 d / (60 min/h) * 50 €/h = 30416,67 €. Das haben wir jetzt gespart, und wieder frage ich mich, wieso CRM114 so ein Schattendasein führt.
Zuletzt bearbeitet: