Homöopathie wirkt nicht. Da können sich die DHU (die “Deutsche Homöopathie Union”), die Ärzte, Heilpraktiker, und Konsumenten, die diesem Schmarrn aufgesessen sind, und die Krankenkassen noch so anstrengen, sie tut’s einfach nicht. Um medizinisch als “wirksam” zu gelten, muss eine Wirkung gefunden werden. In der Medizin machen wir das mit klinischen Studien.

Um sicherzustellen, dass Dinge, die z.B. nach der Gabe eines Mittels passieren, auch wirklich durch die Gabe des Mittels ausgelöst werden, hat sich die Wissenschaft auf ein auf den ersten Blick einfaches Verfahren geeignet. Eine Gruppe A bekommt das Mittel, eine Gruppe B ein Plazebopräparat. In anderen Studien wird manchmal auch Gruppe B mit einem bekannt wirksamen Präparat oder eine Gruppe C mit diesem in die Studie aufgenommen. Das Witzige hier ist, dass während der Gabe des Präparats weder die Empfänger als auch die Geber wissen, wer welches Präparat bekommt. Erst nach dem Abschluss aller Tests wird die Verteilung “entblindet”, dann weiß man also, wer was bekommen hat.

Um das Ganze auf eine wissenschaftliche Basis zu stellen, hat man den “p-Wert” eingeführt. “p” bedeutet “probability” und damit Wahrscheinlichkeit. Ein sehr kleiner p-Wert bedeutet, dass etwas sehr unwahrscheinlich zufällig ist, ein grosser p-Wert zeigt auf sehr zufällige Sachen. Ein p von 1 ist “absolut zufällig”, und (darauf hat man sich geeinigt), alle p-Werte unter 0.05 sind “nicht mehr zufällig”. In der Welt der Studien spricht man dann von “signifikant”. Man will seine Testgruppen mit einem sehr hohen p-Wert haben, es würde zum Beispiel nichts bringen, wenn in einer Gruppe nur Männer mit Bürojobs und in der anderen nur Frauen in Führungspositionen sind. Wenn sich in beiden Gruppen beide Typen von Testpersonen etwa gleich verteilt befinden, dann ist A ≈ B und damit p ziemlich nahe an 1.

Wen’s interessiert, hier gibt es eine sehr gut gemachte Einführung auf YouTube, die den p-Wert eklärt.

Natürlich ist das nicht ganz so einfach. Man kann den p-Wert nämlich quälen. Oder, um Ronald Coase zu zitieren: “Man muss die Daten nur so lange foltern bis sie gestehen.” Das Journal Nature hat dazu einen tollen Artikel.

Ganz unten, nachdem ich Euch durch Code und wüste Fachwörtersammlungen gequält habe (ich mach’s einfach, ich verspreche es), erkläre ich, warum dieser Ansatz trotzdem funktioniert.

Achtung, jetzt wird’s etwas technisch. Ich zeige alle Schritte hier auf, auch das ist wie Wissenschaft funktioniert: man muss nicht alles verstehen, man muss nur jemanden kennen, der es tut. Man vertraut darauf, dass alle Daten von der Seite, die eine Behauptung aufstellt, publiziert werden, und dass Andere, die diese Daten auch verstehen, das Ergebnis und wie man dort angekommen ist, überprüfen.

Das “outcome” einer ordinären Homöopathie-Studie

Hier gibt es keinen Zweifel. Wer zwischen “Wasser ohne was drin” und “Wasser ohne was drin” eine Studie macht, der bekommt mit recht hoher Wahrscheinlichkeit ein Resultat in dem die originale Annahme (“Präparat macht die Migränekopfschmerzen besser erträglich”) mit einem p-Wert von höher als p=0.05 als “nicht signifikant” zurück kommt.

Was jetzt? Als DHU oder wer auch immer etwas von der Tatsache hat, dass Homöopathie wirkt, will ich das Ergebnis überhaupt nicht sehen. Jetzt habe ich also mehrere Optionen:

  • Ich publiziere meine Ergebnisse einfach nicht, damit ist keine Klarheit geschaffen und ich kann weiterhin behaupten, dass mein Präparat “anekdotisch wirksam” ist, also dass der Onkel meiner Mitarbeiterin es damals in 1984 genommen hat, und seine Kopfschmerzen waren wie weggeblasen.
  • Ich mache meine Studie nicht blind (oder entblinde in Intervallen) und höre genau dann auf, wenn mein p<0.05
  • Ich stelle nicht eine Annahme sondern hunderte, dann publiziere ich nur die, bei denen p<0.05. Als Beispiel könnte ich zum Beispiel sehen, ob in der Studie Frauen in ihren 20ern, die Abitur haben, und in einer Führungsposition arbeiten, ein p<0.05 in ihren Angaben zum Hungergefühl während der Studie bekommen. Wenn dem so ist, dann ignoriere ich, dass ich eigentlich nach Migräne gesucht habe, und publiziere eine Studie, dass Homöopathie wirksam gegen Hungergefühle ist.
  • Ich reduziere das Datenset so lange, bis in einer Subgruppe p<0.05 heraus kommt. xkcd hat das mal ganz toll illustriert. Hier führt die originale Studie (“Verursachen Jelly Beans Akne?”) zu der Aussage “Green Jelly Beans linked to Acne”.
  • Ich werfe “Kovariablen” in den Mix. Eine Kovariable ist eine Variable, die in einer Untersuchung nicht den Ausschlag gibt, aber die für die Modellbildung entscheidenden Variablen beeinflusst.
  • Ich werfe einfach Partizipanten aus der Studie, bis es zwischen den beiden Sets ein p<0.05 gibt. In guten Studien wird vorher schon ganz genau festgelegt, wer aus der Studie disqualifiziert wird. In schlechten Studien wird das sehr schwammig gehalten. So wurde in einer mir bekannten Studie zur psychomotorischen Wirkung eines Präparats (keine Homöopathie), die “Gemütslage” als Kriterium genannt, und Psychologen im Stab der untersuchenden Gruppe schlossen nachträglich Teilnehmer aus.

Beispiel 1: Höre auf zu sammeln, wenn Du das gewünschte Ergebnis hast

Hier ein Beispiel zum “Höre auf, Daten zu sammeln”. Was jetzt folgt ist “R”, eine Programmiersprache, welche in der Statistik sehr beliebt ist, und welche, zusammen mit SPSS, in mindestens 90% aller Studien eingesetzt wird, um Werte zu bekommen.

Wenn man das in R eingibt, dann ergibt sich der folgende Graph:

Was das bedeutet erkläre ich gleich. Aber erstmal zum Programm selbst:

Wir erstellen zufällige Zahlen in den Zeilen 1-3. So schaut das aus, wenn man sich 100 Zahlen so erstellen lässt:

In den Zeilen 5 und 6 rufen wir einen einfachen Test auf, den Anderson-Darling Test1. Dieser (ich hab’s ja gesagt, dass es etwas geekiger wird) testet, ob die Häufigkeitsverteilung der Daten einer Stichprobe von einer vorgegebenen hypothetischen Wahrscheinlichkeitsverteilung abweicht. In der Konsole sollte dann sowas wie AD 5.608129e-05 stehen.

Dann wird in Schritten von 5 “Kandidaten” (Zufallszahlen) geschaut, ob diese einen p-Wert von p<0.05 ergeben, das heißt ob es eine Wahrscheinlichkeit gibt, dass sie nicht zufällig sind.

Dieser p-Wert wird dann in plot(u,v,type="s",ylim = rev(range(v)),xlab="Sample Size") umgekehrt (also 0 auf der Y-Achse oben) als Bild dargestellt, und eine rote Linie wird gezogen wo 0.05 ist.

Und, voila, schon wissen wir, welche Sample Size wir brauchen um etwas das sehr zufällig ist, signifikant erscheinen zu lassen.

Beispiel 2: Verschiebe die Faktoren

The FiveThirtyEight hat ein tolles Tool mit dem man diesen Ansatz “live” testen kann. Dort werden nicht zufällige Zahlen sondern die aktuellen, akkuraten, Zahlen aus der Wirtschaft der USA seit 1948 genommen. Indem man Schieber verschiebt (wen man in die Studie aufnimmt, für was man testet, und wie man testet), kann man Demokraten oder Republikaner gut oder schlecht für die Wirtschaft machen. Probiert’s aus.

Beispiel 3: Shotgunning

Wenn man genug Studien anstellt, muss sich auch bei extrem zufälligen Daten mal ein Datenset ergeben, welches, so ist das halt mit dem Zufall, signifikant erscheint. Dr. Ben Goldacre, ein Arzt welcher sich den Kampf gegen “Bad Data” auf die Fahnen geschrieben hat, erzählt einige dieser Geschichten in seinem Buch “Bad Pharma”. Hier stellten Pharma-Unternehmen statt einer Studie gleich 20 parallel an, verwarfen die, die nicht signifikant waren, und publizierten, mit etwas Glück (oder Zufall), dann die eine, die es war. Homöopathen haben es da noch einfacher, die Entwicklungskosten und Herstellungskosten für Wasser sind sehr, sehr, gering, man kann also viele Studien nebeneinander machen, und muss sich nicht einmal Protokolle für unerwünschte Nebenwirkungen einfallen lassen.

Was tun?

Die Homöopathie (und, generell, jede Forschung) zu sehr hohen Standards halten. Teilweise ist die Publikation jeder klinischen Studie schon heute absolut vorgeschrieben. Webseiten wie das Deutsche Register für Klinische Studien (DRKS) zeigen an, welche Studien gerade durchgeführt werden oder schon abgeschlossen sind. Studien die man hier findet, deren Ergebnisse aber nicht nach einer guten Wartezeit publiziert sind, sind wohl nicht ganz so doll gelaufen. Hier kann man auch Shotgun Studien finden, wenn sie denn gemeldet sind. Die Homöopathie muss dazu aufgefordert werden, alle Studien dort anzumelden, wenn sie weiterhin in Apotheken verkauft und von den Kassen bezahlt werden will.

Um das Goalposten zu verhindern, muss die Wissenschaft darauf bestehen, dass nur vorher publizierte Outcomes erwogen werden dürfen. Nur weil sich zufällig eine Korellation zwischen Männern mit Bart und Kopfschmerzen bei Belladonna D30 ergibt, heisst das noch lange nicht, dass eine Studie zur Wirksamkeit von Belladonna D30 als Schlafmittel “erfolgreich” war oder die Effiaizie der Homöopathie bewiesen hat.

Studien sind gut, Meta-Studien sind besser. Gerade bei extraordinary claims, Psychopharmaka oder Homöopathie, zum Beispiel, in denen der Wirkungsweg nicht erklärt werden kann, müssen Studien replizierbar sein und repliziert werden. Erst wenn 5+ Studien unter den selben Bedingungen ein similares oder analoges Ergebnis erbracht haben, und die Meta-Analyse immer noch Signifikanz zeigt, kann man von Effiazie ausgehen. Psychopharmaka tut das schon heute, bei der DHU muss man froh sein, wenn man noch ein paar Anekdoten zusammen mit dem Strom der Beleidigungen als “Schulmediziner” bekommt. Immerhin: eine strikt reglementierte Studie ist besser als keine.

Trotz dem Gloom Szenario oben: gute Forschung existiert. Sie wird jeden Tag in Laboren und Klinken um die ganze Welt durchgeführt. Als Mediziner, Psychologen, Wissenschaftler, sind wir an der Wahrheit interessiert. Die, die mit Behauptungen Geld machen, die, die Präparate verkaufen wollen, manchmal weniger. Diese Gruppen müssen aus der Forschung zu gunsten von unabhängigen Drittforschern zurückstehen, und sich extra Überprüfen lassen, wenn sie es dann doch nicht tun. Dies gilt für Bayer, Stada, Boeringer, etc. genau so wie für die DHU oder andere Hersteller von Wasser und Zucker.

Share This