Sie sind hier: Startseite Lehrbücher Methodik klinischer … Kapitel 1

Kapitel 1

Kontrollierte klinische Studien - eine Einführung

Martin Schumacher und Gabi Schulgen

Die Erforschung und Entwicklung neuer Therapien in der Medizin fin­det in der Regel nur in kleinen Schritten statt. Bahnbrechende Erfolge in der Entwicklung innovativer Behandlungen zur Heilung bislang in­kurabler Erkrankungen waren in der Vergangenheit selten und sind auch in Zukunft kaum zu erwarten. Doch auch vergleichsweise kleine Effekte neuer Therapien können klinisch relevant sein und beträchtli­che Auswirkungen auf das Wohl­befinden des individuellen Patienten haben. Um die Wirksamkeit und Verträglichkeit neuer Therapien zu belegen, ist ihre systematische Erprobung und Überprüfung in klinischen Studien erfor­der­lich. Der erste Einsatz einer erfolgversprechenden medizinischen Be­hand­lung am Men­schen sollte daher als klinisches Experiment verstanden werden, mit dem Ziel, die Wirk­sam­keit der Therapie und ihre Verträglichkeit nach­zuweisen.

Der traditionelle Wirksamkeitsnachweis bestand lange Zeit darin, den Behand­lungserfolg neuer Sub­stanzen mit den Ergebnissen zu vergleichen, die in einem vorausgegan­genen Zeitraum mit herkömmlichen Verfahren erzielt wurden. Dieser sogenannte historische Vergleich hat jedoch vielfach nicht zu überzeugenden Er­kenntnissen geführt. So wurden beispielsweise bei der Behandlung der pulmona­len Tuberkulose bis Mitte dieses Jahrhunderts viele - wie wir heute wissen - un­wirk­same Therapien über eine lange Zeit hinweg verabreicht. Die in Abbildung 1 dar­ge­stellte positive Entwicklung der Tuberkulose­sterblichkeit, die mit einer Ver­bes­serung der allgemeinen Lebens­be­dingungen einherging, wurde vielfach als Nach­weis der Wirksamkeit neuer Be­hand­lungen herangezogen (Silverman, 1985; McKeown, 1976). Obwohl der Erre­ger der Tuber­kulose bereits 1882 identifiziert wurde, konnte erst im Jahre 1944 das erste Antibio­tikum Streptomycin zur wirk­samen Behandlung der pulmo­na­len Tuber­kulose in den USA entwickelt werden. In dieser Zeit war die Tuber­ku­lo­se die häufigste medizinische Todesursache bei jun­gen Erwachsenen in Europa und den USA.

Die begrenzte Verfügbarkeit dieses neuen Medikaments sowie der variable Ver­lauf der Erkrankung erhöhten die damaligen Anforderungen an einen Wirk­sam­keits­nachweis. Die Streptomycin-Studie des British Medical Research Council (MRC) zur Behandlung der pulmonalen Tuberkulose, die im Jahre 1947 durch­geführt wurde, war daher die erste randomisierte kontrollierte Studie, die weltweit durch­geführt wurde (Ederer, 1998; Sutherland, 1998). Aufgrund des variablen Ver­laufs der Erkrankung wurde es als notwendig erachtet, zeitgleich eine Kon­troll­gruppe mitzuführen, die die Standardbehandlung (Bettruhe) erhielt. Nicht nur das Mitführen einer parallelen Kontrollgruppe war für die damalige Zeit revo­lu­tionär; darüber hinaus wurde mit dieser Studie erstmalig die randomisierte, d.h. die zu­fällige Zuordnung der Patienten zur Therapie- und Kon­troll­gruppe einge­setzt. Die Randomisation war Mitte der zwanziger Jahre von Ronald A. Fisher in landwirt­schaftlichen Ver­suchen eingeführt worden. Es war das besondere Ver­dienst von Sir Austin Bradford Hill, Mitglied des MRC, dieses Prinzip auch in die klinischen Versuche einzuführen und dort zu etablieren (Hill, 1951; Gail, 1996).

 
  Abbildung 1

 

Abbildung 1: Entwicklung der Sterblichkeit verursacht durch die pulmonale Tuberkulose in England und Wales im Zeitraum von 1838 - 1978 (Silverman, 1985; McKeown, 1976).

Wir werden im Folgenden anhand einer konkreten Studie, der Salk-Polio-Studie, die wesentlichen Punkte der Bedeutung randomisierter klinischer Studien anspre­chen. Die Salk-Polio-Studie ist zwar keine klinische Studie im engeren Sinne; sie ist eher als Prä­ventions­studie im öffentlichen Gesundheitswesen zu bezeich­nen. Diese Studie ist jedoch in historischer Hinsicht interes­sant, da sie als größtes Ex­periment gilt, das je im öffentlichen Gesund­heitswesen durchgeführt wurde, und sie ist darüber hin­aus vom methodischen Standpunkt auch heute noch aktuell (Francis et al., 1955; Meier, 1985; Meier und Pringle Smith, 1998).

1.1 Die Salk-Polio-Studie

In den frühen fünfziger Jahren war in den USA die Frage zu klären, ob durch eine Impfung mit dem von Jonas Salk entwickelten Impfstoff eine Reduzierung der Inzi­denz (Neuerkrankungsrate) der Poliomyelitis erreicht werden kann. Dazu stan­den verschiedene Vorgehensweisen zur Debatte:

Die einfachste Möglichkeit schien in der Durchführung eines histori­schen Ver­gleichs zu bestehen, d.h. im Jahre 1954 möglichst viele Kinder in den ent­spre­chenden Altersgruppen (im Wesentlichen der Primary School) zu impfen und die Polio-Inzidenz dieses Jahres mit den Inziden­zen der Vorjahre zu vergleichen. Die Neuerkrankungsrate an Polio betrug zu dieser Zeit in den Vereinigten Staaten etwa 50 pro 100000, unterlag jedoch be­trächtlichen jähr­lichen Schwankungen wie aus Abbildung 2 deutlich zu erkennen ist.

 

 
  Abbildung 2

Abbildung 2: Anzahl Poliofälle in den USA während der Jahre 1931 bis 1955 (Francis et al., 1955).

 

Man konnte also nicht ausschließen, dass aufgrund dieser Schwankun­gen die Inzi­denz des Jahres 1954 auch bei Wirkungslosigkeit des Impf­stoffes geringer als im Vorjahr sein würde. Das Auftreten einer Epidemie hätte andererseits die Inzi­denz derart erhöhen können, dass eine tatsächliche Wirkung des Impfstoffes nicht er­kannt worden wäre. Daher musste diese retrospektive Vorgehensweise des hi­sto­rischen Ver­gleichs a priori verworfen werden.

Als nächste Möglichkeit bot sich die Durchführung einer prospektiven Beobach­tungs­studie an, bei der etwa den Eltern der Kinder in den entsprechenden Alters­gruppen eine freiwillige Teilnahme an der Impfaktion angeboten würde. Die Inzi­denz der Poliomyelitis in der Kohorte der geimpften Kinder hätte dann mit der Polio-Inzidenz in der Kohorte der nicht geimpften Kinder verglichen werden kön­nen. Bei diesem Vorgehen - so wurde befürchtet - würde die Zustim­mung zur Teilnahme an der Impfaktion wesentlich vom sozio-ökonomischen Status und dem Gesund­heitsbewusstsein der Eltern bestimmt sein, das wiede­rum, wie man wusste oder zumindest vermutete, auch einen Einfluss auf das Auftreten der Po­liomyelitis hatte. Man musste also - wie beim historischen Ver­gleich - davon aus­gehen, dass Impf- und Kontrollgruppe nicht vergleichbar sein würden.

Man entschied sich schließlich für eine randomisierte kontrollierte Studie, bei der die Kinder der Eltern, die ihre Einwilligung zur Teilnahme an der Studie gegeben hatten, der Impf- und der Kontrollgruppe randomisiert, d.h. zufällig zugeteilt wur­den. Auf diese Weise sollten offenkundige und weniger offenkundige Selek­tions­­mecha­nismen ausgeschlossen werden, die das Studienergebnis hätten ver­fäl­schen können. Darüber hinaus befürchtete man eine Verfälschung der Studien­er­geb­nisse durch mögliche Voreinge­nommenheit der untersuchenden Ärzte bei der Diag­nose der Polio­mye­litis bei geimpften und nicht-geimpften Kindern. Um auch diese Ver­zerrungsquelle auszuschließen, entschied man sich für die Durch­führung einer doppel-blinden Studie, bei der weder die Kinder (bzw. de­ren Eltern) noch die impfen­den und untersuchenden Ärzte wussten, ob mit dem Salk-Impf­stoff oder aber nur mit Plazebo geimpft worden war. (Mit Plazebo wird ein Stoff be­zeichnet, der wirkungslos - z.B. Koch­salzlösung - mit dem eigentlichen Wirk­stoff jedoch äußer­lich identisch ist). Kapitel 11 geht detailliert auf verschiedene Methoden der Randomisation und Formen der Therapieverblindung ein.

Bei den über 400 000 Kindern, die an der randomisierten Studie teilnah­men, zeigte sich, dass die Inzidenz in der Gruppe der geimpften Kinder nur etwa halb so groß war wie in der Gruppe der unbehandelten Kinder: nur 82 Kinder der ge­impf­ten Gruppe gegenüber 162 Kinder der Kontrollgruppe erkrankten an Polio (Ta­belle 1).

Tabelle 1: Ergebnis der Salk-Polio-Studie: Anzahl der an Polio erkrankten und der gesun­den Kinder in den Interventionsgruppen (Francis et al., 1955).

Impfung

Polio

 

Ja

Nein

Ja

82

200 663

Nein

162

201 067

 

Die Stichprobenumfänge für diese Studie scheinen auf den ersten Blick immens hoch - wir werden in Kapitel 10 auf die Begründung eingehen. Sicher ist jedoch das überzeugende Ergebnis dieser Studie, die ohne jeden Zweifel einen Meilen­stein in der Bekämpfung der Poliomyelitis darstellte, auch wenn schon einige Jahre später der Salk-Impfstoff durch neue, bessere Vakzine abgelöst wurde.

1.2 Die Problematik historischer Vergleiche

Am Beispiel der Salk-Polio-Studie haben wir bereits Gründe für die Durchführung randomisierter Studien angeführt. Hier wollen wir mögliche Verzerrungsquellen und deren Auswirkungen bei der Verwendung historischer Kontrollen in Thera­pie­studien näher untersuchen. Die scheinbaren Vorteile bei der Verwendung histo­rischer Kontrollen liegen darin, dass die zeitgleiche Kontrollgruppe eingespart wird, so dass ein geringerer Stichproben­umfang benötigt wird, weniger Kosten entstehen und Patienten nicht einer möglicherweise schlechteren Kontroll­behand­lung ausgesetzt werden müssen. Neben der bewussten und auch unbe­wussten Se­lek­tion von Patienten wird als wichtig­stes Argument gegen historische Kon­trollen meist der sogenannte Zeittrend angeführt. Green (1982) und später Dupont (1985) haben einen Aspekt dieses Zeittrends in einer Graphik dargestellt, die in etwas abgewandelter Form in Abbildung 3 wiedergegeben ist. Das Stadium der Krank­heit ist dabei repräsentiert durch den vertikalen Abstand zwischen den bei­den di­vergierenden Linien.

Abbildung 3

Abbildung 3: Schematische Darstellung der Auswirkungen des Zeittrends nach Dupont (1985).

Ist die Definition der Krankheitsstadien einer bestimmten Erkrankung seit Jahr­zehnten gleichgeblieben, könnte man zu dem Schluss gelangen, dass frühere Pati­enten in Stadium I oder II dieselbe Prognose wie heutige Patienten im gleichen Krankheitsstadium haben. Die Stadien bezeichnen dabei Abschnitte eines Fort­schreitens der Krankheit. Entsprechend dem Fortschreiten der Krankheit wird die Prognose schlechter und das wahre Krankheitsstadium kann leichter erkannt wer­den. Die Möglichkeit, das wahre Krankheitsstadium zu erkennen, hat sich jedoch durch die Entwicklung neuer Diagnoseverfahren wesentlich verbessert. So kann eine früher nicht diagnostizierbare Krankheit heute bereits als Stadium I erkannt werden. Ebenso können fortgeschrittenere Krankheitsstadien früher diagnostiziert werden. Würde man daher heute eine klinische Studie an Patienten mit Stadium I durchführen und beispielsweise die Patienten von vor 10 Jahren als Kontrollen verwenden, so wird auch bei gleicher Wirkung der beiden Behand­lungen die neue Behandlungsgruppe besser abschneiden als die historischen Kontrollen. Denn zur Therapiegruppe gehören nun Patienten des frühen Stadiums I mit sehr guter Pro­gnose und es fehlen Patienten im späten Stadium I mit schlechter Prognose, die heute bereits als Stadium II diagnostiziert werden würden.

Das erfreuliche drastische Absinken der Brustkrebsmortalitätsraten seit Beginn der neunziger Jahre in England und Wales hat großes Auf­sehen erregt und könnte als Indiz für die Auswirkung des Einsatzes ver­besserter Therapien angesehen werden (Beral et al., 1995; Peto, 1998). Abbildung 4 zeigt die beobachtete Anzahl Todes­fälle an Brustkrebs pro 100 000 Frauen von 1950 bis 1995 in England und Wales.

Abbildung 4

Abbildung 4: Brustkrebsmortalität in England und Wales in den Jahren 1950 bis 1995 (Anzahl Todesfälle pro 100000 Frauen). Die Daten wurden der WHO Mortality Database in 1998 entnommen, die im Internet verfügbar ist (http://www.who.int/whosis ).

In den vergangenen Jahren konnte in einer Vielzahl klinischer Studien die Wirk­sam­keit neuer Therapien, insbesondere systemischer Therapien wie Tamoxi­fen, zur Behandlung des Brustkrebs nachgewiesen wer­den (Early Breast Cancer Tria­lists'; Collaborative Group, 1992). Der historische Vergleich der Mortalitäts­raten ist dennoch mit großer Vor­sicht zu interpretieren, da auch andere Faktoren wie die Verbesserung der diagnostischen Möglichkeiten des Brustkrebs und die Durch­führung regelmäßiger Vorsorgeuntersuchungen und somit der frühzeitige Ein­satz operativer Therapien eine Rolle spielen können. Weiterhin können Ver­änderun­gen der Lebensbedingungen, das Absinken der Neuerkrankungsrate oder selbst Neue­rungen in Definitionen bei der Erstellung von Todesursachen­statisti­ken einen Ein­fluss auf die Ursachen-spezifi­schen Mortalitäts­raten haben. Zwar spricht einiges dafür, dass durch die in klinischen Studien nachgewiesene Verbes­serung der The­rapie­mög­lichkeiten Todesfälle verhindert werden konnten und zu erwar­ten ist, dass sich diese Entwicklung auch in der Mortalitätsstatistik nieder­schlägt, den­noch ist das Ausmaß dieses Effektes nur unter großen Vor­behalten darin ab­lesbar.

Von welcher Größenordnung die Verzerrung bei der Verwendung histo­rischer Kontrollen nämlich sein kann, zeigt eine Arbeit von Chalmers et al. (1977) über verschiedene klinische Studien zur Behandlung von In­farktpatienten mit Antikoa­gulantien, die im Zeitraum von 1948 bis 1975 veröffentlicht wurden. Die Ergeb­nisse dieser Untersuchung, die auch von Peto (1978) eingehend diskutiert wur­den, sind zusammenfassend in Tabelle 2 dargestellt. In den randomisierten Studien er­gibt sich eine deutliche Überlegenheit der Antikoagulantien (P<0.01). Für die Pa­tien­ten, die mit Antikoagulantien behandelt wurden, ergab sich ein relatives Ri­siko von 0.80, d.h. 20% der Todesfälle, die ohne Behandlung eingetreten wären, konn­ten verhindert werden. Aufgrund der großen Stichproben­umfänge sind wir hier in der Lage, die Größenordnung der Verzerrung bei den Studien mit histo­rischen Kon­trollen abzuschätzen. Es stellt sich heraus, dass die Verzerrung so groß ist, dass sie selbst einen hypothetischen adversen Effekt der Antikoagulantien über­deckt und sogar in einem solchen Fall die Behandlung mit Antikoagulantien als die überlegene dargestellt hätte.

In einer Übersichtsarbeit über empirische Vergleiche randomisierter und nicht-randomisierter klinischer Studien kommen Kunz und Oxman (1998) zu dem Schluss, dass im allgemeinen nicht-randomisierte Studien den Effekt neuer Thera­pien überschätzen. Sie beobachteten, dass die Verzerrung jedoch prinzipiell in jede Richtung gehen kann; sie kann einen Effekt auch umkehren oder ver­schlei­ern. Zwei Untersuchungen zum Vergleich randomisierter klini­scher Stu­dien mit nicht-randomisierten Beobachtungsstudien in verschiedenen thera­peu­tischen Be­reichen fanden jedoch keine Unterschiede zwischen den geschätzten Behand­lungs­effekten in den Beobachtungsstudien und den randomisierten kontrollierten Stu­dien (Benson und Hartz, 2000; Concato et al., 2000).


Tabelle 2: Ergebnisse von 32 Studien zur Behandlung von Herzinfarktpatienten mit Anti­koagulantien (Chalmers et al., 1977).

Studientyp/
Kontroll­gruppe

#
Studien

#
Kontrollen

#
behandelte Patienten

#
Todesfälle
Kontrollen

# Todesfälle
behandelte Patienten

Relatives Risiko (RR)

Studien mit
historischen
Kontrollen

18

4460

4194

1381
(31%)

640
(15%)

0.49

Studien mit
externen Kon­trollen

8

1627

1517

462
(28%)

308
(20%)

0.71

Kontrollierte randomisierte Studien

6

1748

2106

313
(18%)

301
(14%)

0.80

 

Diese Resultate könnten darauf hindeuten, dass sich die Qualität nicht-ran­do­mi­sierter Studien im Laufe der Zeit verbessert hat und Beobachtungsstudien mit ho­her Qualität durch­aus zu ähnli­chen Ergebnissen wie randomisierte Studien kom­men können. Den­noch werden randomisierte kli­ni­sche Studien, die sorgfäl­tig durchgeführt wur­den, das Standardinstument des Wirksamkeitsnachweises bleiben (Barton, 2000). Denn Beobachtungsstudien haben den wesentlichen Nachteil, dass ihr Design nicht ex­perimentell ist. Die Behandlung jedes einzelnen Patienten wurde bewusst ge­wählt und nicht zufällig zugeteilt, so dass das Risiko niemals aus­geschlossen wer­den kann, dass syste­ma­tische Unterschiede im Behandlungs­ergebnis auf andere Fakto­ren als die Behandlung zurückzuführen sind (Pocock und Elbourne, 2000), wie wir im nächsten Abschnitt näher ausführen werden.

1.3 Beobachtungsstudien und Registerdaten

Die immer größer werdende Flut von Registern, allgemeinen Dokumen­tationen und Daten­banken bringt den verständlichen Wunsch mit sich, diese Daten auch zu einem retrospektiven Therapievergleich einzuset­zen und auf die kontrollierte pro­spektive Durchführung einer Therapie­studie zu verzichten. Nun besteht bei der Bewertung von Therapien, anders als etwa im epidemiologischen Bereich bei der Beurteilung der Auswirkungen von Risikofaktoren, die zusätzliche Schwie­rig­keit, dass die Folgen einer bewussten Handlung, mit der ja der Therapieerfolg hin­sicht­lich eines Kriteriums positiv beeinflusst werden sollte, beurteilt werden müs­sen. Bei dieser retrospektiven Vorgehensweise ist allerdings allenfalls der Spiel­raum des ärztlichen Ermessen nachträglich zu erken­nen, nicht aber der Grund, weshalb ein Patient etwa mit einer hohen, ein anderer aber mit einer niedrigen Do­sierung behandelt worden ist.

Wir wollen diese Problematik an dem Beispiel einer Studie verdeutli­chen, die an der Universitätsfrauenklinik in Freiburg zur Evaluierung prognostischer Faktoren beim frühen Zervixkarzinom durchgeführt wurde (Pfisterer et al., 1996). Es konn­ten 212 nicht vorbehandelte Patientinnen mit der Diagnose eines Zer­vixkarzinoms im FIGO-Stadium IB und II, die im Zeitraum von 1982 bis 1989 in der Klinik be­handelt worden waren, für die Studie berücksichtigt werden. Daten über den Ver­lauf der Erkrankung, die Behandlungsmodalitäten und potentiell wichtige progno­stische Faktoren wie beispielsweise das Alter, Tumorgrading und den Ploidiesta­tus wurden retrospektiv den Krankenakten entnommen und waren in einer Daten­bank verfügbar.

Abbildung 5

Abbildung 5: Überlebensraten gemäß Operationsstatus von 212 Zervixkarzinom-Patien­tinnen im Stadium IB - II der Universitätsfrauenklinik Freiburg nach Behandlung in den Jahren 1982 - 1989 (151 operierte und 61 nicht-operierte Patientinnen).

Abbildung 5 zeigt die Überlebensraten der 212 Patientinnen aufgeteilt in die Gruppe der operierten (n1=151) und der nicht-operierten Patien­tinnen (n2=61). Ins­ge­samt waren bei einer medianen Beobachtungszeit von 5.3 Jahren nach Be­hand­lung (1139 Personenjahre) 61 Todesfälle zu verzeichnen. Man erkennt, dass die operierten Patientinnen in diesem Kollektiv eine günstigere Prognose haben, im Vergleich zu den nicht- operierten Patientinnen.

Abbildung 6 untersucht den Einfluss der Strahlentherapie in diesem Kol­lektiv. Die Überlebensraten der Patientinnen, die bestrahlt wurden (n1=150) sind deutlich ge­ringer als die der Patientinnen, die keine Bestrah­lung erhielten (n2=62).

Abbildung 6

Abbildung 6: Überlebensraten gemäß Bestrahlungsstatus von 212 Zervixkarzinom-Pa­tien­tinnen im Stadium IB - II der Universitätsfrauenklinik Freiburg nach Behandlung in den Jahren 1982 - 1989 (150 bestrahlte und 62 nicht-bestrahlte Patientinnen).

Ähnliche Ergebnisse erhält man, wenn man statt der Überlebenszeit die rezidiv­freie Überlebenszeit betrachtet. Auch die Berücksichtigung pro­gnostischer Fakto­ren wie Alter, Stadium und Grading ändert nichts an den beobachteten Effekten. Kann man daher aus diesen Ergebnissen eine Therapieempfehlung ableiten, etwa in dem Sinne, dass auf eine Be­strahlung verzichtet werden und stattdessen der Operation der Vorzug gegeben werden sollte? Diese Frage ist mit einem klaren NEIN zu beant­worten. Auch wenn man für einige wenige bekannte einflussreiche Fak­toren adjustieren kann, wird es eine Vielzahl unbekannter Faktoren mit gro­ßem Einfluss auf die Prognose geben, die in die Therapie­entscheidung des behan­deln­den Arztes eingeflossen sind. In dem hier betrachteten Kollektiv der Patien­tinnen mit frühem Zervixkarzinom erhielten viel­fach Patientinnen, die bei Diag­nose in einem nicht mehr operablen, pro­gnostisch ungünstigen Zustand wa­ren, die Strahlentherapie. Daher sind die beobachteten Effekte der Operation und Be­strah­lung nicht der je­weiligen verabreichten Therapie, sondern der Auswahl eines pro­g­no­stisch günstigen bzw. ungünstigen Kollektivs zuzuschreiben.

Das Phänomen, dass sich die Überlegenheit einer Therapie über eine an­dere bei der Analyse von Registerdaten und Beobachtungsstudien sogar umkehren kann, wird in der Literatur als Simpson's Paradoxon bezeich­net. Diese Bezeichnungs­weise entstand aufgrund einer Veröffentlichung von Simpson (1951). Um dieses Phänomen zu verdeutlichen, verwenden wir zunächst ein hypothetisches Beispiel (Green und Byar, 1984): Bei ei­nem Vergleich zweier Therapien (A und B) zeigt sich sowohl bei männli­chen als auch bei weiblichen Patienten die Überlegenheit der Behandlung B, was in den Risikoverhältnissen von 1.38 bzw. 2.50 für A zu B in Tabelle 3 zum Ausdruck kommt. Ignoriert man jedoch das Ge­schlecht der Pati­enten und fasst alle Daten in einer einzigen Vierfelder­tafel zusammen so ergibt sich ein Risikoverhältnis von 0.80, das klar für eine Überlegenheit von A spricht.

Dieses Paradoxon findet seine Erklärung in der Unbalanciertheit der Randhäufig­keiten der beiden Kontingenztafeln: In unserem Beispiel ha­ben die Männer eine schlechtere Prognose als die Frauen; die meisten männlichen Patien­ten in dieser Studie erhielten aber B. Die Frauen haben eine weitaus bessere Prognose, und die Majorität der Frauen erhielt A. Damit ist klar, dass das Geschlecht der Patienten ein bedeutender ver­mengender Faktor war, der das auf den ersten Blick erstaunli­che entge­gengesetzte Gesamtresultat der Studie erklärt.

Tabelle 3: Hypothetisches Beispiel für das Simpson'sche Paradoxon nach Green und Byar (1984).

 

Behandlung

gestorben

überlebt

gesamt

Männliche

A

20 (50%)

20

40

Patienten

B

40 (36%)

70

110

 

 

60 (40%)

90

150

 

 

Relatives Risiko: 20:40 / 40:110 = 1.38

 

Weibliche

A

20 (10%)

180

200

Patienten

B

4 (4%)

96

100

 

 

24 (8%)

276

300

 

 

Relatives Risiko: 20:200 / 4:100 = 2.50

 

Alle

A

40 (17%)

200

240

Patienten

B

44 (21%)

166

210

 

 

84 (19%)

366

450

 

 

Relatives Risiko: 40:240 / 44:210 = 0.80

 

 

Man mag einwenden, dass ein solch extremes Resultat der Umkehrung des Thera­pieeffektes nur konstruiert ist und in Wirklichkeit nicht auf­treten wird. Wie leicht jedoch ein solcher Effekt in Beobachtungsstudien möglich ist und scheinbar unsin­nige Ergebnisse produzieren kann, zeigt ein reales Beispiel einer epidemiolo­gi­schen Studie (Appleton et al., 1996).

In dieser Kohortenstudie zu Schilddrüsen- und Herzerkrankungen wur­de der Über­lebens­status aller Teilnehmer 20 Jahre nach einer Basisun­tersuchung Anfang der siebziger Jahre erhoben, bei der unter anderem die Rauch­ge­wohn­heiten erfasst worden waren. Tabelle 4 zeigt im oberen Teil den Überlebensstatus von 1314 Frauen, die gemäß der Basisunter­suchung als Raucherinnen bzw. Nicht­rauche­rin­nen eingestuft wurden. Bei den Nichtraucherinnen betrug die Mortali­tätsrate 31% während nur 24% der Raucherinnen 20 Jahre nach der Basis­untersu­chung verstor­ben waren, was einem relativen Risiko der Rauche­rinnen gegenüber den Nichtrau­cherinnen von 0.76 mit einem 95%-Konfidenzintervall von [0.64, 0.91] entspricht, also einer Reduktion der Mortali­täts­rate um ca. 25% durch das Rauchen! Welche Erklärung gibt es für dieses verblüffen­de und wenig glaub­würdige Ergebnis? Es lässt sich erklären durch die Vernachlässigung einer wichti­gen Variablen, nämlich dem Alter der Frauen zur Zeit der Basis­unter­suchung, das sowohl mit den Rauch­ge­wohnheiten als auch mit dem Mortalitäts­risiko zu­sammenhängt. Eine solche Variable, die sowohl mit der Exposition als auch mit der Erkran­kungshäufigkeit zusammenhängt, bezeichnet man in der Epidemiologie als Confounder.

Der untere Teil von Tabelle 4 zeigt, dass der Anteil der Raucherinnen in der Al­tersgruppe über 65 deutlich geringer ist als in den anderen Grup­pen, das Mortali­tätsrisiko jedoch natürlicherweise mit dem Alter steigt. Mit Ausnahme der höch­sten Altersgruppe, ist das relative Risiko zu ver­sterben in jeder Altersgruppe für Raucherinnen erhöht, was auf einen ge­sundheitsgefährdenden Effekt des Rau­chens hinweist. Eine geeignete gewichtete Zusammenfassung der 4 alters­spezifi­schen relativen Risiken (vgl Kapitel 4.8 und 8.3) ergibt ein relatives Risiko von 1.21 mit einem 95%-Konfi­denz­intervall von [1.03, 1.41]. Wie schon in dem hypo­thetischen Beispiel führt die Be­rücksichtigung einer einflussreichen Kovariablen zu einer Umkehrung des Er­geb­nisses. Weiter Beispiele für das Simpson'sche Pa­radoxon geben Reintjes et al. (2000) mit den Daten einer multizentrischen Studie zu noso­komialen Infektio­nen sowie Julious und Mullee (1994) aus verschiedenen Berei­chen der medizini­schen Forschung.

Bei der Analyse von Beobachtungsstudien und Registerdaten mit dem Ziel eines Therapievergleichs liegt allerdings selten ein so offenkundiger Faktor vor, wie es in unseren obigen Beispielen das Geschlecht der Pa­tienten bzw. das Alter der Frauen gewesen ist. Vielmehr werden solche Faktoren wesentlich subtiler und im Rahmen solcher Studien meistens auch nicht dokumentiert sein, so dass eine Überprüfung unmöglich ist (Byar, 1980; Dambrosia und Ellenberg, 1980).


Tabelle 4: Reales Beispiel für das Simpson'sche Paradoxon nach Appleton et al. (1996).
20-Jahres Überlebensraten von 1314 Frauen gemäß Raucherstatus, insgesamt und in vier Altersgruppen. Relative Risiken mit 95%-Konfidenzintervallen [.] sind pro Vier­felder­tafel angegeben.

 

Rauchen

gestorben

Überlebt

Gesamt

alle Frauen

ja

139 (24%)

443

582 (44%)

 

nein

230 (31%)

502

732 (56%)

 

 

369 (28%)

945

1314 (100%)

 

 

Relatives Risiko: 0.76 [0.64 - 0.91]

Alter unter 45

ja

19 (7%)

269

288 (46%)

 

nein

13 (4%)

327

340 (54%)

 

 

32 (5%)

596

628 (100%)

 

 

Relatives Risiko: 1.73 [0.88 - 3.40]

Alter 45 - 54

ja

27 (21%)

103

130 (62%)

 

nein

12 (15%)

66

78 (38%)

 

 

39 (19%)

169

208 (100%)

 

 

Relatives Risiko: 1.35 [0.73 - 2.49]

Alter 55 - 64

ja

51 (44%)

64

115 (49%)

 

nein

40 (33%)

81

121 (51%)

 

 

91 (39%)

145

236 (100%)

 

 

Relatives Risiko: 1.34 [0.97 - 1.86]

Alter über 65

ja

42 (86%)

7

49 (20%)

 

nein

165 (85%)

28

193 (80%)

 

 

207 (86%)

35

242 (100%)

 

 

Relatives Risiko: 1.00 [0.88 - 1.14]

 

Für die Zulassung neuer Therapien akzeptieren die zuständigen Behörden in aller Regel nur Wirksamkeitsnachweise basierend auf randomisierten kontrollierten Studien. In anderen Bereichen wie etwa der Überwachung der Arzneimittel­sicher­heit nach Zulassung oder der Evaluation von Risikofaktoren für das Entstehen von Krankheiten sind wir auf die Ergebnisse von Beobachtungsstudien und Auswer­tungen von Registerdaten angewiesen. In seltenen Fällen, in denen die zu verglei­chen­den Therapien sehr unterschiedlich sind, wie etwa der Vergleich einer opera­tiven mit einer medikamentösen Therapie, können rando­misierte Studien an der Teilnahmeverweigerung der Patienten scheitern. Beobach­tungs­studien sind des­halb trotz vieler damit verbundener Probleme unverzichtbar in den Bereichen, in denen der Einsatz der Randomisation nicht möglich ist.

1.4 Randomisierte klinische Studien

Ein Experiment - zumindest im engeren Bereich der Naturwissenschaften - ist da­durch gekennzeichnet, dass durch Variation der Einfluss eines Faktors auf ein zu untersuchendes Kriterium bestimmt wird. Beobachtete Unterschiede hinsichtlich dieses Kriteriums dem Einflussfaktor zu­zuschreiben, ist jedoch nur dann möglich, wenn alle anderen Einflussgrößen während des Experiments fixiert werden kön­nen oder die Versuchseinheiten in allen Aspekten identisch sind.

Übertragen auf klinische Studien, in denen der Einflussfaktor die Behandlung und die Versuchseinheiten Patienten sind, ist es klar, dass die Forderung nach Fixie­rung aller anderen Einflussgrößen oder gar identi­schen Versuchseinheiten im Rahmen klinischer Studien unerfüllbar ist. Patienten variieren auch bei beschränk­tem Indikationsgebiet und re­striktiven Ein- und Ausschlusskriterien für eine Stu­die in so vielen ande­ren bekannten und unbekannten Faktoren, dass der Versuch, diese alle bei der Auswertung berücksichtigen zu wollen, von vornherein zum Scheitern verurteilt wäre.

Um diesem Dilemma zu entgehen, wird seit den vierziger und fünfziger Jahren dieses Jahrhunderts - im Bereich der Medizin besonders geför­dert durch Sir Austin Bradford Hill (1951, 1962) - die Randomisation, d.h. die zufällige Zutei­lung der Patienten zu den Therapiegruppen, weit­hin akzeptiert und bei Therapie­studien eingesetzt (Doll, 1992). Unter randomisierter Therapiezuteilung verstehen wir, dass jeder Patient, der in die Studie eingeschlossen wird, eine vorgegebene, be­kannte Wahrscheinlichkeit hat, jede der Behandlungen zu erhalten, die Behand­lungs­zuteilung aber nicht vorhergesagt werden kann (Altman und Bland, 1999). Im einfachsten Fall zweier gleich großer Behandlungsgruppen könnte beispiels­weise ein Münzwurf über die Therapiezuteilung entscheiden. Häufig ist es jedoch vor­teil­haft, aufwendigere Zufallsmechanismen zu verwenden, wie wir in Kapitel 11 näher ausführen werden. Dort wird auch auf die Problematik der Geheim­hal­tung der Randomisation und der Verblindung der Therapien näher eingegangen.

Die Randomisation bietet den äußerst wichtigen Vorteil, dass die Gefahr einer Verzerrung der Ergebnisse durch Selektion, d.h. durch be­wusste und auch unbe­wusste systematische Zuordnung von Patienten mit besonders guter oder schlech­ter Prognose zu den einzelnen Behandlun­gen, ausgeschlossen wird. Zwar bietet auch die Randomisation keinen sicheren Schutz vor Unba­lanciertheit bezüglich wichtiger Einflussfaktoren in den Gruppen, jedoch ist die Wahrschein­lich­keit für ein solches Ungleichgewicht äußerst gering. Darüber hinaus gewährleistet die zu­fällige Zuordnung der Patienten zu den Behandlungsgruppen die verzerrungs­freie Schätzung des Behandlungsunterschieds und die Validität statistischer Tests bei der Auswertung der Studie. Die Randomisation ermöglicht es, einen beob­achteten Effekt auch tatsächlich der Therapie zuschreiben zu können. Zusätzlich ist aber auch zu bedenken, dass die Randomisation oft erst den Einsatz blinder Techniken ermöglicht. Im Beispiel der Salk-Polio-Studie ging es um die vorurteilsfreie Diag­nose der Poliomyelitis. Wie wichtig dieser Punkt bei der Verwendung von subjek­tiv zu bewertenden Kriterien bei der Beurteilung von Therapien sein kann, ist klar, wenn man sich Kriterien wie Ansprechen von Tumoren auf eine Behand­lung, die Befindlichkeit und verschiedene Aspekte der Lebensqualität von Patien­ten oder subjektive Ein­schät­zung von Verbesserung und Verschlech­terung des Krank­heits­zustandes vor Augen hält.

Trotz der vielen Vorteile, die die zufällige Zuteilung der Therapie in kli­nischen Versuchen bietet, verlief die Einführung der Randomisation im medizinischen Be­reich nicht reibungslos und noch heute wird ihre Not­wendigkeit und Einsetzbar­keit immer wieder in Frage gestellt. Gründe dafür sind zum Teil darin zu sehen, dass klinische Forscher nicht ausrei­chend in den Prinzipien klinischer Experi­mente ausgebildet werden, zum anderen in ethischen Bedenken gegenüber Expe­rimenten am Men­schen. Die Hürden, die es bei der Einführung der adäquaten Methodik klinischer Studien zu überwinden galt, werden deutlich, wenn man eine sehr ein­drucksvolle, vielzitierte Argumentation von Jerome Cornfield liest, einem weiteren Pionier auf dem Gebiet der randomisierten klini­schen Studien (Ederer, 1982; Gail, 1996): Im Rahmen der Planung klini­scher Studien zum Vergleich zweier Bestrah­lungsmodalitäten wurde seitens eines Radiologen der Vorschlag gemacht, alle ge­eigneten Patien­ten einer Klinik mit der neuen Therapie und alle geeigneten Pati­enten einer anderen Klinik mit der herkömmlichen Therapie zu behandeln. Die Randomisation individueller Patienten wurde als zu aufwendig be­trachtet. Cornfield begegnete diesem Vorschlag, indem er als Beispiel den hypo­thetischen Vergleich zweier Medika­mente gegen Seekrankheit anführte. In einer solchen Stu­die verabreichte man der Besatzung eines Bootes Tabletten der Sorte A, der Be­satzung eines andern Bootes Tabletten der Sorte B. Im Verlauf dieser Studie stellte sich dann jedoch heraus, dass das eine Boot schwerer beladen war und dadurch mehr Turbulenzen auftraten. Bei der Besatzung dieses Bootes traten mehr Fälle von Seekrankheit auf. Es war infolge der unterschiedlichen Bela­dung unmöglich herauszufinden, ob die Unterschiede in der Krankheits­häufig­keit auf das Medika­ment oder den Ballast zurückzuführen war. Ein unver­zerrter Ver­gleich der beiden Medikamente war dadurch nicht mehr möglich. Cornfields Ar­gumente überzeugten die Radiologen, trotz des höheren Aufwands Studien durch­zuführen, bei der die Patienten und nicht die Kliniken den Therapien rando­misiert zugeteilt wurden.

1.5 Interne und externe Validität

Die interne Validität des Behandlungsvergleichs in einer klinischen Studie ist durch die Randomisation gegeben. Die externe Validität, d.h. die Übertragbarkeit der Studienresultate auf andere Patienten, ist nicht automatisch durch die Studie gesi­chert. Die Patienten einer klinischen Studie sind keine Zufallsstichprobe aus der 'Grundgesamtheit' aller möglichen Patienten mit der untersuchten Erkran­kung. In der Regel wird eine klinische Studie an einer oder mehreren Kliniken (Zentren) durchgeführt, die nicht zufällig ausgewählt werden. Die Patienten, die im Studien­zeitraum in dem teilnehmenden Zentrum behandelt werden, die die Ein­schlusskri­terien der Studie erfüllen und ihre Zustimmung geben, werden in die Studie einge­schlossen. Durch die Ein- und Ausschluss­kriterien der Studie, die im Studienpro­tokoll festgelegt sind, wird die Zielpopula­tion festgelegt, auf die die Studiener­gebnisse verallgemeinert werden sollen. Die Beschreibung der Zu­sam­mensetzung der Studienpopulation anhand der erhobenen Patienten­charakte­risti­ka bei Ein­schluss in die Studie gibt weiteren Aufschluss hinsichtlich der Übertragbar­keit der Ergebnisse.

In bestimmten Situationen ist das sogenannte 'Comprehensive Cohort Design' (Scheurlen et al., 1984; Olschewski und Scheurlen, 1985) hilfreich, um die externe Validität der Studienergebnisse zu untersuchen. Dieses Design wurde beispiels­weise in der Coronary Artery Surgery Study (CASS) zum Vergleich der Bypass-Operation mit einer konventionellen medikamentösen Therapie eingesetzt (Olschewski et al., 1992). Bei diesem Design werden alle für die Studie geeigne­ten Patienten in eine prospektive Kohortenstudie eingeschlossen, in der die Sub­ko­hor­te der Patienten, die der Randomisation zustimmen, für den eigentlichen Be­hand­lungs­ver­gleich zur Verfügung stehen. Patienten, die der Randomisation nicht zu­stim­men, entscheiden sich für die eine oder andere Therapie im Rahmen der Stu­die. Ein Vergleich der randomisierten mit den nicht-randomisierten Patien­ten hin­sicht­lich der Zusammensetzung der Kollek­ti­ve sowie des Behand­lungs­erfolges gibt Auf­­schluss über die Übertragbar­keit der Ergebnisse des Therapie­vergleichs. Als Alternative für diese aufwändige Vorgehensweise wird häufig vorgeschlagen, nur die wichtigsten Basisdaten der Patienten zu erheben, die zwar die Ein- und Aus­schlusskriterien der Studie erfüllen, aber aus irgendeinem Grund, z.B. feh­lende Zustimmung zur Randomisation, nicht in die Studie aufgenommen wurden (Schmoor et al., 1996).

1.6 Entwicklungsstadien medizinischer Behandlungen

Nachdem eine neue Substanz die prä-klinischen Phasen der Labor- und Tierversu­che erfolgreich durchlaufen hat, beginnen die klinischen Versuche am Menschen bei denen man in der Regel vier Phasen unterscheidet. In der Phase I der klini­schen Studien wird die neue Substanz erstmalig an Men­schen eingesetzt. Der Ein­satz der Behandlung in dieser Phase hat keine therapeuti­schen Ziele und wird häu­fig an gesunden Freiwilligen durchgeführt. Das wesentli­che Ziel dieser Studien ist es, Informationen über pharmakokinetische und -dynamische Eigenschaften der Substanz zu gewinnen (vgl. Kapitel 16). Darüber hinaus erhofft man sich erste Daten über Sicherheit und Verträglichkeit. In der Phase II ist das primäre Ziel, erste Hinweise auf die Wirksamkeit einer neuen Substanz bei Patienten zu erlan­gen. Phase I und II Studien dienen wesentlich dazu, Dosis und Darreichungsform der neuen Behandlung für die folgenden Phase III Studien zu bestimmen. Phase III Studien dienen dem Wirksamkeitsnachweis einer neuen Be­handlung. Sie sind die Basis für einen formalen Zulassungsantrag pharmazeuti­scher Produkte bei den entsprechenden Behörden. Diese Studien sind in aller Re­gel randomisierte Stu­dien. Die Phase IV Studien werden nach Zulassung eines Medikamentes durchge­führt. Sie dienen der Überwachung der Arzneimittel­si­cherheit und liefern zusätz­li­che Daten zur Wirksamkeit eines Medikamentes. Eine gute Übersicht über die verschiedenen Stadien der Medikamenten­ent­wick­lung bietet die Richtlinie E8 der International Conference on Harmoni­sation (ICH) (vgl. Kapitel 14).

1.7 Literatur

Altman DG, Bland JM. Treatment allocation in controlled trials: why randomise? British Medical Journal 1999; 318: 1209.

Appleton DR, French JM, Vanderpump MPJ. Ignoring a covariate: an example of Simpson's paradox. The American Statistician 1996; 50: 340-341.

Barton S. Which clinical studies provide the best evidence? The best RCT still trumps the best observational study. British Medical Journal 2000; 321: 255-256.

Benson K, Hartz A. A comparison of observational studies and randomized, controlled trials. New England Journal of Medicine 2000; 342: 1878-1886.

Beral V, Hermon C, Reeves G, Peto R. Sudden fall in breast cancer death rates in England and Wales. Lancet 1995; 345: 1642-1643.

Byar DP. Why data bases should not replace randomized clinical trials. Biometrics 1980; 36: 337-342.

Berkson J, Harrington SW, Clagett OT et al. Mortality and survival in surgically treated cancer patients of the breast. Proceedings of the Staff Meeting of the Mayo Clinic 1957; 32: 645-670.

Chalmers TC, Matta RJ, Smith H, Kunzler AM. Evidence of favoring the use of anticoa­gulants in the hospital phase of acute myocardial infarction. New England Journal of Medicine 1977; 297: 1091-1096.

Concato J, Shah N, Horwitz RI. Randomized, controlled trials, observational studies, and the hierarchy of research designs. New England Journal of Medicine 2000; 342: 1887-1892.


Dambrosia JM, Ellenberg JH. Statistical considerations for medical data base. Biometrics 1980; 36: 323-332.

Doll R. Sir Austin Bradford Hill and the progress of medical science. British Medical Journal 1992; 305: 1521-1526.

Dupont WD. Randomized vs. historical clinical trials: are the benefits worth the costs? American Journal of Epidemiology 1985; 122: 940-946.

Early Breast Cancer Trialists' Collaborative Group. Systemic treatment of early breast can­cer by hormonal, cytotoxic, or immune therapy: 133 randomised trials involving 31,000 recurrences and 24,000 deaths among 75,000 women. Lancet 1992; 339: 1-15, 71-85.

Ederer F. Jerome Cornfield's contributions to the conduct of clinical trials. Bio­metrics 1982; 38 (Supplement), 25-32.

Ederer F. History of clinical trials. In: Armitage P, Colton T (eds). Encyclopedia of Biosta­tistics. Chichester: Wiley, 1998.

Edwards MJ, Gamel JW, Feuer EJ. Improvement in the prognosis of breast cancer from 1965 to 1984. Journal of Clinical Oncology 1998; 16: 1030-1035.

Francis TH Jr et al. An evaluation of the 1954 Poliomyelitis vaccine trials - Summary re­port. American Journal of Public Health 1955; 45: 1-63.

Gail MH. Statistics in action. Journal of the American Statistical Association 1996; 91: 1-13.

Green SB. Patient heterogeneity and the need for randomized clinical trials. Controlled Clinical Trials 1982; 3: 189-198.

Green SB, Byar DP. Using observational data from registries to compare treat­ments: the fallacy of omnimetrics. Statistics in Medicine 1984; 3: 361-370.

Hill AB. The clinical trial. British Medical Bulletin 1951; 7: 278-282.

Hill AB. Statistical methods in clinical and preventive medicine. Edinburgh: Livingstone, 1962.

ICH E8. General considerations for clinical trials. London, UK: International Conference on Harmonisation; 1997. Adopted by CPMP September 1997 (CPMP/ICH/291/95).

Julious SA, Mullee MA. Confounding and Simpson's paradox. British Medical Journal 1994; 309: 1480-1481.

Kunz R, Oxman AD. The unpredictability paradox: review of empirical comparisons of randomised and non-randomised clinical trials. British Medical Journal 1998; 317: 1185-1190.

McKeown T. The modern rise of population. London: Edward Arnold, 1976.

Meier P. The biggest public health experiment ever: the 1954 field trial of the Salk Po­liomyelitis vaccine. In: Tanur JM, Mosteller F, Kruskal WH, Lehmann EL, Link RF, Pieters RS, Rising GR (eds). Statistics: A guide to the unknown. Monterey: Wadsworth & Brooks, 1989.

Meier P, Pringle Smith R. Salk Vaccine. In: Armitage P, Colton T (eds). Encyclo­pedia of Biostatistics. Chichester: Wiley, 1998.

Olschewski M, Scheurlen H. Comprehensive cohort study: an alternative to randomized consent design in a breast preservation trial. Methods of Information in Medicine 1985; 24: 131-134.

Olschewski M, Schumacher M, Davis KB. Analysis of randomized and nonrandomized patients in clinical trials using the comprehensive cohort follow-up study design. Con­trolled Clinical Trials 1992; 13:226-239.

Peto R. Clinical trial methodology. Biomedicine Special Issue 1978; 28: 24-36.

Peto R. Mortality from breast cancer in UK has decreased suddenly. British Me­dical Journal 1998; 317: 476-477.

Pfisterer J, Kommoss F, Sauerbrei W, Baranski B, Kiechle M, Ikenberg H. DNA flow cytometry in stage IB and II cervical carcinoma. International Journal of Gynecologi­cal Cancer 1996, 6: 54-60.

Pocock SJ, Elbourne DR. Randomized trials or observational tribulations? New England Journal of Medicine 2000; 342: 1907-1909.

Reintjes R, de Boer A, van Pelt W, Mintjes-de Groot J. Simpson's paradox: an example from hospital epidemiology. Epidemiology 2000; 11: 81-83.

Scheurlen H, Olschewski M, Leibbrand D. Zur Methodologie kontrollierter klinischer Stu­dien über die Primärbehandlung des operablen Mammakarzinoms. Strahlentherapie 1984; 160: 459-468.

Schmoor C, Olschewski M, Schumacher M. Randomized and non-randomized patients in clinical trials: experiences with comprehensive cohort studies. Statistics in Medicine 1996; 15: 263-271.

Simpson EH. The interpretation of interaction in contingency tables. Journal of the Royal Statistical Society 1951; B-13: 238-241.

Silverman WA. Human experimentation. A guided step into the unknown. Oxford: Ox­ford University Press, 1985.

Sutherland I. Medical Research Council Streptomycin trial. In: Armitage P, Col­ton T (eds). Encyclopedia of Biostatistics. Chichester: Wiley, 1998.