Statistic Flashcards

Question

4. Analytische Biostatistik Schätzverfahren

Answer 1

* nehmen wir an, es liegt eine normalverteilte GG vor. Aus dieser GG wird eine SP entnommen, zunächst mit 10 Realisierungen. Das Histogramm (empirische Verteilung) der Realisierungen ist links oben dargestellt. Bildet man für jede Realisierung den AMW, so ergeben diese Mittelwerte eine Verteilung mit den Lagemaßen m und s²/n. * gehen wir davon aus, dass keine N-Verteilung vorliegt, sondern z.B. eine Exponentialverteilung. Wird der AMW berechnet, so bilden die Mittelwerte ab einem Stichprobenumfang n\>30 ebenfalls eine näherungsweise N-Verteilung. Dies ist die praktische Auswirkung des Zentralen Grenzwertsatzes. Dies hat positive Auswirkungen auf die praktische Analyse: **Zur Untersuchung von Mittelwerten kann man bei genügend hohem Umfang der SP davon ausgehen, dass die AMW in etwa normalverteilt sind.**

Answer 2

* gehen wir von derselben N-Verteilung aus, wie bei der MW-Bestimmung. Nun interessiert die Varianz der Verteilung. Wenn wir diese über die Realisierungen als Histogramm darstellen, so ergeben sie die sog. Chi-Quadrat-Verteilung (χ²- Verteilung). * Die theoretische χ² -Verteilung ist mit Hilfe der Gamma-Funktion (wie viele statistischen Größen) definiert. * von praktischer Bedeutung ist die Tatsache, dass eine normierte und skalierte Varianzverteilung χ²-verteilt ist. * die Maßzahlen Erwartungswert und Varianz ergeben folgende Werte: s. o.

Answer 3

* theta zu schätzender Parameter der Verteilung P(X), g(X) – Schätzer, – Funktional des Parameters theta oder der Parameter selbst * t – erwartungstreuer Schätzer, e - Effizienz * Ein Schätzer heißt **erwartungstreu**, wenn sein Erwartungswert gleich dem wahren Wert des zu schätzenden Parameters ist * **Konsistenz** bedeutet, dass mit zunehmender Zahl der Schätzwerte die Varianz der Schätzung abnimmt, die Zuverlässigkeit der Schätzung nimmt daher zu. Wenn die Konsistenz erst mit unendlich hohem n gegen Null konvergiert, heißt ein solcher Schätzer asymptotisch konsistent. * Die **Effizienz** gibt an, wie gut ein Schätzer mit der jeweiligen Anzahl der Schätzwerte schätzen kann. Je kleiner die Varianz der Schätzung bei gleicher Anzahl der Schätzwerte, umso höher die Effizienz. Eine hohe Effizienz bedeutet, dass selbst bei einer kleinen Stichprobe eine brauchbare Schätzung vorliegt (z.B. Median bei sehr kleinen SP). * **Suffizienz** bedeutet, ein Schätzer „holt alle Informationen“ aus der Stichprobe heraus.

Answer 4

* In der Statistik wird oft die oben angegebene Formel für das zweite zentrale Moment zur Berechnung der Varianz verwendet. **Der Erwartungswert der Varianz entspricht nicht der wahren Varianz, sondern besitzt einen systematischen Fehlerfaktor von (n-1)/n, die wahre Varianz wird also unterschätzt.** Dieser Fehler nimmt mit steigendem n ab.

Answer 5

* Die Effizienz der bekanntesten Lagemaße MW und Median wurde an Hand des Bildes verglichen. Die Lagemaße wurden in den Spalten geschätzt (n=2000) und anschließend gemittelt (m=3000). Die ZG waren weder normal noch identisch verteilt. Die Varianz des Medians ist 13-mal kleiner als die des Mittelwertes. Dies ist auch nicht überraschend, da der Median der robusteste Schätzer ist. Daraus folgt eindeutig, dass der Median der effizientere Schätzer ist. * Das Histogramm (die Häufigkeitsverteilung) zeigt mehrere Maxima, es liegt also eine multimodale Verteilung vor. Je nach Interpretation würde man zwischen vier bis sieben Modi finden. Es liegt offensichtlich eine rechtsschiefe Verteilung vor, so dass man bereits an dieser Stelle damit rechnen kann, dass der Median links vom MW angesiedelt ist. Dies bestätigt auch die Auswertung (vgl. Folie 59).

Answer 6

Die genannten Gütekriterien der Schätzer machen natürlich Sinn. Dennoch ist es dann schwierig zu beurteilen, welcher Schätzer nun gut ist oder nicht. Eine Möglichkeit besteht darin, ein gemeinsames Maß einzuführen. In der Fachwelt wird als Maß der MSE (Mean Square Error, mittlerer quadratischer Fehler) verwendet und akzeptiert, denn dieser vereint zumindest die Varianz und den Bias eines Schätzers und damit faktisch auch die Effizienz. Dieser läßt sich relativ einfach interpretieren: die bisher verwendete Varianz ist ein zentrales Moment, ist also vom Mittelwert unabhängig. Da die Information über den Mittelwert des Fehlers im Bias steckt, gibt also der MSE die komplette Information über die Schätzgüte wider.

Answer 7

Für die Varianz eines Schätzers gilt grundsätzlich, dass sie sich aus dem EW des Quadrates der geschätzten Größe abzüglich des Quadrates des EW der geschätzten Größe (MW) ergibt. Daraus lässt sich der EW der geschätzte Größe berechnen. ## Footnote Mit dem Schätzer S wird die wahre Standardabweichung unterschätzt. Beispiel in Matlab: n=randn(10,1000); nstdunbia=std(n); mean(nstdunbia) % kleiner als 1 ((mean(nstdunbia))^2+var(nstdunbia))^0.5 % die Summe muss 1 (mit stat. Schwankungen) ergeben

Answer 8

* Momente sind als Ableitungen der Ordnung k an der Stelle X=0 der charakteristischen Funktion einer Verteilung definiert. Man versucht diese Momente aus einer SP zu schätzen. Mit Hilfe der Schätzer werden die Momente geschätzt und direkt für die gesuchten Momente eingesetzt. Daher die Bezeichnung „Momentenmethode“. Sie sind i. A. einfach berechenbar, aber oft nicht erwartungstreu bzw. nicht konsistent. * Zentrale Momente, zentriert um den Mittelwert (hier die Varianz). Da sie auf 1/n normiert wird, ist sie nicht erwartungstreu, da dafür eine Normierung 1/(n-1) notwendig wäre.

Answer 9

* Die ersten Momente, gleich den MW, geben zunächst eine Orientierung, sagen aber nichts mehr aus. * Die zweiten Momente sagen als Zahl kaum etwas aus. * Erst wenn man die zweiten Momente zentriert, erhält man die Varianz. * Die Standardabweichung ist ein informatives Streuungsmaß, da bekannt ist, dass (zumindest bei der Normalverteilung) im Intervall +/- 3s 99% aller Werte liegen.

Answer 10

* Ist der Parameter π einer Verteilung gegeben (bekannt), so lässt sich die Verteilungsfunktion von n Realisierungen parametrisieren, angenommen, die Realisierungen sind voneinander unabhängig (also disjunkt). Anschließend kann man das Maximum einer solchen Verteilungsfunktion suchen, das zwangsläufig über der Realisierung liegen muss, die am nächsten am wahren Parameter liegt. * In der Praxis liegt das Problem jedoch umgekehrt. Man realisiert die ZG n-mal (wiederholte Messung), um den wahren Parameter π zu ermitteln. Dazu wird die Likelihood-Funktion aufgestellt, die sich aus dem Produkt der WS (der relativen Häufigkeiten) ergibt. Anschließend wird ihr Maximum gesucht. Wird dieses ermittelt, so ergibt die ihn liefernde Bedingung den besten Schätzer für den wahren Parameter.

Answer 11

* Geht man zunächst davon aus, dass die Klinik eine riesige Zahl von Patienten in Behandlung hat (\>10000), so kann man auf der Binomialverteilung aufbauen. Man kann verschiedene WS „durchprobieren“, um zu sehen, bei welcher das Maximum auftritt. Der gesuchte Parameter ist also nicht die Anzahl der Versuche, wie üblich, sondern die höchste WS für p bei 3 Frauen von 10. Hier ist der Einfachheit halber der gesuchte Parameter gleich seiner WS. * In der praktischen Analyse kann man natürlich nicht von unendlich großen Patientenzahlen ausgehen. Im Gegenteil, die SP bleibt immer im überschaubaren Rahmen. Bei 10 Versuchen wurden 3 Frauen und 7 Männer ermittelt. Die gesuchte WS p geht entsprechend in das Produkt der ML-Funktion ein. * Gesucht wird das Maximum, so dass die erste Ableitung von L nach p gleich Null gesetzt wird. Daraus ergibt sich erwartungsgemäß die theoretische WS von 0.3

Answer 12

* i.d.R. die effizienteste Methode zur Parameterschätzung * Annahme zur WS-Funktion der ZG notwendig * trifft Annahme nicht zu, kann ML-Schätzer inkonsistent werden * Pseudo-ML-Schätzer sind konsistent auch wenn Annahme nicht erfüllt

Answer 13

Im Normalfall ist zur Bestimmung der Regressionsgeraden ausreichend, zwei Punkte zu bestimmen, im mehrdimensionalen Fall entsprechend mehr Punkte. Da aber die Messwerte streuen, braucht man zur Bestimmung der Geraden ein deutlich überbestimmtes Gleichungssystem, d.h. mehr Gleichungen als Unbekannte.

Answer 14

* Bei nichtlinearen Zusammenhängen und stochastisch verteilten Daten ist eine analytische Lösung i.d.R. unmöglich. Zum einen, weil die Nichtlinearität im Normalfall qualitativ gar nicht bekannt ist. Zum anderen, weil durch die Streuung der Daten mehrere mögliche Nichtlinearitäten in Frage kommen und es dann gar nicht möglich ist zu entscheiden, welche Nichtlinearität denn die wahre ist. * Unter diesem Gesichtspunkt kann man zunächst eine Tugend aus der Not machen: Die meisten Nichtlinearitäten lassen sich mit dem Polynomansatz „fitten“ (Approximieren auf den kleinsten mittleren quadratischen Fehler). Diese Ansätze sind auch unter dem Begriff „Splines“ bekannt. Allerdings sind die Splines umstritten und analytisch nicht immer korrekt anwendbar. Man kann durch die Splines zusätzliche (höhere) Nichtlinearitätsordnungen rein zufällig hineinbringen, die es in der Realität nicht gibt, die allerdings mit dem Argument der statistischen Sicherheit akzeptiert werden. Das kann zu fatalen Fehlern führen. * Dass die nichtlinearen Zusammenhänge analytisch schwierig sind, ist erwiesen. Numerisch aber kann trotzdem eine im Sinne der kleinsten Quadrate optimale Lösung gefunden werden: Dazu werden iterative Verfahren eingesetzt, z.B. Newton.

Answer 15

Intervallschätzung ist eine andere Methode der Parameterbestimmung. Im Vergleich zur Punktschätzung bietet sie einige Vorteile, z.B. man kann direkt die Signifikanz ablesen (siehe Statistische Tests).

Answer 16

* Durch Zentrieren (Abzug des MW) und Normieren (dividieren durch die Standardabweichung) erhält man die so genannte Standard-NV * Die Standard-NV wird üblicherweise mit Z bzw. z bezeichnet

Answer 17

Die t-Verteilung berücksichtigt, dass beide Verteilungsparameter mund s geschätzte Größen sind. Daher ist sie für kleine Stichproben flacher und breiter als die Normalverteilung.

Answer 18

Mit zunehmender Größe der Stichprobe konvergiert die t-Verteilung zur Normalverteilung. Ab einem n=100 kann sie praktisch als Normalverteilung angenommen werden. Dies ist eine der praktischen Auswirkungen des Gesetzes der großen Zahlen.

Answer 19

Konfidenzintervall des MW in Abhängigkeit vom Umfang der Stichprobe: Der wahre MW liegt bei 1. Die Streuung des MW und folglich die Breite des KI nehmen mit dem Umfang der Stichprobe ab. Beim Umfang der SP von n=100 liegt praktisch die NV vor und das KI entspricht in etwa +/- 2σ.

Answer 20

Die Eigenschaften gelten auch für die nachfolgende Varianz. Die qualitativen Zusammenhänge für n und s können aus der Formel direkt hergeleitet werden. Hinsichtlich der statistischen Unsicherheit a kann logisch geschlussfolgert werden, dass eine gesteigerte Sicherheit nur auf Kosten des KI gehen kann: Je breiter das KI, desto unsicherer wird die Schätzung. Quantitativ wird dies mit der t-Verteilung exakt beschrieben.

Answer 21

Es ist bekannt, dass die Varianz einer normalverteilten ZG χ²-verteilt ist. Da die χ²-Verteilung unsymmetrisch ist, so sind auch die Quantile um den MW unsymmetrisch angeordnet. Im Normalfall geht man immer von einem zweiseitigen KI aus. Es gibt jedoch auch Fragestellungen, bei den nur ein Ende der Verteilung – also nur ein einseitiges KI – von Interesse ist. Eine solche Fragestellung könnte heißen: Bis zu welchem maximalem Wert muss man mit einer Sicherheit von 1-α mit der Varianz rechnen. Gefragt ist also ein rechtsseitiges KI, das zwischen 0 und Q_1-α liegt.

Answer 22

Dieses Beispiel zeigt (und beweist), dass der qualitative Verlauf der χ²-Verteilung nicht von der Standardabweichung (da auf diese normiert), sondern allein vom Umfang der Stichprobe (Freiheitsgrad) abhängig ist. Die STD sind in Zehnerschritten abgestuft, daher folgt die Varianz in Hunderterstufen, sonst aber sind die Verteilungen (statistisch) völlig gleich.

Answer 23

Dieses Beispiel zeigt die Abhängigkeit der χ2-Verteilung vom Umfang der SP. Mit zunehmendem Umfang der SP ähnelt die χ2-Verteilung immer mehr der Normalverteilung, ab etwa n=100 kann sie als normalverteilt betrachtet werden. Die zugehörigen KI zeigen in Folge der Symmetrisierung der Verteilung eine stärkere Verkürzung des rechten Randes im Vergleich mit dem linken Rand. Während sich bei einer Verzehnfachung des Probenumfangs (von 10 auf 100) der linke Teil des KI in etwa halbiert, verkleinert sich der rechte Teil des KI auf etwa ein Siebentel.

Answer 24

Der Median ist als das 50%-Quantil der robusteste Schätzer und dementsprechend (als Rangstatistik) stark nichtlinear und irreversibel. Die Robustheit folgt aus seiner Eigenschaft, dass einzelne Werte nicht mit ihrem Zahlenwert, sondern mit ihrem Platz in der geordneten Folge eingehen. Daher müssen selbst extreme Ausreißer nicht unbedingt zur Geltung kommen. Um aber etablierte Methoden der Statistik nutzen zu können, sind u. U. Näherungen notwendig: Für einen Umfang der SP von mehr als 50 und einer Irrtums-WS von weniger als 10% können die Intervallgrenzen mit Hilfe der Standard-NV ermittelt werden. Während die Bedingung mit höchstens 10% Irrtums-WS in der Praxis gut erfüllt ist, ist die Forderung nach dem SP-Umfang oft nicht erfüllt. In diesen Fällen kann die Rangstatistik auf eine Normalverteilung transformiert werden.

Answer 25

Die Indizes der Messwerte in diesem Beispiel sind so gerundet (notwendig, da Indizes ganze Zahlen: der untere nach unten, der obere nach oben), dass das berechnete KI größer wird. Dadurch wird die Irrtums-WS niedriger als vorgegeben. Ein solches Vorgehen wird als „konservativ“ bezeichnet, d.h. man schätzt mit einer höheren Sicherheit als gefordert. Aus dem KI folgt, dass dieses etwa 35% der Spannweite (Range) der Messdaten beträgt. Obwohl der Median wesentlich robuster ist als der Mittelwert, ist das immer noch ein hoher Anteil. Solche Maße sind in der Biologie und in der Medizin jedoch üblich.

Answer 26

* Das neue Mittel müsste theoretisch und biochemisch begründet wirksam sein. Getestet wird an 20 Hypertonikern. Der BD wird vor und eine gewisse Zeit nach der Einnahme des Mittels gemessen. * Ausgewählt wird der t-Test (wird anschließend behandelt), der mit einer Unsicherheit von 5% die Hypothese bestätigt. Nun muss man aber auch die Möglichkeit einräumen, dass das Mittel in Wahrheit nicht wirkt. Dann würde sich die Frage stellen, wie hoch die WS dafür ist, dass man hier die Hypothese fälschlicherweise als richtig angenommen hat, also falsch positiv entschieden hat. Dazu folgt die Fehlerbetrachtung. * Die notwendige Bedingung zur Anwendung des t-Tests sind normalverteilte Daten. Dies müsste also überprüft werden. Bei einem so kleinen SP-Umfang wird es mit der Prüfung schwierig. Man kann aber Tests anwenden, die diese Bedingung nicht stellen.

Answer 27

* ***α*** in der Biostatistik üblich bei 5%, ausnahmsweise 1%, 0,1% oder 10%. * Aus ***α*** ergibt sich der Annahmebereich und der Ablehnungsbereich (kritischer Bereich) der Nullhypothese * Wenn die Alternativhypothese nicht explizit angegeben wird, kann ß nicht bestimmt und nicht angegeben werden. Dennoch hängt *ß* von *α* ab: Je kleiner ist ***α***, umso größer der Annahmebereich der Nullhypothese und umso seltener wird diese abgelehnt. Dies führt aber dazu, dass sie auch angenommen wird, obwohl Alternativhypothese richtig ist. Diese Beziehung gilt grundsätzlich für alle statistischen Tests. * ß kann insbesondere bei kleinen Stichproben sehr groß werden. Daher muss man die Annahme der Nullhypothese – wenn die Alternativhypothese nicht exakt aufgestellt ist – sehr vorsichtig formulieren: "Die Nullhypothese kann auf dem Signifikanzniveau *α* nicht verworfen werden". * Die Größe 1-ß wird auch als Güte eines statistischen Tests bezeichnet, international auch als Power. * Zeichnet man *α* gegen 1-ß auf, so entsteht die sog. ROC-Kurve (Receiver Operating Characteristic), die ein sehr informatives Maß für die Testgüte ist (Abhängigkeit der WS von richtig positiven Entscheidungen vs. Ws von falsch positiven Entscheidungen).

Answer 28

* Lagetests: Prüfung von Erwartungswerten * Dispersionstests: Prüfung von Streuungsmaßen * Assoziationstests: Prüfung von Zusammenhängen * Homogenitätstest: Prüfung der Verteilung in Stichproben * Anpassungtests: Vergleich empirischer und theoretischer Verteilung

Answer 29

* t – Tests * Rangsummentests * Binomialtests * Chi² – Tests * Multivariate Tests

Answer 30

* Gehen wir davon aus, dass eine SP aus einer normalverteilten GG entnommen wird, xi sind die Realisierungen dazu. * Die Nullhypothese lautet, dass der Erwartungswert μ₀ erreicht, einen vorgebbaren Testwert. * Die Alternativhypothese lautet, dass der Erwartungswert nicht gleich dem vorgegebenen Wert ist. Es ist zu prüfen, ob die Nullhypothese angenommen oder verworfen wird. Hier ist festzuhalten, dass die Entscheidung allein über die Nullhypothese zu fällen ist. Da die Alternativhypothese nicht explizit formuliert wird, kann man über diese auch keine weiteren Angaben (Signifikanz) machen. * Zum Lageparameter Erwartungswert wird eine mathematische Teststatistik erstellt. * An Hand der Teststatistik wird für reale Daten die Prüfgröße berechnet. * Liegt die Prüfgröße beim zweiseitigen Test betragsmäßig unterhalb des kritischen Wertes für t, so wird die Nullhypothese angenommen (genau genommen, die Nullhypothese wird nicht verworfen). * Liegt die Prüfgröße betragsmäßig über dem kritischen Wert, so wird die Nullhypothese auf dem Signifikanzniveau a verworfen. Wie zuverlässig die Alternativhypothese in diesem Fall ist, lässt sich jedoch nicht ermitteln.

Answer 31

* Beim zweiseitigen Test wird der kritische Wert für die halbe Unsicherheit ermittelt. Bei einem einseitigen Test je nach Lage (links oder rechts) mit der vollen Unsicherheit. * **Notwendige Voraussetzung zur Anwendung des t-Tests ist die Normalverteilung der getesteten Größe. Da man in der Biostatistik grundsätzlich davon ausgehen muss, dass keine einzige Zufallsgröße diese Bedingung erfüllt, gibt es zwei mögliche Wege: Zum einen wird geprüft (Anpassungstest folgt später), ob die ZG normalverteilt ist. Hier besteht das zuvor genannte Problem: Wird die Nullhypothese nicht verworfen, heißt es noch lange nicht, dass sie zuverlässig wahr ist. Zum anderen kann man davon ausgehen, dass bei hinreichend großem Umfang der SP der Lageparameter Erwartungswert auf Grund des ZGWSes normalverteilt ist. Dies gilt zuverlässig bei etwa n\>30. Selbst bei n=10 und etwa symmetrisch verteilten SP ist dieser Test für praktische Anwendung ausreichend robust.** * Fazit ist, für ausreichend umfangreiche SP ist der t-Test trotz Verletzung der Annahmen gut anwendbar. Bei geringen SP muss ein anderer Test eingesetzt werden.

Answer 32

* H0: Nullhypothese, dass m gleich (oder größer) ist als m0. Das heißt, man hat zu prüfen, ob die Differenz nicht negativ ist. Daher wird linksseitig geprüft, also zum t- Quantil mit alpha * Ist Testgröße T kleiner als t, so wird Nullhypthese abgelehnt.

Answer 33

* Am Beispiel eines realen EKG wird gezeigt, welche Schritte in der Artefaktdetektion notwendig sind: In dieser Grafik sind die Verläufe eines gestörten und eines ungestörten EKG dargestellt. Man kann sehr gut das typische Bewegungsartefakt erkennen, das es zu eliminieren gilt. Zu beachten sind zwei Indikatoren für ein Bewegungsartefakt: Ein relativ langsamer Ausgleichsvorgang, verursacht durch die analogen Filter im Messverstärker und eine hohe negative Amplitude, die im normalen EKG nicht auftritt.

Answer 34

Die Histogramme dieser Verläufe zeigen: Es ist deutlich erkennbar – auch schon aus dem Zeitverlauf – dass das gestörte EKG wesentlich größere negative Werte annimmt. Das wird als Diskriminationskriterium genutzt: Eine Amplitudenschwelle wird bei ca. -0.7mV gesetzt (hinreichender Abstand zum korrekten EKG wegen Fehlalarm) und jedes EKG, das diese Schwelle unterschreitet wird für artefaktbehaftet erklärt.

Answer 35

* Wenn genügend Daten aus beiden Stichproben vorhanden sind, d.h. aus der Verteilung bei gültiger Nullhypothese sowie aus der Verteilung bei gültiger Alternativhypothese, oder sind diese Verteilungen theoretisch berechenbar, kann nach mehreren Kriterien (Kosten von Falschentscheidungen) eine Entscheidungsschwelle gesetzt werden. Die Aussagen RN (richtig negativ), RP (richtig positiv), FN (falsch negativ), FP (falsch positiv) beziehen sich auf das Vorhandensein eines Artefakts. Die Annahme der Nullhypothese führt demnach zur richtig negativen Entscheidung über die Anwesenheit eines Artefakts. * Für die Detektion eines Effekts sind primär die Entscheidungen RP und FP von Interesse. * Zu beachten ist, dass je näher die beiden Verteilungen beieinander liegen, umso schwieriger wird es eine zuverlässige Aussage über das Vorhandensein eines Artefakts zu treffen. Damit wird auch das grundlegende Problem beim Fehlen der Alternativhypothese deutlich: Man wählt die Irrtumswahrscheinlichkeit α=5% (FP-Rate) und damit bleibt die statistische Sicherheit der Nullhypothese bei 95% (RN-Rate). Man erhält jedoch überhaupt keine Information über die FN-Rate, also man kann nicht einschätzen, mit welcher WS die richtige Alternativhypothese verworfen wird. * Anm.: Bei der Wahl von α und ß würde hier ein einseitiger Test ausreichen: Für die Nullhypothese der rechtsseitige (a\>0), für die Alternativhypothese der linksseitige (a\<2).

Answer 36

* An Hand der kumulativen Häufigkeitsfunktion können die einzelnen WS direkt abgelesen werden. * Die Sensitivität (Empfindlichkeit eines Tests, um einen vorhandenen Effekt nachzuweisen) ist die WS dafür, dass ein vorhandener Effekt auch erkannt wird. Die Spezifität ist die WS dafür, dass das Fehlen eines untersuchten Effekt auch nachgewiesen wird. Beide Größen sind wichtig in der Beurteilung von statistischen Tests. Ein guter Test hat hohe Sensitivität, aber auch hohe Spezifität. * Beispiel: Das Glaukom (grüner Star) wird im Screening u.a. durch Messung des Augeninnendrucks vordiagnostiziert. Diese Druckmessung hat in Bezug auf das Glaukom eine schlechte Sensitivität, die zwischen etwa 65% bis 80% liegt. Die Spezifität liegt sogar noch darunter bei bis zu 50%. Das bedeutet einerseits, dass nicht jedes Glaukom erkannt wird, jedes dritte bis fünfte wird übersehen. Andererseits heißt das, dass jeder Zweite mit einem hohen Augeninnendruck gar kein Glaukom hat. Also jeder zweite Glaukompatient wird unnötig behandelt.

Answer 37

* Ein sehr informatives Qualitätskriterium zur Bewertung von statistischen Tests ist die ROC (Receiver Operating Characteristic, ein Begriff aus der Nachrichtentechnik). Man kann die ROC theoretisch herleiten oder experimentell ermitteln und sich dann für die beste Kombination aus Sensitivität und Spezifität entscheiden. Welche die beste Komination ist, hängt entscheidend von der medizinischen Zielstellung ab. Einerseits kann die Sensitivität sehr wichtig sein, z.B. Tumorerkennung bei der Mammographie. Zum anderen kann die Spezifität sehr wichtig sein, z.B. bei der Festlegung der Grenzen von bestrahlten Gewebeteilen in der Strahlentherapie. * Die ROC-Güte nimmt in Richtung Eckpunkt der Charakteristik zu. Sind die beiden Verteilungen unter den Hypothesen weit auseinander bzw. völlig getrennt, erreicht die ROC den Eckpunkt bei FP=0 und RP=1. Überdecken sich die Verteilungen unter beiden Hypothesen vollständig, ist die ROC gleich der Nebendiagonale (gestrichelte blaue Linie), so dass eine Entscheidung gar nicht möglich ist. Anm,: FP = α, 1-RP = ß.

Answer 38

* Die Softwaretools geben heute beim t-Test auch einen sog. p-Wert zurück. Dieser Wert gibt die WS an, mit der der berechnete t-Wert oder ein größerer Wert auftritt. Ist er niedriger als α, liegt t_p rechts (links im negativen Bereich) vom kritischen Wert und die Nullhypothese ist zu verwerfen (wie oben gezeigt). Der p-Wert kann auch als Signifikanz der Nullhypothese interpretiert werden. * Man könnte das Ergebnis so interpretieren, dass die Ablehnung der 0-Hypothese auch zum p-Niveau möglich gewesen wäre. Und davor warnen die um eine exakte Statistik besorgten Experten. Die Besorgnis beruht auf der Überlegung, dass die SP bereits mit der Unsicherheit α entnommen wurde und daher eine weitere "Steigerung" der Sicherheit gar keinen Sinn mache. **Diese Begründung ist insofern gerechtfertigt, dass man mit der vorgegebenen Irrtums-WS in ein Experiment hinein geht und dieses entsprechend plant. In der Praxis jedoch erhält man viel öfter experimentelle Daten (z.B. Statistisches Bundesamt), auf deren Erhebung man gar keinen Einfluss hatte bzw. die Versuchsbedingungen nicht beeinflussen konnte. Dann ist es selbst streng methodisch genommen nicht falsch, die Nullhypothese zu unterschiedlichen Signfikanzniveaus zu testen. Allerdings muss man schon sehr gut aufpassen, ob man mit einem extrem niedrigen α nicht zu sehr in den Bereich der richtig positiven Alternativhypothese fällt, von dem man ja gar keine Information besitzt. Fazit ist, man sollte sich von einem wesentlich niedrigeren p-Wert als dem vorgegebenen α nicht zu einer "Steigerung" der Sicherheit verleiten lassen.**

Answer 39

* Beim zweiseitigen Test beträgt die IrrtumsWS 1-a/2, beim einseitigen Test 1-a * Für D wird eine Normalverteilung verlangt. Wie schon früher erwähnt, praktisch reicht es für den t-Test aus, wenn bei n\>10 die Verteilung der ZG annähernd symmetrisch ist. In diesem Test wird die Differenz von zwei ZG gebildet und damit entschärft sich die Bedingung dahingehend, dass es ausreicht, wenn X und Y gleiche, wenn auch unsymmetrische Verteilungen besitzen. Durch die Differenzbildung gleicht sich die Unsymmetrie zum großen Teil aus. * Anm.: Paarige SP sind SP mit Wertepaaren, wobei die einzelnen Realisierungen der Wertepaare weiterhin voneinander statistisch unabhängig sein müssen.

Answer 40

* Beispiel: Die Datenpaare x1 und x2 repräsentieren zwei exponentielle rechtsschiefe Verteilungen, wie sie in der Biostatistik häufig vorkommen. Beide stammen aus GG mit Erwartungswert 1 (Modus=0). Die Differenz ist symmetrisch verteilt, da die ursprünglichen Verteilungen x1 und x2 beide rechtsschief sind und in etwa gleiche Verteilungsparameter besitzen. Bei dem SP-Umfang von 500 kann man annehmen, dass der Mittelwert von d zur Berechnung von t normalverteilt ist (ZGWS). * Matlab liefert folgendes Ergebnis: * h = 0, d.h. H0 wird nicht verworfen. Man kann jedoch nicht sagen, dass H0 richtig ist! * p = 0.93, d.h. p\>a, (a=5% default in Matlab-ttest), also gibt es keinen Grund, H0 zu verwerfen * ci gibt das Konfidenzintervall auf dem Niveau 95% an * tstat ist die berechnete Testgröße t * df ist der Freiheitsgrad * sd ist die Standardabweichung der SP * Dazu Matlab-Übung, experimentelle Daten unter ttest\_beispiel.mat. Alternativ in Matlab die hier angegebenen Schritte durchspielen. Betrachten Sie die Entwicklung der Varianz und der Korrelation von generierenden Daten bis hin zur Differenz, die mit dem t-Test geprüft wird.

Answer 41

* Die Bedingung der identischen Standardabweichung ist relativ streng und muss überprüft werden. Für die Berechnung der Testgröße t gehen beide Varianzen mit entsprechenden Gewichten ein, denn diese werden praktisch immer unterschiedlich sein, auch auf Grund unterschiedlicher SP und ihrer Umfänge. * Zu Voraussetzungen: * Die geforderte NV zu überprüfen ist problematisch, siehe Einführung zu t-Tests. Praktisch ist es sicherer, sich auf den ZGWS zu verlassen, d.h. ausreichend große SP zu entnehmen. * Die geforderte Identität der Varianzen zu überprüfen ist ebenso problematisch, da der in Frage kommende F-Test zur Überprüfung der Gleichheit von zwei Varianzen (genauso wie der Anpassungstest zur Überprüfung der NV) bei kleinem SP-Umfang durch Beibehaltung der H0 einen riesigen Fehler aufweisen kann. * Für praktische Analyse sollten daher die SP-Umfänge ausreichend groß (n\>10...20) und die ZG X und Y in etwa gleich verteilt sein. Dies lässt sich in der Versuchsplanung gut berücksichtigen. Bei ungeplanten Experimenten bleibt nur noch eine sinnvolle und routinierte Datenselektion übrig, die jedoch – bewusst oder unbewusst – zu falschen Schlussfolgerungen führen kann. * Dieser Test ist relativ robust und bei Einhaltung der praktischen Hinweise auch zuverlässig.

Answer 42

* In diesem Beispiel werden bereits vorhandene simulierte Daten verwendet. * Aus den beiden schiefen, doppeltexponentiell verteilten SP x1 und x2 werden zwei ungleich große SP gebildet. Die Varianzen der beiden SP unterscheiden sich naturgemäß wegen des unterschiedlichen SP-Umfangs, während die Varianz der GG identisch ist. Dies ist gesichert, da die Daten als ursprüngliche eine einzige SP generiert wurden. An dieser Stelle müsste man prüfen, ob nun die beiden SP in der GG identische Varianz hatten. Dazu käme zunächst der F-Test in Frage (siehe F-Test später). Dieser würde – selbst bei diesen hohen SP-Umfängen – das Ergebnis bringen, dass die H0 (Varianzen gleich) nicht verworfen wird. Damit findet man sich am Anfang der Signifikanzanalyse wieder: Die H0 wird zwar nicht verworfen, aber ob H1 gültig ist, kann man nicht testen. * In der praktischen Vorgehensweise wird daher die gewichtete Varianz berechnet und in der Hoffnung, dass der ZGWS hier wirkt, wird der t-Test durchgeführt. Zu beachten ist, dass die gemeinsame Varianz nicht in der Mitte zwischen den beiden SP-Varianzen liegt, sondern immer näher an der Varianz der größeren SP (Wichtung durch den SP- Umfang). * Für den zweiseitigen t-Test wird der kritische Wert ermittelt. Der Vergleich zeigt, dass die Prüfgröße kleiner ist als der kritische Wert, daher wird die H0 auf dem Signifikanzniveau 95% nicht verworfen.

Answer 43

Das Problem bei der Abschätzung des notwendigen SP-Umfangs ist, dass die Größen, von den er abhängt, nicht bekannt sind und letztendlich von n abhängen. Qualitativ lassen sich die Zusammenhänge des SP-Umgangs und der weiteren statistischen Parameter jedoch gut beschreiben: Der SP-Umfang n * steigt mit der empirischen Varianz s² * ist umgekehrt proportional der quadratischen Differenz des wahren und des empirischen Mittels, * steigt mit abnehmender Irrtumswahrscheinlichkeit a . An dieser Stelle wird an den p-Wert erinnert: Wird ein Experiment mit a = 5% geplant und durchgeführt, so wird eine nachträgliche "Erhöhung" der Sicherheit auf p bei p In der analytischen Praxis liegt bei den meisten Fragestellungen im Normalfall Vorwissen vor, zumindest die Rahmenbedingungen sind bekannt. Weiterhin kann man einen erwarteten Effekt quantifizieren, z.B. ein Fiebersenkungsmittel wird als wirksam angesehen, falls die erreichte Absenkung mindestens 0.5 Grad Celsius beträgt (Differenz des theoretischen und des empirischen Mittels). Aus empirischen Daten ist auch die Standardabweichung bei H0 bekannt – etwa 1.0 ^oC. Allein aus diesen Daten lässt sich der SP-Umfang beim Testen der Wirkung des Fiebersenkungsmittels auf etwa n=16 (t_0,95 wird etwa 2 gesetzt) abschätzen.

Answer 44

* Diese Anwendung des t-Tests ist der sog. Assoziationstest, mit dem geprüft wird, ob man an Hand des empirischen KK nach Pearson auf einen (linearen!) Zusammenhang in der GG schließen kann. * Unter bestimmten Bedingungen (SP-Umfang ausreichend groß, n\>30..100) sind die KK der SP, die aus der GG gezogen wurden, normalverteilt (Übung in Matlab). Daher kann der t-Test zunächst angewandt werden. Normalerweise ist dieser Test einseitig, es sei denn, man will die H₀ bestätigen. Aus der Formel geht hervor, je höher der empirische KK und je größer die SP, umso eher wird die H₀ abgelehnt. Allerdings sind die Voraussetzungen relativ streng: Die ZG müssen N-verteilt sein, d.h. die Projektion der Verbundverteilung auf die Achsen muss einer Normalverteilung entsprechen (siehe Kapitel zu KK).

Answer 45

Die Prüfung der ZG, deren Zusammenhang geprüft werden soll, beschränkt sich praktisch auf die visuelle Inspektion der Daten und Kontrolle der empirischen Maße auf näherungsweise Normalverteilung und Homogenität (siehe Kapitel zu KK). Für spätere Prüfung der Residuen sollten aus der GG immer mehrere SP entnommen werden, um ausreichend Statistik zur Residuenprüfung zu erhalten. Dies geht natürlich nur, wenn insgesamt genügend Daten zur Verfügung stehen. Bei kleinen SP kommt diese Prüfung gar nicht in Frage.

Answer 46

* Für die simulierten Daten ergibt sich ein KK von 0,5277. Dies an sich ist kein überzeugender Wert, da er gerade in der Mitte zwischen keiner (r=0) und vollständiger (r=1) Korrelation liegt. Allerdings ist der SP-Umfang mit n=1000 relativ hoch, was auch zu einem großen Wert der Prüfgröße führt. Vor allem auf Grund der großen SP wird der kritische Wert weit überschritten und die H0 kann verworfen werden. Hier ist zu beachten (siehe ROC), dass das statistisch sichere Verwerfen der H0 noch lange nicht bedeutet, dass H1 auch als sicher gilt. Man würde es demnach so interpretieren, dass mit einer Signifikanz von 95% die Annahme eines fehlenden linearen Zusammenhangs verworfen werden kann. Also ein Zusammenhang ist vorhanden, nur weiß man nicht, wie sicher er ist. * Bei kleinen SP ist es nicht möglich, die ZG auf NV zu prüfen, auf Residuen schon gar nicht (n\<30..100). In der Praxis hat man daher zwei Schwellen akzeptiert, nach den der KK klassifiziert wird: Ist r\<0.2, so nimmt man einen fehlenden, ist r\>0.8, so nimmt man einen vorhandenen Zusammenhang an. Ist 0.2

Answer 47

Wenn genügend Daten zur Verfügung stehen, so dass man auch hinreichend viele SP entnehmen kann (n\>1000), so empfiehlt sich zur statistischen Absicherung die Analyse der Residuen. Als Residuen werden Daten bezeichnet, die sich als Differenz zwischen modellierten und realen Daten ergeben. So kann man bereits bei einer einzigen SP die Verteilung der Residuen auf Normalverteilung und Erwartungswert prüfen. Wie in diesem Beispiel gezeigt, fällt diese Prüfung positiv aus. Da aber nur eine SP zur Verfügung stand, kann man über die Eigenschaften Homogenität der Varianzen und Unabhängigkeit der Residuen keine weiteren Aussagen treffen. In Matlab Übung zu mehreren SP, um auch diese Eigenschaften zu testen.

Answer 48

Eigenschaften des KK bei der Verletzung der Bedingung von normalverteilten ZG: Der Zusammenhang zwischen rechtsschiefen, doppeltexponentiell verteilten Daten (vorheriges Beispiel), sollte mit dem KK nach Pearson untersucht werden. Die Verteilung von 1000 Stichproben (m=1000) vom Umfang n=100 wurde untersucht. Die ZG sind ganz klar rechtsschief und exponentiell (mw=1, modus=0, var=5). Der KK ist näherungsweise NV mit mw=0.3872 und var=0.0153 (std=0.1237). In sofern scheint der KK selbst bei der verletzten Bedingung der NV gut zu funktionieren. Allerdings liegt der theoretische Wert für den KK bei 0.5 (ergibt sich aus der Datensimulation), was auch experimentell in vorangegangenen Beispielen bestätigt wurde. Daraus folgt, dass die Verletzung der Voraussetzung bezüglich NV dazu geführt hat, dass der KK unterschätzt wird und daher der Test sich konservativ verhalten wird, obwohl er korrekt auf einen NV- KK angewandt wurde. Dies ist in der praktischen Analyse nicht immer von Vorteil.

Answer 49

Mit rangbasierten Tests entschärft sich die Situation dahingehen, dass die ZG nicht mehr NV sein müssen, man kann also eine wesentlich größere Robustheit der Tests erwarten. Allerdings verbergen diese Tests – wie Rangstatistiken generell – massive Gefahren in der Interpretation der Ergebnisse. Rangstatistiken sind nämlich grundsätzlich nichtlinear und die Transformation der Daten auf ihren Rang ist irreversibel. Daraus folgt, dass man zwar auf dem Hinweg zum Test die Rangtransformation nutzen kann und auch ein robustes Ergebnis erhält. Allerdings ist die rückwärtsgerichtete Implikation nicht immer korrekt, verallgemeinert formuliert sogar unzulässig. Dazu später ein Beispiel. Die Hypothesen sind zunächst mit denen eines Einstichproben-Tests identisch.

Answer 50

1. Die experimentellen Daten werden aufsteigend sortiert und der sortierten SP werden ebenfalls aufsteigend Rangzahlen beginnend mit Eins vergeben. 2. Man addiert aller Ränge oberhalb und unterhalb von µ₀ und bildet die Rangsummen. Zur Rechenkontrolle wird die Summe überprüft. Hier werden dieselben Daten verwendet, wie in vorangegangenen Beispielen: Rechtsschief, doppelt exponentiell, mit Modus=0 und Mittelwert=1.

Answer 51

* Die Vorgehensweise war korrekt, die H1 wird nur angenommen, wenn R kleiner ist als der Tabellenwert. Im Extremfall kann R=0 sein, was bedeutet, dass sich die Rangsummen maximal unterscheiden. Dann ist auch kein Test mehr notwendig, entweder liegen alle Werte links oder rechts von µ₀. Sonst nimmt R Werte zwischen 0 und n(n+1)/4 an. Im Unterschied zu anderen Tests ist es hier so, **dass kleine Werte der Prüfgröße R auf große Unterschiede hindeuten.** * Nun ist es angebracht, diesen Test bzw. die Daten näher zu betrachten. Die Testdaten sind rechtsschief und doppeltexponentiell verteilt, wie auf den Folien 142 und 150 gezeigt. Das heißt, die Voraussetzung der symmetrischen Verteilung wurde nicht eingehalten. Denn bei symmetrischer Verteilung liegen in etwa genauso viele Ränge unter wie über µ₀ Das ist hier offenbar nicht der Fall. Die Testgröße R ist größer als der Tabellenwert, daher wird die H0 nicht verworfen. Bereits der t-Test (Folie 144) hat H0 nicht verworfen. * **Fazit ist, der Wilcoxon-Test ist viel robuster gegen die Verletzung der Forderung nach einer Normalverteilung, allerdings ist er selbst empfindlich gegen die Forderung nach der Symmetrie der Daten**. Da diese in diesem Beispiel unsymmetrisch sind, entscheidet der Test fälschlicherweise für die H0, wobei klar ist (durch die Datenerzeugung ist dies sicher), dass H1 richtig ist.

Answer 52

Dieser Test bildet das Analogon zu einem t-Test für verbundene SP: Man kann die Frage nach Gleichheit der Lageparameter auf eine ZG reduzieren – auf die Differenz. Dieser Test ist praktisch viel robuster als der Wilcoxon-Test für eine SP. Der Grund liegt darin, dass zwei SP, die verglichen werden sollen, meistens zumindest qualitativ gleiche Verteilungen haben, also auch gleich schiefe. Daher ist ihre Differenz meistens symmetrisch, womit alle Voraussetzungen für diesen Test (vorausgesetzt stetige ZG) erfüllt wären.

Answer 53

* Der U-Test bildet Rangstatistik-basierte Alternative zum t-Test für unverbundene Stichproben. Die einzige Voraussetzung ist die Stetigkeit der Zufallsgröße. Sie ist in der Praxis im Normalfall immer erfüllt. Sonst müssen bei diesem Test keine weiteren Voraussetzungen erfüllt sein und daher ist er sehr robust. Robustheit ist ohnehin eine typische Eigenschaft von Rangstatistiken. Allerdings ist diese ansonsten sehr positive Eigenschaft nur auf Kosten der Interpretierbarkeit und der Irreversibilität zu haben: Rangstatistiken sind grundsätzlich nichtlinear, wobei der Grad der Nichtlinearität nicht bekannt und stochastisch ist. Sie sind irreversibel, da nach der Transformation der Daten auf Ränge der Bezug zu Daten verloren geht. In Ausnahmefällen kann über die ganze Analyse der Bezug (Indexierung der Daten) mitgenommen werden, was allerdings mit einem enormen Aufwand verbunden ist. * Anm: Der Grund für die Forderung nach einer stetigen ZG ist, dass nur dann sichergestellt werden kann, dass es keine zwei oder mehr identische Werte der ZG gibt und die Rangzahlen eindeutig vergeben werden können. Dennoch kann es vorkommen, dass man einen oder mehrere identische Werte erhält. Dann bekommen alle identischen Werte das arithmetische Mittel der sonst zu vergebenden Rangzahlen. Zum Beispiel tritt der Messwert 134 für den Blutdruck zweimal auf: Die Werte würden die Ränge 4 und 5 bekommen, daher bekommen beide 4,5.

Answer 54

1. Die Stichproben (lila und blau) wurden den in früheren Beispielen verwendeten Daten entnommen: Doppelt exponentielle, rechtsschiefe Verteilungen. 2. Aus den beiden SP wird eine gemeinsame SP gebildet. Dazu müssen die Indizes gespeichert werden, um hinterher die sortierten Daten den Stichproben 1 und 2 zuordnen zu können. 3. Aus den Rängen der geordneten gemeinsamen SP (die zu den ursprünglichen SP zugehörigen Ränge sind entsprechend farblich markiert) werden die Rangsummen (farblich markiert) gebildet. 4. Die Prüfgröße in diesem Fall ist größer als die kritische Größe, die H0 wird nicht verworfen. Wenn die Prüfgröße kleiner wäre, hätte man die H0 verworfen. Pauschal gilt, dass je näher die Prüfgröße an 0 liegt, umso sicherer kann die H0 verworfen werden.

Answer 55

Als Testdaten wurden dieselben (doppelt exponentiell, rechtsschief) Daten verwendet, wie in vorangegangenen Beispielen. Der Test wurde in Matlab ausgeführt. Nun stellt sich die Frage, welchem der beiden Tests man vertrauen soll. Beide wurden zur Irrtums-WS von 5% durchgeführt, bei beiden sind die Voraussetzungen praktisch erfüllt. Allerdings ist bei beiden Tests nicht bekannt, wie die Datenverteilung aussieht, falls die H1 wahr ist. Und dies ist der entscheidende Punkt: * Rangtests neigen dazu (konservativ), H₀ zu bevorzugen. Das führt jedoch zur Reduktion der Sensitivität (1-ß), d.h. der "test power", obgleich zur Steigerung der Spezifität. * Die t-Tests neigen dazu, bei nicht erfüllten Voraussetzungen (die in der Praxis nie restlos erfüllt sind) schneller für signifikant zu entscheiden, als es das Fehlerniveau a zulässt. Dadurch wird a entgegen den Vorgaben faktisch erhöht. Zwar wird dadurch auch die Sensitivität angehoben, aber nur auf Kosten der Spezifität. * Pragmatisches Vorgehen: Im Normalfall will man eine Wirkung nachweisen, d.h. man möchte H₀ ablehnen. Dafür würde sich der t-Test scheinbar besser eignen. Dann muss man aber sehr genau prüfen, ob die Voraussetzungen hinreichend gut erfüllt sind. Bei Unsicherheit sollte man eher auf Rangtests zurückgreifen. Damit bleibt das erhoffte Ergebnis möglicherweise aus. Man erspart sich aber einen Imageschaden und weitere Konsequenzen, falls man sich zu optimistisch für H₁ entschieden hat, H₀ jedoch richtig war.

Answer 56

Der Binomialtest ist bei ZG anwendbar, die (theoretisch) einer Binomialverteilung unterliegen, also bei Alternativmerkmalen, wie männlich/weiblich, Lebewesen vorhanden/nicht vorhanden, im Nachrichtenkanal eine logische 0/1, usw. Wie bereits bei der Binomialverteilung erläutert, setzt man bei Unkenntnis der wahren WS die theoretische WS p0=0.5 an. Dann wird beim zweiseitigen Test geprüft, ob H₀ anzunehmen ist, beim einseitigen Test wird p\>p₀ oder p 0 geprüft.

Answer 57

* Wie schon bei der Binomialverteilung besprochen, liegt die theoretische Verteilung nur dann vor, wenn die GG unendlich (bzw. hinreichend) groß ist. Dann kann man aus der theoretischen Verteilung den Annahmebereich 1-a berechnen, einfach aus der inversen Verteilungsfunktion. * In der praktischen Analyse (die Annahme der theoretischen Verteilung gilt nicht) kann man für genügend großen SP-Umfang davon ausgehen, dass die Prüfgröße np0 normalverteilt ist mit oben angegebenen Parametern. Der Wert 1,96 ist der z- Wert für das Signifikanzniveau 1-a/2. Durch den Term 0,5 wird der Annahmebereich von H0 erweitert: Dies ist die sog. Stetigkeitskorrektur (Weiß: Basiswissen Medizinische Statistik). * Der Binomialtest ist vielseitig einsetzbar, da er als 1-SP-Test für jedes Merkmal als Alternativmerkmal aufgefasst werden kann. Hinzu kommt, dass die Voraussetzungen zu seiner praktischen Anwendung sich allein auf genügenden Umfang der SP beschränken, der ohnehin fast bei jedem Test verlangt wird. Damit ist der Test auch sehr robust bei verschiedensten Verteilungen der ZG (siehe ZGWS).

Answer 58

Bei gültiger H0 geht man davon aus, dass bei gleich vielen Wertepaaren die Differenz positiv und negativ ist, daher im Mittel Null. Die Voraussetzung ist fast immer erfüllt, daher kann der Test faktisch immer eingesetzt werden. Er ist also sehr robust, viel robuster, als rangsummenbasierte Tests. Die höhere Robustheit ergibt sich aus der Tatsache, dass hier nicht einmal die Werte eine Rolle spielen, wie bei Rangstatistiken, sondern allein das Vorzeichen. Diese Robustheit wird natürlich auf Kosten anderer wichtiger Eigenschaften erkauft. Vor allem die "test power" wird stark herabgesetzt, da dieser Test extrem konservativ ist.

Answer 59

* Für kleine SP kann die WS einer bestimmten Anzahl von +/- berechnet werden. Allerdings geht man von einer theoretischen WS für +/- von 0,5. Aus signalanalytischer Sicht sind die Daten faktisch binarisiert mit der Diskriminanzschwelle 0. Und da die theoretische WS gleich 0,5 gesetzt wurde, geht man implizit davon aus, dass zumindest dem Vorzeichen nach ihre Differenz symmetrisch ist. Diese Voraussetzung ist in der Praxis selbst bei stark schiefen Verteilungen gut erfüllt. * Für große n kann die Standardnormalverteilung mit dem EW=n.0,5 und Varianz n.0,25 als Teststatistik verwendet werden.

Answer 60

Die Entscheidung zwischen zwei verschiedenen Testergebnissen ist qualitativ das selbe Problem, wie beim Vergleich des t-Tests und des Wilcoxon-Tests. Die simulierten Daten sind wegen guter Vergleichbarkeit verschiedener Testergebnisse dieselben, wie in vorangegangenen Beispielen. Wie man an den Matlab-Simulationen erkennen kann, wurde die zweite SP um den Wert 1 verschoben, so dass eine richtige Entscheidung heißen würde, die H0 zu verwerfen. Der Wilcoxon-Test, der an sich schon robust ist, trifft die richtige Entscheidung. Der Vorzeichentest ist jedoch konservativer und behauptet daher, H0 wäre anzunehmen. An diesem Beispiel wird die Problematik wieder einmal sehr deutlich, die sich pauschal wie folgt ausdrücken lässt: Steigerung der statistischen Sicherheit gegen den Fehler einer Art führt zur Erhöhung des Fehlers der anderen Art. Angewandt auf dieses Beispiel heißt es, der Vorzeichentest ist stark konservativ, was den Fehler der ersten Art a reduziert, dafür nimmt aber der Fehler der zweiten Art b zu bzw. die test power 1-b nimmt ab. Wo ein annehmbarer Kompromiss liegt, hängt von weiteren Überlegungen ab, die zusätzlich die Fehlerkosten berücksichtigen. Dazu wird auf einschlägige Literatur verwiesen. Der Vorzeichentest sollte nicht als alleiniger Entscheidungstest verwendet werden, eher als eine erste Orientierung. Denn robuste Tests sind zwar fast völlig unabhängig von weiteren Bedingungen, dafür aber sehr konservativ, wie hier gezeigt wurde.

Answer 61

In der Praxis tritt oft das Problem auf, dass der Einfluss mehrerer Parameter untersucht werden muss, z.B. die Wirkung von drei oder mehr Behandlungsmethoden. Dazu werden mehrere SP generiert und nach dem angegebenen Schema ein geeigneter Test ausgewählt. Für die Varianzanalyse gelten dieselben Voraussetzungen, wie bei 1- und 2-SP-t-Tests. Vor allem wird es problematisch sein, die Bedingung der Normalverteilung zu erfüllen. Auf die Rangbasierten Tests werden ebenso die bisher behandelten Voraussetzungen übertragen. Mit diesen Tests wird allein die Signifikanz zwischen den SP geprüft, nicht die möglichen Querbeziehungen. Praktisch wird es wie im folgenden Beispiel dargestellt durchgeführt: Drei Blutdruck senkende Medikamente werden auf ihre Wirksamkeit getestet. Diese werden Hypertonikern verabreicht und anschließend getestet. Der Test sagt aus, welches Medikament wirkt. Er sagt aber nicht aus, ob eine Kombination aus den Medikamenten wirkt und auch nicht, ob es einen Zusammenhang zwischen Merkmalen der Hypertoniker (Alter, Gewicht, Fitness) mit den jeweiligen Medikamenten gibt. Um auch diese Zusammenhänge, die natürlich vom fundamentalen Interesse sind, zu testen, sind multivariate Analysemethoden notwendig.

Answer 62

* •Das Ziel der Diskriminanzanalyse besteht darin, Daten zu gruppieren und die Gruppen mit analytisch (Gerade, Parabel) oder statistisch (neuronale Netze) ermittelten Grenzen voneinander zu trennen. Es handelt sich faktisch um ein Klassifizierungsverfahren. Ein Objekt wird an Hand seiner Merkmale einer Gruppe zugeordnet. * •Die PCA ist eine Methode, die vorhandenen Daten, die bei mehr als drei Dimensionen gar nicht mehr dargestellt und daher kaum interpretiert werden können, in ein neues Koordinatensystem zu transformieren. Die neuen Variablen sind zueinander orthogonal und repräsentieren die Originaldaten als Linearkombination der neuen Variablen. Dadurch werden die nichtorthogonalen (abhängige) Daten überflüssig und man erreicht eine Datenreduktion ohne Datenverlust. In der Bildverarbeitung ist diese Transformation auch als Karhunen-Loeve-Transformation bekannt. Die PCA liefert keine Information über die statistischen Zusammenhänge zwischen den Originaldaten. Sie ist lediglich eine Redundanz minimierende Orthogonalisierungsmethode, die dadurch zur Reduktion der Dimension von Daten führt. * Die FA ist auch eine Methode zur Reduktion der Datendimension. Allerdings geht sie von einem anderen Datenmodell aus, das im Unterschied zur PCA auch Korrelationen zwischen Originaldaten berücksichtigt. Daher ist die FA dazu geeignet, die Art und die Stärke der Zusammenhänge zu analysieren. Oft werden die PCA und die FA als Synonym behandelt und mit gleichen Algorithmen berechnet. Der fundamentale Unterschied im Datenmodell und seine Auswirkung auf die Interpretation der Daten sollte deshalb immer berücksichtigt werden. * •MANOVA ist wie die PCA eine Methode zur orthogonalen Zerlegung der Eingangsdaten, die mit Hilfe einer Linearkombination so modelliert werden, dass die Trennung der Gruppen maximal ist. Dies ist der wesentliche Unterschied zur PCA, bei der die Linearkombinationen nach maximaler Varianz der Komponenten geordnet werden. Obwohl sich die Methoden PCA, FA und MANOVA im Datenmodell bzw. der Interpretation der Wechselbeziehungen unterscheiden, werden sie im Kern mit identischen Algorithmen berechnet (Eigenwerte und Eigenvektoren). * Clusteranalyse ist eine Methodengruppe, mit der versucht wird, Cluster an Hand ähnlicher Merkmale zu bilden, die voneinander durch unterschiedliche Merkmale getrennt sein sollen. Bekannteste Clusteranalysen: Hierarchisch (Abstandsbasiert), Partitionierend (k-means, self-organizing maps), fuzzy-clustering

Answer 63

* Bei der Testauswahl sind grundsätzlich alle in den Eingangsdaten verfügbaren Informationen auszuschöpfen. Bei der statistischen Analyse und Interpretation der Ergebnisse können Effekte auftreten, die bei der Planung von Versuchen nicht bekannt oder nicht absehbar waren. * 1-seitiger Test ist anwendbar, wenn die Richtung einer möglichen Veränderung von vornherein bekannt ist bzw. nur eine möglich ist (Körpergröße zwischen dem 12. und dem 15. Lebensjahr, Cholesterin senkendes Mittel). Allerdings sind 1-seitige Tests empfindlicher gegen Verletzung der Voraussetzungen. Dies gilt pauschal und ist dadurch erklärbar, dass beim 2-seitigen Test die Unsicherheit nach beiden Seiten gleich verteilt ist und nur halb so hoch, so dass stochastische Abweichungen nach beiden Seiten toleriert werden und nur "halb so schlimm" sind. * Der Ermessensspielraum bei der Testauswahl und bei der Festlegung der statistischen Parameter ist sehr weit, was zur "adaptiven Anpassung" geradezu einlädt. Mit "adaptiver Anpassung" ist hier wissenschaftlich ironisch ein höchst verwerfliches Vorgehen gemeint, bei dem der Test oder die Parameter (SP-Umfang, Unsicherheit) nach einem unerwünschten Testergebnis so lange "angepasst" werden, bis sich das erhoffte Testergebnis einstellt. So z.B. könnte man nach einem 2-seitigen Test, der die Ergebnisrichtung gezeigt hat, auf die Idee kommen, hinterher einen 1-seitigen Test nachzuschieben um so die Signifikanz zu erreichen oder sie vermeintlich zu verbessern. Allerdings beträgt dann die Unsicherheit nicht a, sondern 2a. * Der p-Wert liefern die heutigen Computertests. Liegt dieser unter a, so ist H0 abzulehnen, liegt er über a, so wird H0 angenommen. Bei pa könnte man versucht sein, die Daten zu trimmen, um unter a zu kommen. Beides ist methodisch unsauber und kann bei Verifikationen zu sehr unangenehmen Konsequenzen führen. * •Zu niedriger SP-Umfang nimmt immer H0 an, zu hoher lehnt sie immer ab. Wann ist er richtig? Praktisch wichtige Differenz festlegen, daraus Umfang schätzen. Der beste Weg über sequentielle Tests (praktisch nicht immer machbar): Iterative Erhöhung von n um 1 bis H0 verworfen. Natürlich nicht bis ins Unendliche, sondern angemessen und praktikabel. Der benötigte SP-Umfang ist dann optimal, nicht zu hoch und nicht zu niedrig.

Answer 64

* Signifikanz sagt lediglich aus: ein Unterschied ist vorhanden. Dieser muss jedoch noch keine praktische Bedeutung haben. Bei einem signifikanten Unterschied im Blutdruck von 3 mmHg vor und nach Medikamentengabe kann man noch nicht über die Wirksamkeit des Medikaments urteilen, die Differenz hat bei den Messmethoden (mind. 10% Messfehler) keine praktische Bedeutung. Ist der Unterschied nicht signifikant, heißt es noch lange nicht, dass er nicht besteht. Vielleicht ist nur der SP-Umfang zu klein. Man ist nicht nur für die korrekte Testvorbereitung und - durchführung verantwortlich, sondern auf für die Interpretation. * Die heutige Ausstattung erlaubt problemlose Auswertung riesiger Datenfluten im Krankenhaus. Man könnte auf die Idee kommen, z.B. die Wirkung von Blutgerinnung hemmenden Mitteln in mehreren OPs und Intensivstationen gleichzeitig zu prüfen. So wird ein Test in 15 Stationen durchgeführt in der Hoffnung auf mindestens ein signifikantes Ergebnis. Da eine gemeinsame Aussage getroffen werden soll, müssen die Signifikanzniveaus miteinander multipliziert werden. Dies führt auf eine gemeinsame Signifikanz von 46% (faktisch kann man gleich mit einer Münze entscheiden) und zum Anstieg der Unsicherheit auf 54% ! Korrekt wäre eine Zusammenfassung aller Ergebnisse und Test auf 1 bzw. 2 Stichproben mit der Unsicherheit von 5%.

Answer 65

* Bei deskriptiven Studien Merkmale erfassen und beschreiben. Bei analytischen Studien werden mögliche und hypothetisch formulierte Zusammenhänge untersucht und auf Art des Zusammenhangs analysiert. Eine theoretisch hergeleitete und mit Vorwissen untermauerte Hypothese wird aufgestellt. Man verlangt zwar, dass eine klare und dokumentierte Hypothese formuliert wird und dieser in der Studie nachgegangen wird. Diese strenge Vorgabe schließt jedoch nicht aus, dass andere Zusammenhänge oder Effekte auftreten, die vorher nicht absehbar waren. Daher muss man die Bedeutung einer vorab gestellten Arbeitshypothese nicht verabsolutieren. * Nach Möglichkeit sollten alle bekannten Einflussgrößen in die Studie einbezogen werden. Das kann schnell zu einer riesigen Datenflut anwachsen, die schließlich eine enorme Steigerung des SP-Umfangs zur Folge haben kann. In diesem Fall muss eine Entscheidung getroffen werden, welcher Anteil der wichtigen Einflussgrößen einbezogen wird. Dazu sind Vorstudien eine gute Sammlung. * •Die unverzerrende SG ist zufällig und hebt sich im Mittel meistens auf. Die verzerrende SG ist problematischer: Sie hat Einfluss auf die Zielgröße, ist selbst aber nicht kausal für den Zusammenhang. Oft ist es daher schwierig, zwischen einer Einflussgröße und einer Störgröße zu unterscheiden. Zunehmendes Alter führt zum Anstieg der Sterblichkeit. Verheiratete leben länger als Unverheiratete. Störgröße ist der Partnerstatus. Falsche Schlussfolgerung wäre zu heiraten, nur um länger zu leben. * Nicht alles, was statistisch untersucht werden kann, ist auch ethisch. Jede Studie sollte durch eine Ethikkomission genehmigt werden. Für den Umfang einer Studie und dadurch meistens auch für ihren Erfolg, zumindest im statistischen Sinne, sind die verfügbaren Ressourcen (Geld, Zeit, Raum, Ausstattung, Personal) und ausreichend viele rekrutierbare Patienten von entscheidender Bedeutung. Eine schlechte Planung führt nicht nur in eine Sackgasse, sondern sie vernichtet auch noch die ohnehin knappen Ressourcen. Daher ist eine verantwortungsvolle Planung genau so wichtig wie die Studie selbst.

Answer 66

* Sollen Gruppen miteinander verglichen werden, so muss man logischerweise gewährleisten, dass die Gruppen sich nur in dem untersuchten Merkmal (hoher Blutdruck) unterscheiden, das man ja ändern möchte. Wie schwierig das ist, wird klar, wenn man sich ein Bild darüber macht, welche sonstigen Größen (Einflussgrößen) das Merkmal beeinflussen (Beim Blutdruck Alter, Gewicht, Ernährung, Rauchen, Alkohol, Stress, psychische Probleme, Umwelt, usw.). Bei einer großen verfügbaren GG können die Gruppen durch Randomisierung gebildet werden, d.h. die Gruppenzuordnung erfolgt nach einem Zufallsgenerator. Dabei hofft man auf eine Gleichverteilung der Einflussgrößen über die Gruppen. Bei niedriger Anzahl von Untersuchten funktioniert die Randomisierung nicht (siehe Gesetzmäßigkeiten bei kleinen Zahlen). Daher werden vor der Randomisierung Schichten (strata) gebildet, um nach bekannten Parametern vorab zu klassifizieren, so z.B. altersbezogene Schichten vor einer Gesichtsfelduntersuchung (Das Gesichtsfeld ist altersabhängig und jedem Alter gilt eine andere Norm). Gleichzeitig können weitere Schichten gebildet werden, z.B. nach Geschlecht oder Erkrankungen der Vorfahren. Kleine Schichten bilden sog. Blöcke, z.B. paarige Organe (Augen, Nieren), Kinder einer identischen Mutter. Beispielsweise kann bei dem Test auf Wirksamkeit von Augentropfen ein Auge mit dem getesteten Mittel zur Absenkung des Augeninnendrucks behandelt werden, das andere Auge mit einem Placebo. * Da bei klinischen Studien die Beobachtungen weitgehend subjektiv sind, ist es notwendig, dass das selbe Personal die Gruppen im selben Zeitraum und mit derselben Methode untersucht. Aus Gründen der subjektiven Einflüsse seitens der Patienten wie auch der Mediziner ist die sicherste die doppeltblinde Studie, bei der weder der Mediziner noch der Patient wissen, ob sie Wirkmittel oder Placebo bekommen. Wenn nur der Mediziner informiert ist, handelt es sich um eine einfach blinde Studie. Wenn alle Bescheid wissen, ist es eine offene Studie. Die letztgenannte ist sehr problematisch, da sehr oft sog. Placeboeffekte auftreten. Bei diesen tritt allein durch die Erwartungshaltung der Patienten ein therapeutischer Effekt auf, obwohl das Wirkmittel nicht wirkt.

Answer 67

Es ist unbedingt zu beachten, dass der PPV in einem gegebenen Kollektiv (z. B. Gesamtbevölkerung) nur dann Gültigkeit besitzt, wenn die Prävalenz der betreffenden Erkrankung im diesem Kollektiv mit der Prävalenz in jenem Kollektiv, in dem der PPV erhoben wurde, übereinstimmt. Beispiel: Wurden zur Bestimmung des PPV 100 HIV-Patienten und 100 gesunde Kontrollpatienten untersucht, so entspricht dies nicht der tatsächlichen Prävalenz von HIV in der Gesamtbevölkerung. Die Angabe des in einem solchen, selektiven Kollektiv erhobenen PPV-Wertes ist nicht zulässig und irreführend.

Answer 68

* Die WS, dass man tatsächlich krank ist, beträgt rund 1/4 ! Anders formuliert, drei von vier Personen werden fälschlicherweise als krank klassifiziert. Im Nenner steht faktisch die totale WS für B, P(B), siehe Satz von der totalen WS. * Zusammenfassung: Man kennt die Sensitivität des Tests, also die WS P(B|A), mit der ein tatsächlich Kranker als krank erkannt wird. Die WS P(A) ist die Prävalenz. Die totale WS P(B) ist unbekannt, muss daher aus den Angaben über komplementäre Ereignisse ermittelt werden. Die WS P(B|Ac) ist die WS dafür, dass man fälschlicherweise als krank bezeichnet wird wenn man gesund ist und P(B|A) die WS dafür, dass man als krank bezeichnet wird wenn man tatsächlich krank ist.

Answer 69

* Die A-priori-Wahrscheinlichkeit ist ein Wahrscheinlichkeitswert, der aufgrund von Vorwissen (zum Beispiel symmetrische Eigenschaften eines Würfels) gewonnen wird. Die älteste Methode für die Bestimmung von A-priori-Wahrscheinlichkeiten stammt von Laplace: Sofern es keinen expliziten Grund gibt, etwas anderes anzunehmen, wird allen elementaren Ereignissen dieselbe Wahrscheinlichkeit zugeordnet. Zum Beispiel sind bei einem Münzwurf die elementaren Ereignisse "Kopf" und "Zahl". Solange man keinen Grund hat, anzunehmen, die Münze sei manipuliert, wird man also beiden Ereignissen dieselbe Wahrscheinlichkeit 1/2 zuordnen. * Als A-posteriori-Wahrscheinlichkeit (auch statistische Wahrscheinlichkeit) wird eine empirisch ermittelte Wahrscheinlichkeit bezeichnet. Während einige Zufallsprozesse aus etwa geometrischen Gründen plausible Erwartungen einer so genannten A-priori-Wahrscheinlichkeit erlauben - etwa die Gleichwahrscheinlichkeit aller sechs Augenzahlen beim Würfelspiel wegen der Symmetrie des Würfels -, ist man in vielen anderen Fällen darauf angewiesen, zuerst eine möglichst lange Reihe von Zufallsexperimenten durchzuführen. Wegen des empirischen Gesetzes der großen Zahlen darf dabei die relative Häufigkeit des Auftretens eines Ereignisses in der Versuchsreihe als bestmöglicher Schätzwert seiner Auftretenswahrscheinlichkeit betrachtet werden.

Answer 70

* Die Tabelle gibt eine Übersicht über die Möglichkeiten, wobei uns in diesem Beispiel vor allem interessiert, wie viele der geimpften Männer erkrankt sind. Wird diese Tabelle in Form von WS dargestellt, dient sie der Beurteilung von Spezifität und Sensitivität (siehe statistische Tests) * Der Anteil geimpfter und erkrankter Männer hn(A und B) beträgt 6%, allerdings bezüglich der Grundgesamtheit. Für die Auswertung der Wirksamkeit einer Impfung ist aber der Anteil der erkrankten bei den geimpften Männer wichtig. Dieser ist zwar mit 16% geringer als in der Grundgesamtheit. Allerdings stellt sich die Frage, ob das Absinken von 20% auf 16% signifikant – also statistisch sicher ist – oder nur eine natürliche Schwankung darstellt. Dazu später bei statistischen Tests.

Answer 71

Ein weit verbreiteter Irrtum in der Deutung der Wahrscheinlichkeit besteht darin, dass man davon ausgeht, dass gleich wahrscheinliche Ereignisse auch gleich häufig auftreten werden. An dieser Stelle möge man sich die vorherige Folie in Erinnerung rufen: Die relative Häufigkeit konvergiert auf die theoretische WS erst im Falle sehr vieler Versuche. Im Umkerschluß heißt das, dass bei einer kleinen Zahl der Versuche die Häufigkeit u.U. ganz anders aussehen kann. Und leider tut sie es auch. Sie entspricht nämliche dem Gesetz der kleinen Zahlen, das sich an die Poisson-Verteilung orientiert (lambda=1). Diese wird später detailliert behandelt. Hier sollen nur die Konsequenzen aus dieser Erkenntnis gezeigt werden: Ein Drittel tritt gar nicht ein (daher auch die Bezeichnung Gesetz des einen Drittels), ein Drittel tritt genau einmal ein und sogar die Hälfte der Eintritte passiert mehrfach. Man kann diesen Effekt auch so interpretieren, dass jede – auch noch so unmöglich erscheinende Kombination – auftreten kann (siehe Wiederholungen von Ziffern im Lotto beim Spiel 77 und Super 6). Hierbei ist die Anzahl der Versuche gleich der Anzahl der möglichen Ereignisse. Lambda ist die theoretische Häufigkeit für das Auftreten einer Zahl. Bei 37 Zahlen und 37 Ziehungen also ist Lambda=1.

Statistic Flashcards

(104 cards)