Laufen Regressionen In Stata Forex

Mehrfache Regressionsanalyse mit Stata Einleitung Mehrfache Regression (eine Erweiterung der einfachen linearen Regression) wird verwendet, um den Wert einer abhängigen Variablen (auch als Outcome Variable bekannt) auf der Basis des Wertes von zwei oder mehr unabhängigen Variablen (auch als Prädiktorvariablen bekannt) vorhersagen zu können ). Zum Beispiel könnten Sie mehrere Regression verwenden, um festzustellen, ob die Prüfung der Angst auf der Grundlage von Kursmarke, Revisionszeit, Vortragsbeginn und IQ-Score vorhergesagt werden kann (dh die abhängige Variable wäre die Untersuchung der Angst, und die vier unabhängigen Variablen würden Kursnote, Revision sein Zeit, Vortrag und IQ Score). Alternativ könnten Sie mehrere Regression verwenden, um festzustellen, ob Einkommen auf der Grundlage von Alter, Geschlecht und Bildungsniveau prognostiziert werden kann (d. h. die abhängige Variable wäre Einkommen, und die drei unabhängigen Variablen würden Alter, Geschlecht und Bildungsniveau sein). Wenn Sie eine dichotome abhängige Variable haben, können Sie eine binomische logistische Regression verwenden. Mehrfache Regression erlaubt Ihnen auch, die Gesamtanpassung (Varianz erklärt) des Modells und den relativen Beitrag jeder der unabhängigen Variablen zu der Gesamtabweichung zu bestimmen. Zum Beispiel möchten Sie vielleicht wissen, wie viel von der Variation in der Prüfung Angst erklärt werden kann durch Kursnote, Revisionszeit, Vortrag und IQ Punktzahl als Ganzes, sondern auch die relative Beitrag jeder unabhängigen Variablen in der Erklärung der Varianz. Diese Kurzanleitung zeigt Ihnen, wie Sie mit Stata mehrere Regression durchführen und wie Sie die Ergebnisse aus diesem Test interpretieren und melden können. Doch bevor wir Ihnen dieses Verfahren vorstellen, müssen Sie die verschiedenen Annahmen verstehen, die Ihre Daten erfüllen müssen, um für mehrere Regression zu sorgen, um Ihnen ein gültiges Ergebnis zu geben. Wir besprechen diese Annahmen als nächstes. Annahmen Es gibt acht Annahmen, die mehrere Regression untermauern. Wenn eine dieser acht Annahmen nicht erfüllt ist, können Sie Ihre Daten nicht mit mehreren Regression analysieren, da Sie kein gültiges Ergebnis erhalten. Da sich die Annahmen 1 und 2 auf die Wahl der Variablen beziehen, können sie nicht mit Stata getestet werden. Allerdings sollten Sie entscheiden, ob Ihre Studie diese Annahmen erfüllt, bevor Sie weitergehen. Annahme 1: Ihre abhängige Variable sollte auf der kontinuierlichen Ebene gemessen werden. Beispiele für solche kontinuierlichen Variablen sind die Höhe (gemessen in Fuß und Zoll), die Temperatur (gemessen in 176C), das Gehalt (gemessen in US-Dollar), die Revisionszeit (gemessen in Stunden), die Intelligenz (gemessen mit der IQ-Punktzahl), die Reaktionszeit (gemessen In Millisekunden), Testleistung (gemessen von 0 bis 100), Umsatz (gemessen in Anzahl der Transaktionen pro Monat) und so weiter. Wenn Sie sich nicht sicher sind, ob Ihre abhängige Variable stetig ist (d. h. im Intervall - oder Verhältnis-Niveau gemessen), finden Sie in unserem Variablen-Handbuch. Annahme 2: Sie haben zwei oder mehr unabhängige Variablen. Die auf der kontinuierlichen oder kategorischen Ebene gemessen werden sollten. Beispiele für kontinuierliche Variablen. Sehe die Kugel oben. Beispiele für kategorische Variablen sind Geschlecht (zB 2 Gruppen: männlich und weiblich), Ethnizität (zB 3 Gruppen: Kaukasier, Afroamerikaner und Hispanic), körperliche Aktivität (zB 4 Gruppen: sesshaft, niedrig, mäßig und hoch), Beruf (zB 5 Gruppen: Chirurg, Arzt, Krankenschwester, Zahnarzt, Therapeut) und so weiter. In diesem Leitfaden zeigen wir Ihnen die vielfache Regressionsmethode, weil wir eine Mischung aus kontinuierlichen und kategorischen unabhängigen Variablen haben. Anmerkung: Wenn Sie nur kategoriale unabhängige Variablen (dh keine kontinuierlichen unabhängigen Variablen) haben, ist es üblicher, die Analyse aus der Perspektive einer Zwei-Wege-ANOVA (für zwei kategoriale unabhängige Variablen) oder faktorielle ANOVA (für drei oder mehr kategorische) Unabhängige Variablen) anstelle von mehreren Regression. Glücklicherweise können Sie die Annahmen 3, 4, 5, 6, 7 und 8 mit Stata überprüfen. Wenn wir uns auf die Annahmen 3, 4, 5, 6, 7 und 8 begeben, empfehlen wir, diese in dieser Reihenfolge zu testen, da sie einen Auftrag darstellt, bei dem, wenn ein Verstoß gegen die Annahme nicht korrigierbar ist, Sie nicht mehr mehrfach verwenden können Regression In der Tat, seien Sie nicht überrascht, wenn Ihre Daten eine oder mehrere dieser Annahmen ausschließen, da dies ziemlich typisch ist, wenn Sie mit realen Daten arbeiten, anstatt Lehrbuchbeispiele, die Ihnen oft nur zeigen, wie man lineare Regression durchführt, wenn alles gut läuft. Allerdings machen Sie sich keine Sorgen, denn selbst wenn Ihre Daten bestimmte Annahmen fehlschlagen, gibt es oft eine Lösung, um diese zu überwinden (z. B. Umwandlung Ihrer Daten oder mit einem anderen statistischen Test stattdessen). Denken Sie daran, dass, wenn Sie nicht überprüfen, dass Sie Daten erfüllt diese Annahmen oder Sie für sie richtig zu testen, die Ergebnisse erhalten Sie, wenn mehrere Regression ausgeführt werden möglicherweise nicht gültig. Annahme 3: Sie sollten Unabhängigkeit von Beobachtungen haben (d. h. Unabhängigkeit von Residuen), die Sie in Stata mit der Durbin-Watson-Statistik einchecken können. Annahme 4: Es muss eine lineare Beziehung zwischen (a) der abhängigen Variablen und jeder Ihrer unabhängigen Variablen und (b) die abhängige Variable und die unabhängigen Variablen zusammen sein. Sie können die Linearität in Stata mit Scatterplots und partiellen Regressionsdiagrammen überprüfen. Annahme 5: Ihre Daten müssen Homosedastizität zeigen. Wo ist die Abweichung entlang der Linie der besten fit bleiben ähnlich wie Sie entlang der Linie bewegen. Sie können auf Homoscedasticity in Stata überprüfen, indem Sie die studentisierten Residuen gegen die nicht standardisierten vorhergesagten Werte zeichnen. Annahme 6: Ihre Daten dürfen keine Multikollinearität aufweisen. Die auftreten, wenn Sie zwei oder mehr unabhängige Variablen haben, die in hohem Maße miteinander korreliert sind. Sie können diese Annahme in Stata durch eine Inspektion von Korrelationskoeffizienten und ToleranzVIF-Werten überprüfen. Annahme 7: Es sollte keine signifikanten Ausreißer geben. Hohe Hebelpunkte oder einflussreiche Punkte. Die Beobachtungen in Ihrem Datensatz darstellen, die in irgendeiner Weise ungewöhnlich sind. Diese können einen sehr negativen Effekt auf die Regressionsgleichung haben, die verwendet wird, um den Wert der abhängigen Variablen basierend auf den unabhängigen Variablen vorherzusagen. Sie können mit Stata auf Ausreißer, Hebelpunkte und einflussreiche Punkte prüfen. Annahme 8: Die Residuen (Fehler) sollten annähernd normal verteilt sein. Die Sie in Stata mit einem Histogramm (mit einer überlagerten Normalkurve) und Normal P-P Plot oder einem Normal Q-Q Plot der studentisierten Residuen einchecken können. In der Praxis wird die Prüfung der Annahmen 3, 4, 5, 6, 7 und 8 wahrscheinlich die meiste Zeit bei der Durchführung mehrerer Regression einnehmen. Allerdings ist es keine schwierige Aufgabe, und Stata bietet alle Werkzeuge, die Sie benötigen, um dies zu tun. Im Abschnitt Testverfahren in Stata. Wir veranschaulichen die Stata-Prozedur, die erforderlich ist, um eine multiple Regression durchzuführen, vorausgesetzt, dass keine Annahmen verletzt wurden. Zuerst haben wir das Beispiel, das wir verwenden, um das multiple Regressionsverfahren in Stata zu erklären. Ein Gesundheitsforscher will VO 2 max vorhersagen, ein Indikator für Fitness und Gesundheit. Normalerweise erfordert dieses Verfahren, um dieses Verfahren durchzuführen, teure Laborausrüstung, und erfordert, dass Einzelpersonen ihr Maximum ausüben müssen (d. h. bis sie sich nicht länger durch körperliche Erschöpfung ausüben können). Dies kann Personen, die nicht sehr aktiv sind, und diejenigen, die ein höheres Krankheitsrisiko haben könnten (z. B. ältere untaugliche Themen). Aus diesen Gründen war es wünschenswert, einen Weg zur Vorhersage eines Individuums VO 2 max auf der Grundlage von Attributen zu finden, die leichter und billiger gemessen werden können. Zu diesem Zweck rekrutierte ein Forscher 100 Teilnehmer, um einen maximalen VO 2 max Test durchzuführen, aber auch sein Alter, Gewicht, Herzfrequenz und Geschlecht aufgezeichnet. Herzfrequenz ist der Durchschnitt der letzten 5 Minuten von 20 Minuten, viel einfacher, niedriger Arbeitsbelastung Zyklus Test. Das Ziel der Forscher ist es, VO 2 max auf der Grundlage dieser vier Attribute vorhersagen zu können: Alter, Gewicht, Herzfrequenz und Geschlecht. Hinweis: Das Beispiel und die Daten, die für diese Anleitung verwendet werden, sind fiktiv. Wir haben sie gerade für die Zwecke dieses Leitfadens geschaffen. Setup in Stata In Stata haben wir fünf Variablen erstellt: (1) VO 2 max. Die die maximale aerobe Kapazität (d. h. die abhängige Variable) und (2) Alter ist. Was sind die Teilnehmer Alter (3) Gewicht. Das ist die Teilnehmer Gewicht (technisch ist es ihre Masse) (4) Herzfrequenz. Was ist die Teilnehmer Herzfrequenz und (5) Geschlecht. Das ist das Teilnehmer Geschlecht (d. h. die unabhängigen Variablen). Nach dem Erstellen dieser fünf Variablen haben wir die Scores für jeden in die fünf Spalten der Dateneditor (Edit) Kalkulationstabelle eingegeben, wie unten gezeigt: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Testverfahren in Stata In diesem Abschnitt zeigen wir Ihnen, wie Sie Ihre Daten mit mehreren Regression in Stata analysieren können, wenn die acht Annahmen im vorherigen Abschnitt, Annahmen. Nicht verletzt worden Sie können mehrere Regression mit Code oder Statas grafische Benutzeroberfläche (GUI) durchführen. Nachdem Sie Ihre Analyse durchgeführt haben, zeigen wir Ihnen, wie Sie Ihre Ergebnisse interpretieren können. Zuerst wählen Sie, ob Sie Code oder Statas grafische Benutzeroberfläche (GUI) verwenden möchten. Der Code für die Durchführung mehrerer Regression auf Ihre Daten nimmt die Form an: regress DependentVariable IndependentVariable1 IndependentVariable2 IndependentVariable3 IndependentVariable4 Mit unserem Beispiel, wo die abhängige Variable VO2max ist und die vier unabhängigen Variablen Alter sind. Gewicht. Herzfrequenz und Geschlecht. Der erforderliche Code wäre: regress VO2max Altersgewicht Herzfrequenz i. gender Hinweis: Youll sehen aus dem Code oben, dass kontinuierliche unabhängige Variablen einfach eingegeben werden, wie es ist, während kategorische unabhängige Variablen das Präfix i haben (zB Alter für Alter, da dies ein ist Kontinuierliche unabhängige Variable, aber i. gender für Geschlecht, da dies eine kategorische unabhängige Variable ist). Also geben Sie den Code, regress VO2max Alter Gewicht Herzfrequenz i. gender. Und drücken Sie die ReturnEnter-Taste auf Ihrer Tastatur. Sie können die Stata-Ausgabe sehen, die hier produziert wird. Grafische Benutzeroberfläche (GUI) Die sieben Schritte, die zur Durchführung einer Mehrfachregression in Stata erforderlich sind, sind unten aufgeführt: Klicken Sie auf Statistik gt Lineare Modelle und verwandte gt Lineare Regression im Hauptmenü, wie unten gezeigt: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Anmerkung: Dont Sorge, dass youre Auswahl von Statistiken gt Lineare Modelle und verwandte gt Lineare Regression im Hauptmenü, oder dass die Dialogfelder in den folgenden Schritten haben den Titel, Lineare Regression. Du hast keinen Fehler gemacht Sie sind an der richtigen Stelle, um die Mehrfachregressionsverfahren durchzuführen. Dies ist nur der Titel, den Stata gibt, auch wenn man eine multiple Regressionsverfahren durchführt. Sie werden mit der Regress-Linear Regression Dialogbox, wie unten gezeigt präsentiert: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Wählen Sie die abhängige Variable VO2max aus. Aus der Dependent Variable: box und wählen Sie die kontinuierlichen unabhängigen Variablen, Alter. Gewicht und Herzfrequenz aus der Unabhängigen Variablen: Box, mit dem Dropdown-Button, wie unten gezeigt: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Wählen Sie die kategoriale unabhängige Variable, Geschlecht. Aus der Liste Unabhängige Variablen: Klicken Sie zunächst auf die Schaltfläche. Dies wird Ihnen die folgende Dialogbox präsentieren, in der Ihre kontinuierlichen unabhängigen Variablen (Alter Gewicht und Herzfrequenz) bereits in die Varlist eingegeben wurden: box: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Lassen Sie die Faktor-Variable im ndashType des Variablendash-Bereichs ausgewählt. Als nächstes werden im ndashAdd-Faktor variablendash-Bereich im Feld Specification: ausgewählt. Wählen Sie nun das Geschlecht im Feld "Variablen" mit der Dropdown-Schaltfläche aus und wählen Sie im Feld "Basis" die Option "Standard". Schließlich klicken Sie auf die Schaltfläche. Sie werden mit der folgenden Dialogbox versehen, in der die kategoriale unabhängige Variable i. gender steht. Wurde in die Varlist eingegeben: box: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Drück den Knopf. Du wirst zum Regress zurückkehren - Linear Regression Dialogfeld, aber mit der kategorischen unabhängigen Variable, i. gender. Jetzt in die Unabhängige Variablen eingegeben: Feld, wie unten gezeigt: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Drück den Knopf. Dadurch wird die Ausgabe erzeugt. Interpretation und Reporting der Stata-Ausgabe mehrerer Regressionsanalyse Stata erzeugt ein einziges Ausgabedatum für eine multiple Regressionsanalyse basierend auf den oben getroffenen Selektionen unter der Annahme, dass die acht für die multiple Regression benötigten Annahmen erfüllt sind. Bestimmen, wie gut das Modell passt Das R 2 und das eingestellte R 2 können verwendet werden, um zu bestimmen, wie gut ein Regressionsmodell auf die Daten passt: Die R-quadratische Zeile repräsentiert den R 2 - Wert (auch als Koeffizient der Bestimmung bezeichnet), was der Anteil ist Der Abweichung in der abhängigen Variablen, die durch die unabhängigen Variablen erklärt werden kann (technisch ist der Anteil der Variation, der durch das Regressionsmodell über das mittlere Modell hinaus berechnet wird). Sie können aus unserem Wert von 0,577 sehen, dass unsere unabhängigen Variablen 57,7 der Variabilität unserer abhängigen Variablen, VO 2 max, erklären. Allerdings musst du auch Adj R-squared (adj. R 2) interpretieren können, um deine Daten genau zu melden. Statistische Bedeutung Das F - ratio prüft, ob das gesamte Regressionsmodell für die Daten gut geeignet ist. Die Ausgabe zeigt, dass die unabhängigen Variablen die abhängige Variable statisch signifikant vorhersagen, F (4, 95) 32.39, p lt .0005 (d. h. das Regressionsmodell ist eine gute Anpassung der Daten). Geschätzte Modellkoeffizienten Die allgemeine Form der Gleichung zur Vorhersage von VO 2 max ab dem Alter. Gewicht. Herzfrequenz und Geschlecht ist: vorhergesagt VO 2 max 87,83 ndash (0,165 x Alter) ndash (0,385 x Gewicht) ndash (0.118 x Herzfrequenz) (13.208 x Geschlecht) Dies ergibt sich aus dem Coef. Spalte, wie unten gezeigt: Unstandardisierte Koeffizienten geben an, wieviel die abhängige Variable mit einer unabhängigen Variablen variiert, wenn alle anderen unabhängigen Variablen konstant gehalten werden. Betrachten Sie die Wirkung des Alters in diesem Beispiel. Der nicht standardisierte Koeffizient B 1. Für das Alter ist gleich -0.165 (siehe die erste Zeile der Coef-Spalte). Dies bedeutet, dass für jede 1 Jahr Erhöhung des Alters gibt es eine Abnahme in VO 2 max von 0,165 mlminkg. Statistische Bedeutung der unabhängigen Variablen Sie können die statistische Signifikanz der einzelnen unabhängigen Variablen testen. Dies prüft, ob die nicht standardisierten (oder standardisierten) Koeffizienten gleich 0 (Null) in der Population sind. Wenn p lt .05, können Sie schließen, dass die Koeffizienten statistisch signifikant unterschiedlich zu 0 (Null) sind. Der t-Wert und der entsprechende p-Wert befinden sich in den t - und Pgtt-Spalten, wie nachfolgend hervorgehoben: Aus der Pgtt-Spalte sehen Sie, dass alle unabhängigen Variablenkoeffizienten statistisch signifikant von 0 (Null) verschieden sind. Obwohl der Intercept, B 0. Wird auf statistische Signifikanz geprüft, das ist selten ein wichtiger oder interessanter Befund. Berichterstattung über die Ausgabe der multiplen Regressionsanalyse Sie können die Ergebnisse wie folgt aufschreiben: Eine multiple Regression wurde durchgeführt, um VO 2 max von Geschlecht, Alter, Gewicht und Herzfrequenz vorherzusagen. Diese Variablen statistisch signifikant vorhergesagt VO 2 max, F (4, 95) 32,39, p lt .0005, R 2 .577. Alle vier Variablen addierten sich statistisch signifikant zur Vorhersage, p lt .05.Lineare Regressionsanalyse unter Verwendung von Stata Einleitung Eine lineare Regression, auch als einfache lineare Regression oder bivariate lineare Regression bekannt, wird verwendet, wenn wir den Wert einer abhängigen Variablen basierend auf vorhersagen wollen Der Wert einer unabhängigen Variablen. Zum Beispiel könnten Sie lineare Regression verwenden, um zu verstehen, ob die Prüfungsleistung auf der Grundlage der Revisionszeit vorhergesagt werden kann (dh Ihre abhängige Variable wäre die Prüfungsleistung, gemessen von 0-100 Mark, und Ihre unabhängige Variable wäre Revisionszeit, gemessen in Stunden) . Alternativ könnten Sie lineare Regression verwenden, um zu verstehen, ob der Zigarettenverbrauch auf der Grundlage der Raucher Dauer vorhergesagt werden kann (dh Ihre abhängige Variable wäre Zigarettenkonsum, gemessen in Bezug auf die Anzahl der täglich verbrauchten Zigaretten, und Ihre unabhängige Variable würde die Dauer des Rauchens sein in Tagen). Wenn Sie zwei oder mehr unabhängige Variablen haben, anstatt nur eine, müssen Sie mehrere Regression verwenden. Alternativ, wenn Sie nur wollen, um festzustellen, ob eine lineare Beziehung existiert, könnten Sie Pearsons Korrelation verwenden. Anmerkung: Die abhängige Variable wird auch als Ergebnis-, Ziel - oder Kriteriumvariable bezeichnet, während die unabhängige Variable auch als Prädiktor-, Erklärungs - oder Regressor-Variable bezeichnet wird. Letztlich, welcher Termin du benutzt, ist es am besten, konsistent zu sein. Wir werden diese als abhängige und unabhängige Variablen in diesem Leitfaden bezeichnen. In diesem Leitfaden zeigen wir Ihnen, wie Sie mit Stata eine lineare Regression durchführen und die Ergebnisse aus diesem Test interpretieren und melden können. Doch bevor wir Ihnen dieses Verfahren vorstellen, müssen Sie die verschiedenen Annahmen verstehen, die Ihre Daten erfüllen müssen, um eine lineare Regression zu erhalten, um Ihnen ein gültiges Ergebnis zu geben. Wir besprechen diese Annahmen als nächstes. Annahmen Es gibt sieben Annahmen, die eine lineare Regression untermauern. Wenn eine dieser sieben Annahmen nicht erfüllt ist, können Sie Ihre Daten nicht linear analysieren, da Sie kein gültiges Ergebnis erhalten. Da sich die Annahmen 1 und 2 auf die Wahl der Variablen beziehen, können sie nicht mit Stata getestet werden. Allerdings sollten Sie entscheiden, ob Ihre Studie diese Annahmen erfüllt, bevor Sie weitergehen. Annahme 1: Ihre abhängige Variable sollte auf der kontinuierlichen Ebene gemessen werden. Beispiele für solche kontinuierlichen Variablen sind die Höhe (gemessen in Fuß und Zoll), die Temperatur (gemessen in o C), das Gehalt (gemessen in US-Dollar), die Revisionszeit (gemessen in Stunden), die Intelligenz (gemessen mit der IQ-Punktzahl), die Reaktionszeit ( Gemessen in Millisekunden), Testleistung (gemessen von 0 bis 100), Umsatz (gemessen in Anzahl der Transaktionen pro Monat) und so weiter. Wenn Sie sich nicht sicher sind, ob Ihre abhängige Variable stetig ist (d. h. im Intervall - oder Verhältnis-Niveau gemessen), finden Sie in unserem Variablen-Handbuch. Annahme 2: Ihre unabhängige Variable sollte auf der kontinuierlichen oder kategorischen Ebene gemessen werden. Wenn Sie jedoch eine kategoriale unabhängige Variable haben, ist es üblicher, einen unabhängigen t-Test (für 2 Gruppen) oder eine einseitige ANOVA (für 3 Gruppen oder mehr) zu verwenden. Wenn Sie unsicher sind, sind Beispiele für kategorische Variablen Geschlecht (zB 2 Gruppen: männlich und weiblich), Ethnizität (zB 3 Gruppen: Kaukasier, Afroamerikaner und Hispanic), körperliche Aktivität (zB 4 Gruppen: sesshaft, niedrig, mäßig und Hoch) und Beruf (zB 5 Gruppen: Chirurg, Arzt, Krankenschwester, Zahnarzt, Therapeut). In dieser Anleitung zeigen wir Ihnen die lineare Regressionsabläufe und die Stata-Ausgabe, wenn sowohl Ihre abhängigen als auch unabhängigen Variablen auf einer kontinuierlichen Ebene gemessen wurden. Glücklicherweise können Sie die Annahmen 3, 4, 5, 6 und 7 mit Stata überprüfen. Wenn wir uns auf die Annahmen 3, 4, 5, 6 und 7 begeben, empfehlen wir, sie in dieser Reihenfolge zu testen, weil sie eine Reihenfolge darstellt, in der, wenn ein Verstoß gegen die Annahme nicht korrigierbar ist, Sie nicht mehr in der Lage sind, eine lineare Regression zu verwenden. In der Tat, seien Sie nicht überrascht, wenn Ihre Daten eine oder mehrere dieser Annahmen ausschließen, da dies ziemlich typisch ist, wenn Sie mit realen Daten arbeiten, anstatt Lehrbuchbeispiele, die Ihnen oft nur zeigen, wie man lineare Regression durchführt, wenn alles gut läuft. Allerdings machen Sie sich keine Sorgen, denn selbst wenn Ihre Daten bestimmte Annahmen fehlschlagen, gibt es oft eine Lösung, um diese zu überwinden (z. B. Umwandlung Ihrer Daten oder mit einem anderen statistischen Test stattdessen). Denken Sie daran, dass, wenn Sie nicht überprüfen, dass Ihre Daten diese Annahmen erfüllt oder Sie für sie falsch testen, die Ergebnisse, die Sie erhalten, wenn die lineare Regression nicht gültig ist. Annahme 3: Es muss eine lineare Beziehung zwischen den abhängigen und unabhängigen Variablen geben. Während es eine Reihe von Möglichkeiten gibt, um zu überprüfen, ob eine lineare Beziehung zwischen Ihren beiden Variablen besteht, empfehlen wir die Erstellung eines Scatterplots mit Stata, wo Sie die abhängige Variable gegen Ihre unabhängige Variable zeichnen können. Sie können dann das Scatterplot visuell überprüfen, um die Linearität zu überprüfen. Ihr Scatterplot kann so aussehen wie eine der folgenden: Wenn die in Ihrem Scatterplot angezeigte Beziehung nicht linear ist, müssen Sie entweder eine nichtlineare Regressionsanalyse ausführen oder Ihre Daten umwandeln, die Sie mit Stata bearbeiten können. Annahme 4: Es sollte keine signifikanten Ausreißer geben. Ausreißer sind einfach einzelne Datenpunkte innerhalb Ihrer Daten, die nicht dem üblichen Muster folgen (zB in einer Studie von 100 Studenten IQ Scores, wo die mittlere Punktzahl 108 mit nur einer kleinen Variation zwischen den Schülern war, hatte ein Schüler eine Punktzahl von 156, die Ist sehr ungewöhnlich und kann sie sogar in die Top 1 der IQ-Scores weltweit stellen). Die folgenden Scatterplots heben die potenziellen Auswirkungen von Ausreißern hervor: Das Problem mit Ausreißern ist, dass sie einen negativen Effekt auf die Regressionsgleichung haben können, die verwendet wird, um den Wert der abhängigen Variablen basierend auf der unabhängigen Variablen vorherzusagen. Dies ändert die Ausgabe, die Stata produziert und reduziert die prädiktive Genauigkeit Ihrer Ergebnisse. Glücklicherweise können Sie Stata verwenden, um casewise Diagnosen durchzuführen, um Ihnen zu helfen, mögliche Ausreißer zu entdecken. Annahme 5: Sie sollten Unabhängigkeit von Beobachtungen haben. Die Sie mit der Durbin-Watson-Statistik einfach überprüfen können. Das ist ein einfacher Test, um mit Stata zu laufen. Annahme 6: Ihre Daten müssen Homosedelität zeigen. Wo ist die Abweichung entlang der Linie der besten fit bleiben ähnlich wie Sie entlang der Linie bewegen. Die beiden Scatterplots unten geben einfache Beispiele für Daten, die diese Annahme erfüllen und eine, die die Annahme fehlschlägt: Wenn Sie Ihre eigenen Daten analysieren, sind Sie glücklich, wenn Ihr Scatterplot wie eines der beiden oben aussieht. Während diese helfen, die Unterschiede in den Daten zu veranschaulichen, die die Annahme der Homosedastizität erfüllen oder verletzen, sind reale Daten oft viel mehr chaotisch. Sie können überprüfen, ob Ihre Daten Homosedastizität zeigten, indem sie die Regression standardisierten Residuen gegen die Regression standardisierten vorhergesagten Wert. Annahme 7: Schließlich müssen Sie überprüfen, ob die Residuen (Fehler) der Regressionsgeraden annähernd normal verteilt sind. Zwei gängige Methoden zur Überprüfung dieser Annahme sind die Verwendung eines Histogramms (mit einer überlagerten Normalkurve) oder eines Normal-P-P-Plots. In der Praxis wird die Prüfung der Annahmen 3, 4, 5, 6 und 7 wahrscheinlich die meiste Zeit bei der Durchführung einer linearen Regression einnehmen. Allerdings ist es keine schwierige Aufgabe, und Stata bietet alle Werkzeuge, die Sie benötigen, um dies zu tun. Im Abschnitt Vorgehensweise. Wir veranschaulichen die Stata-Prozedur, die erforderlich ist, um eine lineare Regression durchzuführen, vorausgesetzt, dass keine Annahmen verletzt wurden. Zuerst legen wir das Beispiel fest, mit dem wir das lineare Regressionsverfahren in Stata erklären. Studien zeigen, dass die Ausübung helfen kann, Herzerkrankungen zu verhindern. Innerhalb vernünftiger Grenzen, je mehr Sie üben, desto weniger Risiko haben Sie von Herzkrankheiten zu leiden. Eine Möglichkeit, in der Übung reduziert Ihr Risiko von Herzkrankheiten leiden ist durch die Verringerung eines Fettes in Ihrem Blut, genannt Cholesterin. Je mehr Sie trainieren, desto niedriger die Cholesterinkonzentration. Darüber hinaus wurde vor kurzem gezeigt, dass die Zeitspanne, die Sie verbringen, Fernsehen ndash ein Indikator für einen sesshaften Lebensstil ndash könnte ein guter Vorhersage der Herzkrankheit (dh das ist, je mehr TV Sie sehen, desto größer ist Ihr Risiko von Herzerkrankungen ). Daher entschloss sich ein Forscher, festzustellen, ob die Cholesterin-Konzentration mit der Zeit verbunden war, die Fernsehen in ansonsten gesunden 45- bis 65-jährigen Männern (eine gefährdete Kategorie von Personen) verbrachte. Zum Beispiel, als die Menschen mehr Zeit mit dem Fernsehen verbracht haben, hat sich ihre Cholesterinkonzentration erhöht (eine positive Beziehung) oder das Gegenteil passiert Der Forscher wollte auch den Anteil der Cholesterin-Konzentration kennen, die die Zeit verbrachte, Fernsehen zu erklären, zu erklären, als auch zu sein In der Lage, die Cholesterinkonzentration vorherzusagen. Der Forscher konnte dann feststellen, ob zum Beispiel Menschen, die acht Stunden verbrachten Fernsehen pro Tag verbracht hatte gefährlich hohe Cholesterin-Konzentration im Vergleich zu Menschen nur zwei Stunden TV zu sehen. Um die Analyse durchzuführen, rekrutierte der Forscher 100 gesunde männliche Teilnehmer im Alter zwischen 45 und 65 Jahren. Die Zeitspanne, in der Fernsehen beobachtet wurde (d. h. die unabhängige Variable, Timetv) und die Cholesterinkonzentration (d. h. die abhängige Variable, Cholesterin), wurden für alle 100 Teilnehmer aufgezeichnet. Ausgedrückt in variablen Begriffen, wollte der Forscher Cholesterin auf Zeit zurücktreten. Hinweis: Das Beispiel und die Daten, die für diese Anleitung verwendet werden, sind fiktiv. Wir haben sie gerade für die Zwecke dieses Leitfadens geschaffen. Setup in Stata In Stata haben wir zwei Variablen erstellt: (1) timetv. Welches die durchschnittliche tägliche Zeit ist, die Fernsehen in Minuten (d. h. die unabhängige Variable) und (2) Cholesterin verbracht wird. Welche die Cholesterinkonzentration in mmolL ist (d. h. die abhängige Variable). Hinweis: Es spielt keine Rolle, ob Sie die abhängige oder unabhängige Variable zuerst erstellen. Nach dem Erstellen dieser beiden Variablen ndash timetv und cholesterol ndash haben wir die Scores für jeden in die beiden Spalten der Data Editor (Edit) Spreadsheet (dh die Zeit in Stunden, die die Teilnehmer sahen TV in der linken Spalte (dh timetv Unabhängige Variable) und Teilnehmer Cholesterin-Konzentration in mmolL in der rechten Spalte (dh Cholesterin die abhängige Variable), wie unten gezeigt: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP Testverfahren in Stata In diesem Abschnitt zeigen wir Ihnen, wie Sie Analysieren Sie Ihre Daten mit der linearen Regression in Stata, wenn die sechs Annahmen im vorherigen Abschnitt, Annahmen wurden nicht verletzt. Sie können lineare Regression mit Code oder Statas grafische Benutzeroberfläche (GUI) durchführen. Wenn Sie Ihre Analyse durchgeführt haben, haben wir Zeigen Sie, wie Sie Ihre Ergebnisse interpretieren können: Zuerst wählen Sie, ob Sie Code oder Statas grafische Benutzeroberfläche (GUI) verwenden möchten. Der Code zur Durchführung einer linearen Regression auf Ihre Daten nimmt die Form an: regress DependentVariable IndependentVariable Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP . Mit unserem Beispiel, wo die abhängige Variable ist Cholesterin und die unabhängige Variable ist timetv. Der erforderliche Code wäre: Regress Cholesterin Timetv Hinweis 1: Sie müssen genau sein, wenn Sie den Code in die Box eingeben. Der Code ist case sensitive. Zum Beispiel, wenn Sie Cholesterin, wo die C ist Großbuchstaben statt Kleinbuchstaben (dh ein kleines c), was es sein sollte, erhalten Sie eine Fehlermeldung wie die folgenden: Hinweis 2: Wenn Sie immer noch die Fehlermeldung in Anmerkung 2 : Oben, es lohnt sich, den Namen zu überprüfen, den du deine beiden Variablen in den Dateneditor gegeben hast, wenn du deine Datei einrichte (dh den Data Editor-Bildschirm oben sehen). In der Box auf der rechten Seite des Dateneditor-Bildschirms ist es so, dass du deine Variablen im Abschnitt geschrieben hast, nicht den Abschnitt, den du in den Code eingeben musst (siehe unten für unsere abhängige Variable). Dies mag offensichtlich erscheinen, aber es ist ein Fehler, der manchmal gemacht wird, was zu dem Fehler in Anmerkung 2 oben führt. Deshalb geben Sie den Code, regress Cholesterin timetv. Und drücken Sie die ReturnEnter-Taste auf Ihrer Tastatur. Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Sie können die Stata-Ausgabe sehen, die hier produziert wird. Grafische Benutzeroberfläche (GUI) Die drei Schritte, die zur Durchführung einer linearen Regression in den Stationen 12 und 13 erforderlich sind, sind nachfolgend aufgeführt: Klicken Sie auf S tatistics gt Lineare Modelle und verwandte gt Lineare Regression im Hauptmenü, wie unten gezeigt: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP Sie werden mit dem Regress ndash Linear Regression Dialogfeld präsentiert: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Wählen Sie Cholesterin aus der Liste der abhängigen Variablen aus: Dropdown-Feld und Zeitplan aus dem Dropdown-Feld Unabhängige Variablen: Sie werden mit dem folgenden Bildschirm enden: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Ausgabe der linearen Regressionsanalyse in Stata Wenn Ihre Daten die Annahme 3 (dh es gab eine lineare Beziehung zwischen Ihren beiden Variablen), 4 (dh es gab keine signifikanten Ausreißer), Annahme 5 (dh Sie hatten Unabhängigkeit von Beobachtungen), Annahme 6 ( Dh Ihre Daten zeigten Homosedastizität) und Annahme 7 (dh die Residuen (Fehler) wurden annähernd normal verteilt), was wir bereits im Abschnitt Annahmen erklärt haben, müssen Sie nur die folgende lineare Regressionsausgabe in Stata interpretieren: Veröffentlicht mit schriftlicher Erlaubnis von StataCorp LP. Die Ausgabe besteht aus vier wichtigen Informationsstücken: (a) Der R 2 - Wert (R-quadratische Reihe) repräsentiert den Anteil der Abweichung in der abhängigen Variablen, der durch unsere unabhängige Variable erklärt werden kann (technisch ist der Anteil der Abweichung Durch das Regressionsmodell über das mittlere Modell hinaus). Jedoch beruht R 2 auf der Stichprobe und ist eine positiv voreingenommene Schätzung des Anteils der Abweichung der abhängigen Variablen, die durch das Regressionsmodell (dh zu groß) (b) einen angepassten R 2 - Wert (Adj R - Quadrierte Reihe), die eine positive Vorspannung korrigiert, um einen Wert zu liefern, der in der Population erwartet werden würde (c) der F-Wert, Freiheitsgrade (F (1, 98)) und die statistische Signifikanz des Regressionsmodells (Prob gt F Zeile) Und (d) die Koeffizienten für die konstante und unabhängige Variable (Coef-Spalte), die die Information ist, die Sie benötigen, um die abhängige Variable, Cholesterin vorherzusagen. Mit der unabhängigen Variable, timetv. In diesem Beispiel ist R & sub2; 0,151. Adjusted R 2 0,143 (bis 3 d. p.), was bedeutet, dass die unabhängige Variable, timetv. Erklärt 14.3 der Variabilität der abhängigen Variablen, Cholesterin. In der Bevölkerung. Adjusted R 2 ist auch eine Schätzung der Effektgröße, die bei 0,143 (14,3) eine mittlere Effektgröße nach Cohens (1988) Klassifizierung anzeigt. Allerdings ist in der Regel R 2 nicht das eingestellte R 2, das in den Ergebnissen berichtet wird. In diesem Beispiel ist das Regressionsmodell statistisch signifikant, F (1, 98) 17.47, S.0001. Dies deutet darauf hin, dass insgesamt das angewendete Modell die abhängige Variable, Cholesterin, statistisch signifikant vorhersagen kann. Hinweis: Wir präsentieren die Ausgabe aus der linearen Regressionsanalyse oben. Da Sie jedoch Ihre Daten für die Annahmen getestet haben, die wir früher im Abschnitt "Annahmen" erläutert haben, müssen Sie auch die Stata-Ausgabe interpretieren, die bei der Prüfung dieser Annahmen erstellt wurde. Dazu gehören: (a) die Scatterplots, die du benutzt hast, um zu prüfen, ob es eine lineare Beziehung zwischen deinen beiden Variablen gab (dh Annahme 3) (b) Casewise Diagnostik, um zu überprüfen, dass es keine signifikanten Ausreißer gab (dh Annahme 4) (c) die Ausgabe von Die Durbin-Watson-Statistik zur Überprüfung der Unabhängigkeit der Beobachtungen (dh Annahme 5) (d) ein Scatterplot der Regressions-standardisierten Residuen gegen die Regression standardisierten vorhergesagten Wert, um festzustellen, ob Ihre Daten Homosedastizität (dh Annahme 6) und ein Histogramm (mit überlagert) Normalkurve) und Normal PP Plot, um zu überprüfen, ob die Residuen (Fehler) annähernd normal verteilt waren (dh Annahme 7). Denken Sie auch daran, dass, wenn Ihre Daten eine dieser Annahmen fehlten, die Ausgabe, die Sie von der linearen Regressionsverfahren erhalten (dh die Ausgabe, die wir oben diskutieren) nicht mehr relevant sind, und Sie müssen möglicherweise einen anderen statistischen Test durchführen, um zu analysieren deine Daten. Berichte über die Ausgabe der linearen Regressionsanalyse Wenn Sie die Ausgabe Ihrer linearen Regression melden, ist es sinnvoll, Folgendes einzugeben: (a) eine Einführung in die Analyse, die Sie durchgeführt haben (b) Informationen über Ihre Probe, einschließlich fehlender Werte (c) Der beobachtete F-Wert, Grad der Freiheit und des Signifikanzniveaus (dh der p-Wert) (d) der Prozentsatz der Variabilität in der abhängigen Variablen, die durch die unabhängige Variable (dh Ihr Adjusted R 2) und (e) die Regressionsgleichung erklärt wird Für Ihr Modell. Basierend auf den obigen Ergebnissen konnten wir die Ergebnisse dieser Studie wie folgt berichten: Eine lineare Regression stellte fest, dass die tägliche Zeit, die das Fernsehen beobachtete, die Cholesterinkonzentration, F (1, 98) 17,47, p .0001 und die Zeit, die Fernsehen beobachtete, statistisch signifikant vorhersagen konnte Entfielen 14,3 der erklärten Variabilität in der Cholesterinkonzentration. Die Regressionsgleichung war: vorhergesagte Cholesterinkonzentration -2.135 0,044 x (Zeit verbrachte Fernsehen). Zusätzlich zu dem Reporting der Ergebnisse wie oben kann ein Diagramm verwendet werden, um Ihre Ergebnisse visuell darzustellen. Zum Beispiel könntest du dies mit einem Scatterplot mit Vertrauens - und Vorhersageintervallen machen (obwohl es nicht sehr üblich ist, das letzte hinzuzufügen). Dies kann es anderen erleichtern, Ihre Ergebnisse zu verstehen. Darüber hinaus können Sie Ihre lineare Regressionsgleichung verwenden, um Vorhersagen über den Wert der abhängigen Variablen basierend auf verschiedenen Werten der unabhängigen Variablen zu machen. Während Stata diese Werte nicht als Teil des linearen Regressionsverfahrens oben erzeugt, gibt es eine Prozedur in Stata, die Sie dazu verwenden können.

Kaufen Sie Billig Cochem (Rhineland-Palatinate)

Search This Blog

Laufen Regressionen In Stata Forex

Comments

Post a Comment

Popular posts from this blog

Swing Handel Vs Tag Handel Forex

Iremit Forex Zusammenfassung

List Forex Handels Unternehmen In China