Tentfrågor Flashcards

1
Q

T-test

A

hypotesprövning där man vill jämföra om skillnad föreligger mellan två normalfördelade populationer där man inte känner det exakta värdet på standardavvikelsen.

Ett t-test är ett sätt att pröva om medelvärdet skiljer sig mellan två grupper, men t-testet är inte lämpligt när man behöver jämföra många grupper.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Variansanalys

A

ANOVA testar hypotesen att alla medelvärden är lika.

  • Eftersom vi då testar alla medelvärden på samma gång kan vi då göra det med 95 procents säkerhet – det blir bara ett test.
  • En analysmetod för att undersöka samband, (förkortat ANOVA från engelskans Analysis of variance) är en grupp statistiska metoder för hypotesprövning och används för att undersöka skillnader i medelvärde mellan fler än två grupper.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Regressionsanalys

A

Regressionsanalys, regression, är en gren inom statistik där målet är att skapa en funktion som bäst passar observerade data. Vid enkel linjär regression utgår man från att en rät linje kan anpassas till data och regressionsekvationen är då

y=a+bx

där y (vertikal) är den beroende (den som påverkas) variabeln och x (horisontell) är den oberoende (den som påverkar). Interceptet med y-axeln a och lutningen b beräknas så att felet jämfört med observerade data blir så litet som möjligt. Felet kan beräknas med exempelvis minstakvadratmetoden eller maximum likelihood.

Linjär regression förutsätter att variablerna är på intervallskalenivå.

Syftet med regressionsanalyser är att undersöka sambandet mellan olika variabler - t.ex. inkomst och remitteringar. Man kan inte utifrån en sådan analys veta om det är ett kausaltsamband d.v.s. om den ena av variablerna (och i så fall vilken) påverkar den andra, men man kan se om det finns ett samband eller ej.

Vid regressionsanalys kan determinationskoefficienten räknas fram genom att kvadrera korrelationskoefficienten (r)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Förklaringsgrad R2

A

I ”Model Summary” får vi ett mått på den oberoende variablens förklaringskraft, det vill säga hur väl variationen i den oberoende variabeln förklarar variationen i den beroende variabeln.

Determinationskoefficienten (=r2=r^2=R2) är en koefficient som anger hur stor del av variationerna i den beroende variabeln (y) som kan förklaras av variationer i den oberoende variabeln (x) under förutsättning att sambandet mellan x och y är linjärt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Modellens F-värde

A

F= explained variance / unexpected variance

or

F= between-group variability / in-group variability

Svaret får vi i tabellen ”ANOVA”. Det SPSS gör är att räkna ut ett så kallat F-värde. Grundprincipen är att den jämför variationen inom grupperna med variationen mellan grupperna. Ju större variationen mellan grupperna är, och ju mindre variationen inom grupperna är, desto större blir F. SPSS jämför sedan F-värdet med ett kritiskt värde, som beror på hur många personer som ingår i analysen. Om F-värdet är större än det kritiska värdet drar vi slutsatsen att det finns signifikanta skillnader mellan minst två av grupperna. Signifikansvärdet utläser vi längst till höger i tabellen, inringat i bild 2. Om värdet är under ,050 är resultatet signifikant med 95 procent säkerhet. I det här fallet blev signifikansvärdet ,012. Vi kan alltså med 95 procents säkerhet säga att åtminstone två av medelvärdena skiljer sig åt på ett sätt som inte beror på slumpen.

Om variansanalysen visar på ett icke-signifikant resultat, är det meningslöst att gå vidare och undersöka skillnader mellan enskilda grupper – alla grupperna kan sägas ha samma medelvärde. Men i det här fallet ser vi nu att det finns signifikanta skillnader, och det är då givetvis intressant att se vilka grupper som skiljer sig åt. För att göra det behöver vi göra ett så kallat post hoc-test.

An F-test is any statistical test in which the test statistic has an F-distribution under the null hypothesis. It is most often used when comparing statistical models that have been fitted to a data set, in order to identify the model that best fits the population from which the data were sampled. Exact F-tests mainly arise when the models have been fitted to the data using least squares.

TVi kan alltså med 95 procents säkerhet säga att åtminstone två av medelvärdena skiljer sig åt på ett sätt som inte beror på slumpen.)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Modellens β- skattningar

A

Non-standard

Hur mycket den oberoende variablen påverkar den beroende. I SPSS beteckans detta ofta så att man först räknar ut ett intercept varpå man kollar hur mycket varje steg i den oberoende påverkar den beroende variablen. Detta brukar i SPSS även standardiseras så att totala variansen blir 1.

Standardized

med hur stor procent den oberoende variabeln påverkar den beroende, t.ex. 0,5 -> påverkar med 50%

In statistics, standardized coefficients or beta coefficients are the estimates resulting from an analysis carried out on independent variables that have been standardized so that their variances are 1. Therefore, standardized coefficients refer to how many standard deviations a dependent variable will change, per standard deviation increase in the predictor variable. Standardization of the coefficient is usually done to answer the question of which of the independent variables have a greater effect on the dependent variable in a multiple regression analysis, when the variables are measured in different units of measurement (for example, incomemeasured in dollars and family size measured in number of individuals).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Dummy variabel

A

Är en variabel som antar värdet 0 eller 1 såsom t.ex kön (man =0 kvinna=1)

In statistics and econometrics, particularly in regression analysis, a dummy variable is one that takes the value 0 or 1 to indicate the absence or presence of some categorical effect that may be expected to shift the outcome.

Dummy variables are used as devices to sort data into mutually exclusive (ömsesidit uteslutande) categories (such as male/female, smoker/non-smoker, etc.).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Determinationskoefficienten R2

A

Är en koefficient som anger hur stor del av variationerna i den beroende variabeln (y) som kan förklaras av variationer i den oberoende variabeln (x) under förutsättning att sambandet mellan x och y är linjärt. Determinationskoefficienten kallas ofta förklaringsgrad. Vid enkel linjär regression kan den även räknas fram genom att kvadrera korrelationskoefficienten (r).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Intercept

A

→ I formeln är y en variabel (exempelvis kroppslängd) och x är en annan variabel (exempelvis ålder). a och b är konstanter, d.v.s. fasta tal. Värdena på a och b bestämmer hur linjen ser ut.

Konstanten a brukar kallas för intercept och b för regressionskoefficient. (y = a + bx)

a y-intercept is a point where the graph of a function or relation intersects with the y-axis of the coordinate system. It also acts as a reference point for slopes and some graphs.[1] As such, these points satisfy x=0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Linjärt samband

A

Ett svårdefinierat begrepp som enklast kan åskådliggöras med hjälp av diagram.

Ex: Vart och ett av de två punktdiagrammen nedan beskriver sambandet mellan två variabler, x och y. Av diagrammen visar det vänstra ett tydligt linjärt samband. Det högra visar ett mycket tydligt samband som inte är linjärt. Sådana samband kallas ibland för krökta.

diagram vänster: /

diagram höger: U

Vardagligt skulle man kanske kunna säga att ett samband är linjärt om det statistiska materialet, avbildat som ett punktdiagram, väl ansluter sig till en (tänkt) symmetriaxel (ett slags linje). Så är det till vänster ovan, men inte till höger.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Regressionsanalys

A

(Regressionsanalys) Vi kan utifrån ett spridningsdiagram där vi ser ett linjärt samband (antingen positivt eller negativt) beskriva sambandet med en linjär modell eller med andra ord beskriva sambandet som en linjär ekvation på formen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Positivism

A

Benämning på olika filosofiska riktningar som strävat efter att grunda tänkandet på “fakta”, det vill säga kunskap som baseras på sinneserfarenhet.

Genom empiriska studier försöker forskaren hitta egenskaper hos studieobjektet som återkommer också i andra fall och situationer. När man kartlagt ett tings regelbundenheter ger detta möjlighet att förutsäga, och ingripa i, ett skeende. Det som kan förutsägas (till exempel att jorden kommer att snurra ett varv runt solen under nästa år) är det som kan betraktas som kunskap. Det som inte kan vägas eller mätas betraktas som mindre intressant och man tenderar att se verkligheten som linjär.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Deduktiv ansats

A

Utgår från en teori för att formulera en empirisk hypotes.

Deduktion är i formella logiska system, som satslogik och predikatlogik, identiskt med härledning av slutsatser från givna premisser. Deduktion är här ett syntaktiskt begrepp, vilket betyder att det är möjligt att med slutledningsreglerna kontrollera följdriktigheten av deduktionen. Man behöver således inte känna till meningen av, utan endast relationer mellan, de ord som uppträder i premisser och slutsats.

Ett formellt deduktivt system består av ett antal axiom och minst en slutledningsregel. Metafysiska och kunskapsteoretiska resonemang har ofta en deduktiv karaktär. Argumentationen bygger vanligen på premisser, som antas vara självklara och slutledningsregler vilka oftast inte redovisas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Centroid

A

Medelvärdet för diskrimantens z-värden för alla objekt inom en viss kategori eller grupp. Ex. en två grupps diskriminantanalys har två centroider, en för föremålen i vardera av de två grupperna.

In geometry, the centroid, geometric center, or barycenter of a plane figure or two-dimensional shape X is the intersection of all straight lines that divide X into two parts of equal moment about the line. Informally, it is the “average” (arithmetic mean) of all points of X. The definition extends to any object X in n-dimensional space: its centroid is the intersection of all hyperplanes that divide X into two parts of equal moment.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

cut-off-värde

A

In many cases, only one side of the range is usually of interest, such as with markers of pathology including cancer antigen 19-9, where it is generally without any clinical significance to have a value below what is usual in the population.

Therefore, such targets are often given with only one limit of the reference range given, and, strictly, such values are rather cut-off values or threshold values. They may represent both standard ranges and optimal health ranges. Also, they may represent an appropriate value to distinguish healthy person from a specific disease, although this gives additional variability by different diseases being distinguished. For example, for NT-proBNP, a lower cut-off value is used in distinguishing healthy babies from those with acyanotic heart disease, compared to the cut-off value used in distinguishing healthy babies from those with congenital nonspherocytic anemia.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

kvot-skala

A

Utgör den högsta datanivån. Om variabeln antar en absolut noll-punkt där egenskapen upphör har vi en kvotskala variabel (Ålder) exempel: Lön startar med noll, ålder, längd kvotskala, en skala i vilken avstånden mellan skalstrecken är lika stora genom hela skalan och vilken dessutom innehåller en absolut nollpunkt. Kelvinskalan för temperatur är ett exempel på kvotskalor.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

variabel

A

Är något som kan ändras. Inom matematiken och datavetenskapen betecknar den ett namngivet objekt som används för att representera ett okänt värde, till exempel ett reellt tal. Variabler används i öppna utsagor. De kan anses stå i motsats till konstanter som är oföränderliga, liksom till parametrar som hålls konstanta under en given process eller beräkning.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Kommunalitet

A

Den totala variansen som en variabel delar med alla andra variabler som ingår i en analys.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Faktor

A

Linjär kombination (variatvärde) av originalvariablerna. Faktorerna representerar de underliggande dimensionerna som summerar eller beräknar för den ursprungliga uppsättningen av observerade variabler.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Korrelation

A

Ett begrepp inom statistik som anger styrkan och riktningen av ett samband mellan två variabler. Det kallas även korrelationskoefficient, eller bivariat analys.

Korrelationen uttrycks som ett värde mellan 1 och -1, där 0 anger inget samband, 1 anger maximalt positivt samband och -1 anger maximalt negativt samband.

För att ta ett exempel, säg att vi vill uttrycka sambandet mellan rikedom och lycka, och att vi har lyckats mäta dessa företeelser i en numerisk skala. En stark positiv korrelation, till exempel 0,9, betyder då att ju rikare man är, desto lyckligare är man - eller annorlunda uttryckt, ju lyckligare man är, desto rikare är man. En stark negativ korrelation, som -0,9, betyder i stället att ju rikare man är, desto mindre lycklig är man. En korrelation på eller nära 0 betyder att det inte finns något linjärt samband mellan de två variablerna. Däremot är ett korrelationsvärde på eller nära 0 möjligt att få när det finns ett icke-linjärt samband. Ett exempel på detta vore om både höga och låga värden på rikedom hade samband med höga värden på lycka. Det innebär att även om samband och korrelation ibland används som synonymer, så är egentligen korrelation en specialsituation av samband.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Redogör för klusteranalys metoden

A

Klusteranalys är en multivariat metod, där man använder sig av flera variabler med olika fördelning, för att gruppera områden i olika kategorier.

Klusteranalys används generellt för att upptäcka dolda grupper av data där observationerna liknar varandra mer än vad de liknar observationer hos andra grupper.

I uppgifterna i tenterna betraktar vi två vanliga metoder för klusteranalys: K-means och hierarkisk klustring som finns tillgängliga i SPSS. K-means algoritmen skapar K grupper av n datavektorer så att skillnaderna mellan grupperna maximeras och skillnaderna inom grupperna minimeras.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

**Faktorrotation **

A

Tabellen visar de så kallade faktorladdningarna – hur mycket olika variabler ”laddar” på olika faktorer. Ju högre laddning, desto mer förklaras variabeln av den bakomliggande faktorn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Outlier

A

Kan även benämnas extremvärde. Är en observation som numeriskt särskiljer sig från andra observationer.

En outlier är en observation som är numeriskt långt från resten av uppgifterna. En avvikande observation, eller “avvikare”, är en som verkar avvika markant från andra sampel i provet. Ett exempel är om ett gäng ungar alla springer 100 meter på 10 sekunder medan en unge springer samma på 6 sekunder.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

En faktors egenvärde

A

Ju högre egenvärde (aka eigenvalue) desto mer av variationen i datamaterialet förklarar faktorn. Det är alltså en “summering” av variationen som faktorn innehåller.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Faktorladdning

A

(faktor): En linjär kombination av orginalvariabler.

“Faktoranalysen räknar ut hur mycket varje faktor påverkar varje observerad variabel, den s.k. faktorladdningen.”

En faktors faktorladdning är korrelationen mellan en variabel och en faktor, dvs. hur mycket som en variabel samvarierar med den bakomliggande faktorn. Detta är ett tal mellan -1 och 1. Det spelar ingen roll om positiv eller negativ, man ignorerar tecknet. Ju högre faktorladdning (ju längre från noll) desto mer säger man att en variabel “laddar på” en faktor.

Det är alltså frågan om ett tests samband med en faktor. Varje test har olika laddning i de faktorer som framkommer vid faktoranalys. Enligt saunders (2009:102) är Faktorladdning alltså korrelationen mellan orginalvariabeln och faktorerna. Faktorladdning är nyckeln till att förstå naturen av en särskild faktor.

26
Q

Faktorrotation

A

Processen att manipulera eller justera faktorsaxlarna i syfte att uppnå en enklare och pragmatiskt mera meningsfull faktorslösning.

27
Q

Ortogonal

A

Matematiskt oberoende (ingen korrelation mellan) faktoraxlar. (t.ex. rätvinkliga eller 90 grader)

28
Q

Ortogonal faktorroation

A

En faktorrotation där faktorerna extraheras så att deras axlar justeras till 90 grader. Alla faktorer är då ortogonala till (oberoende av) alla andra faktorer. Korrelationen mellan faktorerna är 0.

29
Q
A
30
Q

Korrelationskoefficient

A

Korrelation är ett begrepp inom statistik som anger styrkan och riktningen av ett samband mellan två variabler. Det kallas även korrelationskoefficient, eller bivariat analys.

31
Q

Dummy variabel

A

I en multipel regressionsanalys kan man vilja ta med kvalitativa oberoende variabler. Kvalitativa variabler är variabler som befinner sig på datanivån nominaldata. Kvalitativa oberoende variabler kan bara anta två värden, exempelvis ja eller nej. Exempel på en kvalitativ oberoende variabel kan vara kön. För att kunna använda kvalitativa oberoende variabler i en regressionsanalys används dummy variabler där de två egenskaperna ges koden 0 eller 1. En dummy variabel är en variabel med bara två möjliga värden, koderna för dessa två värden är 0 och 1. Om vi exempelvis gör en regressionsanalys där vi vill skatta värdet på småhus så kan “har pool” vara en kvalitativ oberoende variabel där ja åsätts koden 1 och nej åsätts koden 0. Det är möjligt att ha fler än två koder för en dummy variabel.

32
Q

Determinationskoefficient/ Förklaringsgrad/R2

A
  • Ett ofta använt ord för hur stor del av variationen som kan förklaras enligt ovan är förklaringsgrad. Determinationskoefficienten kan ses som ett mått på denna. Obs! Ordet ”förklaras” får inte förstås så att det föreligger ett orsakssamband – även om det kan vara så.
  • Förklaringsgrad är proportionen av den totala variationen i den beroende variabeln, Y, som kan förklaras av variationen i den oberoende variabeln, X. En förklaringsgrad på 70% innebär att vi kan förklara 70% av variationen i den beroende variabeln med variationen i den oberoende variabeln. Förklaringsgraden är korrelationskoefficienten i kvadrat, förklaringsgrad anges i procent. Förklaringsgrad är ett viktigt nyckeltal inom korrelationsanalys.
  • Vid linjär regressionsanalys, ett mått på hur stor del av den totala variationen hos den beroende variabeln (se under oberoende variabel) som förklaras av den regressionsmodell som används.

Vanliga skrivsätt för determinationskoefficienten är R2 och Rˆ2, som båda läses ”R två” eller ”R upphöjt till två”. För fallet med observationer på bara två variabler är determinationskoefficienten lika med kvadraten på produktmomentkorrelationskoefficienten, dvs. r2xy.

33
Q

Intercept

A

Visar vad det förväntade värdet är, när det oberoende variabeln har värdet 0
• X-intercept, the point where a line crosses the x-axis
• Y-intercept, the point where a line crosses the y-axis

34
Q

Linjärt samband

A

Finns det ett samband mellan lycka och pengar???
Ett svårdefinierat begrepp som enklast kan åskådliggöras med hjälp av diagram.

Ex: Vart och ett av de två punktdiagrammen nedan beskriver sambandet mellan två variabler, x och y. Av diagrammen visar det vänstra ett tydligt linjärt samband. Det högra visar ett mycket tydligt samband som inte är linjärt. Sådana samband kallas ibland för krökta.

Vardagligt skulle man kanske kunna säga att ett samband är linjärt om det statistiska materialet, avbildat som ett punktdiagram, väl ansluter sig till en (tänkt) symmetriaxel (ett slags linje). Så är det till vänster ovan, men inte till höger.

35
Q

Oberoende/beroende variabel

A

I ett spridningsdiagram anges skalan för den beroende variabeln på den vertikala y-axeln och skalan för den oberoende variabeln på den horisontella x-axeln. Den beroende variabeln är den variabel som blir prognostiserad eller skattad av den oberoende variabeln. Den beroende variabeln beror på den oberoende variabeln. Den oberoende variabeln är den variabel som utgör basen för prognostisering eller skattning av den beroende variabeln. Den oberoende variabeln påverkar den beroende variabeln. I ett spridningsdiagram ritas punkter in som motsvarar ett värde på den oberoende respektive den beroende variabeln. Ett spridningsdiagram kan visa på ett samband mellan den oberoende variabeln och den beroende variabeln.

Ett positivt samband innebär att en ökning i värdet för den oberoende variabeln ger en ökning i värde för den beroende variabeln. Ett negativt samband innebär att en ökning i värde för den oberoende variabeln ger en minskning i värde för den beroende variabeln.

36
Q

Faktor

A

Matematisk term för en komponent i en multiplikation. Faktorn är oftast inte direkt mätbar, utan latenta variabler - en hypotetisk konstruktion.
ex. intelligens, ångest, inflation.
• Man kan inte mäta ex. intelligens direkt utan man mäter de egenskaper man tror (hypotetiskt) påverkas av faktorn intelligens.
• sammansätter flera variabler för att få en faktor

37
Q

Korrelationskoefficient eller Korrelation /=samband r kvadrat

A

Korrelation är ett begrepp inom statistik som anger styrkan och riktningen av ett samband mellan två variabler. Det kallas även korrelationskoefficient, eller bivariat analys. Korrelationen uttrycks som ett värde mellan 1 och -1, där 0 anger inget samband, 1 anger maximalt positivt samband och -1 anger maximalt negativt samband. För att ta ett exempel, säg att vi vill uttrycka sambandet mellan rikedom och lycka, och att vi har lyckats mäta dessa företeelser i en numerisk skala. En stark positiv korrelation, till exempel 0,9, betyder då att ju rikare man är, desto lyckligare är man - eller annorlunda uttryckt, ju lyckligare man är, desto rikare är man. En stark negativ korrelation, som -0,9, betyder i stället att ju rikare man är, desto mindre lycklig är man. En korrelation på eller nära 0 betyder att det inte finns något linjärt samband mellan de två variablerna. Däremot är ett korrelationsvärde på eller nära 0 möjligt att få när det finns ett icke-linjärt samband. Ett exempel på detta vore om både höga och låga värden på rikedom hade samband med höga värden på lycka. Det innebär att även om samband och korrelation ibland används som synonymer, så är egentligen korrelation en specialsituation av samband.

0.1-0,29 → svag korrelation
0,3-0,49 → medel
0,5-1 → stark

38
Q

Centroid

A

In geometry, the centroid, geometric center, or barycenter of a plane figure or two-dimensional shape X is the intersection of all straight lines that divide X into two parts of equal moment about the line. Informally, it is the “average” (arithmetic mean) of all points of X. The definition extends to any object X in n-dimensional space: its centroid is the intersection of all hyperplanes that divide X into two parts of equal moment.

centroid clustering method medelavstånd av alla variabler I alla kluster

DVS. mittpunkten I ett kluster

39
Q

Centroid

A

For the centroid clustering method, the dissimilarity between cluster A and cluster B is represented by the distance between the centroid for the cases in cluster A and the centroid for the cases in cluster B. Note that this distance is not mathematically equivalent to the average of the distances used in the average linkage method. Also note the SPSS warning below about using squared Euclidean distance rather than Euclidean distance for this procedure.

40
Q

Kvot-skala

A

Det som mäts kan beskrivas med ett kontinuerligt varierande numeriskt värde, och det finns ett entydigt sätt att definiera ett nollvärde. Därmed kan man jämföra storleken mellan de olika värdena. Exempel är kroppslängd mätt i centimeter. En person kan vara dubbelt så lång som en annan. Även temperatur mätt i kelvin mäts enligt en kvotskala eftersom nollpunkten här är absolut och det inte finns några negativa temperaturvärden mätt i grader Kelvin. Endast för variabler som mäts enligt en kvotskala är det meningsfullt att multiplicera och dividera mätvärdena.

Variabel Skaltyp=alla olika skalnivåer ,nominal, ordinal, intervall, kvot. Påverkar sättet framställa och analysera data materialet

41
Q

Kommunalitet/h2

A

Kommualitet ger svar på om det är någon ide att börja köra en faktoranalys.

42
Q

Cut-off värde

A

Är ett gränsvärde som kan vara både minimi eller maximivärde, allting som är utanför detta ignoreras. (används tillexempel i diskriminantanalys)

43
Q

Variabel

A

En variabel är något som kan ändras. Inom matematiken och datavetenskapen betecknar den ett namngivet objekt som används för att representera ett okänt värde, till exempel ett reellt tal. Variabler används i öppna utsagor. De kan anses stå i motsats till konstanter som är oföränderliga, liksom till parametrar som hålls konstanta under en given process eller beräkning.

44
Q

Outlier

A

I statistiken är en utanförliggare en iakttagelse som är numeriskt på avstånd från resten av data. Avvikare kan definieras som:

  • En avvikande observation eller avvikare, är en som verkar avvika markant från andra medlemmar av provet.
45
Q

**En faktors egenvärde/används i faktoranalys **

A

Kallas även lamda,

  • Till varje faktor finns ett egenvärde. Egenvärde är en matematisk term men kan tolkas som den del av den totala variansen som förklaras av den faktorn.
  • Den första faktorn har det högsta egenvärdet, den andra faktorn har den näst största o.s.v

**• Tumregel: alla faktorer vars egenvärde är större än ett behålls. **

46
Q

Faktorladdning

A

Korrelationen mellan ursprungsvariabeln och de skapade faktorerna.
faktor egenvärde
ju högre förklaringsförmåga en viss faktor har, desto högre är dens genvärde.

47
Q

Ortogonal faktorrotation(sv. rätvinklig rotation)

A

Man kan minska på effekten av dessa ovannämnda problem med en relativt enkel teknik. Rotera axlarna, koordinatsystemet, medsols och bibehåll axlarna vinkelräta tills ett tydligt mönster fås.

Vid ortogonal rotation roteras axlarna med bibehållande av vinkelräthet mellan dem. Faktorerna är okorrelerade. När man gör en rotation av axlarna erhåller man en rotaterad faktormatris.

48
Q

Oblique rotation

A

Axlarna roteras utan att bevara rätvinkligheten mellan dem. Vid oblique (sned) korrelation avspeglar vinkeln mellan axlarna korrelationen mellan faktorerna. Om vinkeln mellan axlarna ligger nära 0, tolkas det som en hög korrelation mellan faktorerna.

49
Q

Positivism

A

Positivism (fr. positivisme), benämning på olika filosofiska riktningar som strävat efter att grunda tänkandet på “fakta”, det vill säga kunskap som baseras på sinneserfarenhet. Genom empiriska studier försöker forskaren hitta egenskaper hos studieobjektet som återkommer också i andra fall och situationer. När man kartlagt ett tings regelbundenheter ger detta möjlighet att förutsäga, och ingripa i, ett skeende. Det som kan förutsägas (till exempel att jorden kommer att snurra ett varv runt solen under nästa år) är det som kan betraktas som kunskap. Det som inte kan vägas eller mätas betraktas som mindre intressant och man tenderar att se verkligheten som linjär.

50
Q

Reliabilitet

A

Reliabilitet väger mätinstrumentets pålitlighet och kan mätas genom att göra upprepade mätningar.

51
Q

Validitet

A

Validitet innebär att forskaren mätt det som arbetet avser mäta.

52
Q

Deduktiv, induktiv och abduktiv ansats

A

Den dominerande ansats är en deduktiv forskningsansats, som innebär att testa existerande teori och jämföra det med verkligheten. En induktiv forskningsansats är motsatsen till deduktiva forskningsansatsen, den innebär att samla data och utveckla teori med hjälp av den insamlade datan. En abduktiv forskningsansats innebär oftast att samla data genom till exempel en intervju eller enkät och utformar ny teori som grundar sig på undersökningen.

53
Q

**REDOGÖR FÖR ATT NÄR DET ÄR LÄMPLIGT ATT ANVÄNDA ETT **T-test

A

Ett t-test är ett sätt att pröva om medelvärdet skiljer sig mellan två grupper, men t-testet är inte lämpligt när man behöver jämföra många grupper. T-testet är till för att testa om skillnaden mellan två grupper är signifikant. T-test används när du har två grupper (män och kvinnor) och två set av data (före och efter) och man vill jämföra medelvärdet av någon variabel. Det finns två metoder: paired sample t-test eller repeat measures och independent sample tests. Den förra används då man har samma grupp och man önskar studera dem under två tidpunkter T1 och T2. Data samlas in under två tillfällen. Den senare tekniken används då man har två oberoende grupper (män och kvinnor). I detta fall samlar du in data under ett tillfälle.

När man vill studera medelvärden av någon variabel mellan två oberoende grupper kan
man använda sig av independent-sample t-test
Exempel på forskningsfråga: Finns det en signifikant skillnad mellan den
genomsnittliga.

54
Q

REDOGÖR FÖR ATT NÄR DET ÄR LÄMPLIGT ATT ANVÄNDA ETT:

Two-way variansanalys

A

Den här metoden möjliggör variansanalys med två oberoende variabler och en beroende
variabel. Fördelen är att man kan testa om det förekommer en sk. interaktionseffekt. Det
vill säga om du misstänker att en oberoende variabel påverkas av en annan variabel. Man
kan också testa för sk. main effect, den totala effekten av varje oberoende variabel. Det
finns två slag av denna variansanalys: mellan grupper (om grupperna är olika, t.ex. olika
fakulteter) och upprepade mätningar (när de testade har studerats under två tillfällen).

Den här tekniken används om du vill jämföra skillnaderna mellan gruppernas medelvärde
på ytterligare en dimension. I exemplet ovan studerade vi ju skillnaderna mellan
fakulteterna, men om vi ännu skulle önska vet aom kvinnor och män har olika åsikt (utöver
fakulteterna.

55
Q

Multivariat variansanalys (MANOVA)

A

MANOVA används när man vill jämföra hur ett antal olika, men relaterade beroende faktorer påverkas i dina grupper.

När man gör en variansanalys och probvärdet är under signifikansnivån lönar det sig och göra antingen Bonferroni eller Scheffe-test. Dessa är post Hoc test.

56
Q

Regressionsanalys

A

Regressionsanalys, korrelationsanalys och faktoranalys beskriver samband!!

Hur mycket den oberoende variabeln påverkar den beroende variabeln. Används för att förklara och för att prognostisera.

y=a+bx,

57
Q

Redogör för när enkel linjär regression ska användas

A

Vid enkel linjär regression utgår man från att en rät linje kan anpassas till data och regressionsekvationen är då

där y (vertikal) är den beroende (den som påverkas) variabeln och x (horisontell) är den oberoende (den som påverkar). Interceptet med y-axeln a och lutningen b beräknas så att felet jämfört med observerade data blir så litet som möjligt. Felet kan beräknas med exempelvis minstakvadratmetoden eller maximum likelihood.
F-värdet i en regressionsanalys
• F-värdet anger om regressionsmodellen som helhet är statistiskt signifikant eller ej.
• Ett ”högt” F-värde innebär att de oberoende variablerna kan förklara variationen i residualerna, vilket vi inte vill.

Beta= i en regressionsanalys är regressionskoefficienten av X.

58
Q

Faktoranalys

A

Med hjälp av faktoranalys kan man reducera en stor mängd data till mera hanterlig mängd
för att sedan kunna analysera materialet vidare. Helst skall samplet vara större än 150.
Korrelationen mellan variabler borde vara över 0.3. Man antar också att förhållandet är
lineärt.

  • *Vad du behöver:** kontinuerliga variabler som korrelerar med varandra.
  • *Vad den gör:** identifierar en mindre mängd faktorer som representerar ett förhållande bland en större grupp variabler.

Lättare att tolka omfattande datamaterial.

Beskriver variationen mellan observerade och korrelerade variabler.
Component matrix: är den ursprungliga matrisen, en rotated component matrix görs för att datan skall vara mer lätt förstådd och rangordnas så att den lägsta och hösta accepterade värdet kan hittas….

59
Q

Klusteranalys

A

Klusteranalys är en metod för att gruppera individer eller variabler i okända grupper. Klusteranalysmetoden är explorativ till sin natur och intresset är att finna homogena grupper. Inom företagsvärlden är man intresserade av att segmentera och då kan man använda sig av klusteranalysmetoden. Observera att undersökaren bestämmer på vilka variabler objekten skall jämföras på.

Ex. hushåll, företag och bilar

Två typer av kluster:

  • *1. Hierarkisk klustrering**
    a. Agglomerativ metoden
  • Börjar med n st kluster dvs. att alla observationer är sitt eget kluster.
  • Sedan kan man börja föga ihop klustren
    b. Divisive metod
  • börjar med ett kluster
  • börja sedan dela upp klustren

2. Icke hierarkisk klustrering

  • K-means- anger hur många kluster du vill ha .
  • Du använder bara den datan du har/inte bakomstående,
  • Kom ihåg när vi talar om kluster så centroid!!!
60
Q

**Diskriminantanalys **

A

(diskriminant kommer från de latinska ordet avsöndra /avskilja)

  • Då en beroende variabel är kategoriserad används den i analys.

Beroende variabeln är gift och ogift dvs två stycken beroende variabler= två-grupps diskriminatanalys
Multipel diskriminantanalys=flera kategorier
Icke metrisk och kategorisk är samma= bra, bättre bäst,
metrisk och kontinuerlig= siffervärden, alla samband har alla kontinuerliga medan skillnader har oftast en kontinuerlig och en kategorisk

Syfte:

  • att klassificera individen i två eller flera grupper på basen av vissa variabelvärden.
  • Att skapa en diskriminantfaktor och räkna ut ett cut off- värde

Linear discriminant analysis (LDA) and the related Fisher’s linear discriminant are methods used in statistics, pattern recognition and machine learning to find a linear combination of features which characterizes or separates two or more classes of objects or events. The resulting combination may be used as a linear classifier, or, more commonly, for dimensionality reduction before later classification.

LDA is closely related to ANOVA (analysis of variance) and regression analysis, which also attempt to express one dependent variable as a linear combination of other features or measurements.[1][2] In the other two methods however, the dependent variable is a numerical quantity, while for LDA it is a categorical variable (i.e. the class label). Logistic regression and probit regression are more similar to LDA, as they also explain a categorical variable. These other methods are preferable in applications where it is not reasonable to assume that the independent variables are normally distributed, which is a fundamental assumption of the LDA method.

Rather than the ANOVA categorical independent variables and a continuous dependent variable, discriminant analysis has continuous independent variables and a categorical dependent variable.[3]

61
Q
A