Big Data & Data Science Flashcards
(97 cards)
Deskriptive Analyse
Untersuchung von Vorgängen in der Vergangenheit
z.b. Report zum Jahresumsatz
Prädiktive Analyse
Sagt wahrscheinliche Resultate vorher und erstellt fundierte Prognosen anhand historischer Daten
verlängert Trends in die Zukunft, um mögliche Ergebnisse abzuleiten
Präskriptive Analyse
nutzt Daten aus vielen Quellen, zb Statistiken, ML & Data-Mining
um mögliche zukünftige Ergebnisse zu identifizieren und die beste Option zu zeigen
liefert umsetzbare Erkenntnisse statt Rohdaten, sagt was geschehen sollte und nicht nur könnte
Algorithmus Definition
Eindeutige Handlungsvorschrift zur Lösung eines Problems/Klasse von Problemen
Algorithmus Eigenschaften
Finitheit
Ausführbarkeit
Dynamische Finitheit/Platzkomplexität
Terminierung oder Zeitkomplexität
Algorithmus Eigenschaften - Finitheit
Verfahren muss in einem endlichen Text eindeutig beschreibbar sein
Algorithmus Eigenschaften - Ausführbarkeit
Jeder Schritt des Verfahrens muss ausführbar sein
Algorithmus Eigenschaften - Platzkomplexität
Verfahren darf zu jedem Zeitpunkt nur endlich viel Speicherplatz benötigen
Algorithmus Eigenschaften - Terminierung
Verfahren darf nur endlich viele Schritte benötigen
Deterministischer Algorithmus
wenn er bei selben Vorrausetzungen immer das selbe Ergebnis liefert
zu jedem Zeitpunkt der nächste Schritt eindeutig definiert ist
Induktion
Generalisierung von in der Realität beobachteten Regelmäßigkeiten zu einer allg. Vermutung
-> Hypothensenbildung
Bottom Up
Bsp: 30 Bohnen ziehen - alle weiß, nochmal 30 ziehen - alle weiß. Ergo: Alle Bohnen müssen weiß sein
Deduktion
Ableitung von Aussagen aus anderen (allg.) Aussagen mit Hilfe logischer Regeln
-> Hypothesenprüfung
Bohnen in Sack gefüllt. Alle waren weiß. Bohne aus dem Sack nehmen-> sie ist weiß
Abduktion
Verknüpfung von EInzelbeobachtungen und Erkennen (Vermuten) von Regeln
-> Hypothesenbildung
Top-Down
Sack, ich sehe weiße Bohnen, ich finde weiße Bohne iwo im raum. -> Bohne muss aus dem Sack sein
Big Data - Aufteilung der Probleme
Infrastruktur
Analytics
Anwendungen
Big Data - Aufteilung der Probleme - Infratruktur
Hadoop, NoSQL, Data Warehouse
Big Data - Aufteilung der Probleme - Analytics
Analysen, VIsualisierung, BI, Machine Learning
Big Data - Aufteilung der Probleme - Anwendungen
Wirtschaftsbezogen: Gesundheit, Marketing, Betrugserkennung, FInanzen
Business Intelligence
Sammelbergriff für IT-gestützten Zugriff auf Informationen & Analysen und Aufbereitung dieser Informationen
Ziel: aus vorhandenem Wissen neues handlungsorientiertes Wissen generieren
Big Data
Informationen mit hohem Volumen (Volume)
hoher Geschwindigkeit (velocity)
hoher Vielvalt (Variety)
Veracity (Richtigkeit)
brauchen innovative Formen der Verarbeitung
Big Data Volume
Scale of Data
ca 90% der Daten wurden in letzten 2 Jahren geschaffen
Big Data Velocity
Speed of Data
ca 50.000 GB/Sekunde beträgt geschätzte Datenübertragung im Internet
Big Data Veracity
Certainity of Data
3,1 Bio $ geschätzter jährlicher Verlust in US für schlechte Datenqualität
Big Data Variety
Variety of Data
90% neu geschaffener Daten sind unstrukturiert
BI schlagworte
Data Subsets
Historisch
Strukturiert
Single Source of Application
Statisch
Private Daten
Data growth as a burden to manage