DatenanalyseMitPython_02 - Wes McKinney Flashcards Preview

Machine Learning - Jibun > DatenanalyseMitPython_02 - Wes McKinney > Flashcards

Flashcards in DatenanalyseMitPython_02 - Wes McKinney Deck (37)
Loading flashcards...
1

Wie erstelle ich eine solche Series?

String_data = ...

0 aardvark

1 artichoke

2 NaN

3 avocado

dtype: object

string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])

2

Wie kann ich whitespace (inkl. Zeilenumbrüche) entfernen und Wörter nach Komma aus val separieren?

val = 'a,b, guido'

pieces = ...

pieces = [x.strip() for x in val.split(',')]

3

Wie kann ich einen : in val suchen?

val.find(':')

Der gibt mir dann 1 oder -1 heraus

4

Standard-Imports von matplotlib?

  • %matplotlib notebook
  • import matplotlib.pyplot as plt

5

Wo befinden sich Diagramme in matplotlib?

Diagramme in matplotlib befinden sich in einem Figure-Objekt.

Ein neues Diagramm können Sie mit plt.figure erstellen:

fig = plt.figure()

6

Wie kann ich diesen text aufteilen?

text = """Dave dave@google.com
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com
"""

pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'

Es gibt drei Kategorien des re-Moduls: Mustererkennung, Ersetzen und Aufteilen.

import re

regex = re.compile(pattern, flags=re.IGNORECASE)

regex.findall(text)

Der Aufruf von findall auf dem Text erzeugt eine Liste der E-Mail-Adressen:

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

 
 

7

Stellen Sie sich vor, Sie wollten in einer der Spalten Werte finden, deren absoluter Wert größer als 3 ist:

col = data[2]

Verwende eine ufunc.

col[np.abs(col) > 3]

8

Wie kann ich in df für die NA-Werte in Spalte 1 --> 0.5 und in Spalte 2 --> 0 einsetzen?

df.fillna({1: 0.5, 2: 0})

9

Wie kann ich die Zeilen entfernen lassen, die in Spalte k1 ein Duplikat haben?

data.drop_duplicates(['k1'])

10

Wie kann ich einen String mit einer variablen Anzahl von Whitespace- Zeichen (Tabulatoren, Leerzeichen und Zeilenumbrüchen) aufteilen?

Ein regex beschreibt ein Muster, das im Text gesucht werden soll und dann für viele Zwecke eingesetzt werden kann.

 

11

Um alle Zeilen in data auszuwählen, die einen Wert enthalten, der über 3 oder –3 hinausgeht, können Sie die Methode XXX auf einem booleschen DataFrame einsetzen:

Methode any

data[(np.abs(data) > 3).any(1)]

12

Wie entfernt man aus DataFrame data nur die Zeilen, die komplett NA sind?

Mit how='all' werden nur die Zeilen entfernt, die komplett NA sind:

data.dropna(how='all')

13

Wie kann ich einen kommaseparierten String aufteilen?

val = 'a,b, guido'

val.split(',')

 

--> ['a', 'b', ' guido']

14

Wie kann ich zählen, wie oft ein , in val auftritt?

val.count(',')

15

Wie kann ich aus data die Duplikate entfernen lassen?

data.drop_duplicates()

16

Was ist der Sverweis in Python?

Die Methode map auf einer Series akzeptiert eine Funktion oder ein Dictionary-artiges Objekt mit einer Zuordnung

17

Wie kann ich ein Komma , aus val löschen?

val.replace(',', '')

18

Wie kann ich in data für die NA-Werte den Mittelwert einfügen lassen?

data.fillna(data.mean())

19

Wie kann ich diesen String aufteilen?

text = "foo bar\t baz \tqux"

v

['foo', 'bar', 'baz', 'qux']

import re

re.split('\s+', text)

 

Mit \s+ werden ein oder mehrere Whitespaces beschrieben.

20

Wie kann ich in df die NA Werte mit 0 ersetzen?

Anstatt fehlende Daten herauszufiltern (und damit potenziell andere Daten mit zu verwerfen), könnten Sie die »Löcher« auf andere Weise füllen. In den meisten Fällen ist die Methode fillna das Werkzeug der Wahl. Beim Aufruf von fillna mit einer Konstanten werden fehlende Werte durch diesen Wert ersetzt:

df.fillna(0)

21

Wie kann ich in dem Dataframe data eine zusätzliche Spalte v1 mit Zahlen von 0 bis 6 einfügen lassen?

data['v1'] = range(7)

22

Wie kann ich mir aus Series string_data die Null-Werte als boolean anzeigen lassen?

string_data.isnull()

23

Standard-Import für NaN-Werte?

from numpy import nan as NA

24

Wie kann ich aus df die ersten 4 Werte aus Spalte 1 als NA setzen?

df.iloc[:4,1] = NA

25

Wie ersetze ich in data die Werte -999 und -1000 mit nan, bzw. 0?

data.replace([-999,-1000],[np.nan,0])

26

Die Standard-Import am Anfang?

import numpy as np
import pandas as pd
from pandas import Series, DataFrame

27

data = np.arange(10)

Wie kann ich data als plot malen?

 

plt.plot(data)

28

Wie kann ich die NA herausfiltern?

data = pd.Series([1, NA, 3.5, NA, 7])

data.dropna()

29

Wie kann ich aus data die Spalte food alles kleinschreiben?

lowercased = ...

 

lowercased = data['food'].str.lower()

30

Wie kann ich aus data alle Spalten entfernen, die komplett NA sind?

data.dropna(axis=1, how='all')