Tag Archives: pandas

Vektorisierte Pandas-Funktionen und Speicherbedarf.

Es sieht so aus, als ob der Speicherbedarf von vektorisierten Funktionen groß ist. Jede Durchlauf macht ganz langsam eine Kopie vom Dataframe. Zumindest interpretiere ich das so.   Advertisements

Bitcoin Volatilität: Projekt auf Datacamp

Datacamp hat ein Projekt zum Thema Bitcoinvolatilitäten. Das ist spannend. Das Projekt ist hauptsächlich eine Pandas DataFrame Übung aber ich muss auch sofort wieder nachdenken über mein OANDA-Projekt. Ich dachte kurz, dass ich mit pandas.read_json() eine Methode gefunden weiss noch nicht, ob das ‚leider‘ oder ‚glücklich‘ ist… hatte, die meine ganze Arbeit überflüssig gemacht hätte, […]

Inherentes Apache Spark Problem

Ich versuche gerade ein interessantes Problem zu lösen. Hier und hier habe ich beschrieben, wie ich den Performance von Spark und Pandas vergleichen will auf die Daten vom Kaggle Quora Wettbewerb. Dabei stoße ich auf ein interessantes Phänomen. Solange der Zugriff zeilenweise stattfindet, ist Spark OK. Jetzt will ich aber das Maximum einer Spalte berechnen. Das geht […]

DataCamp pandas Kurs ist schwierig.

Ich habe jetzt den DataCamp Einführungskurs in pandas durchgearbeitet. Das war nicht einfach. Der Kurs ist dicht bepackt mit Informationen, die Aufgaben sind nicht so ausgearbeitet als die Aufgaben in den bisherigen Kursen. Das ist manchmal nervig, aber es hat mich auch gezwungen, mich intensiv mit dem Thema auseinander zu setzen. Und wie passend, dass das […]