Tag Archives: pandas

Inherentes Apache Spark Problem

Ich versuche gerade ein interessantes Problem zu lösen. Hier und hier habe ich beschrieben, wie ich den Performance von Spark und Pandas vergleichen will auf die Daten vom Kaggle Quora Wettbewerb. Dabei stoße ich auf ein interessantes Phänomen. Solange der Zugriff zeilenweise stattfindet, ist Spark OK. Jetzt will ich aber das Maximum einer Spalte berechnen. Das geht […]

DataCamp pandas Kurs ist schwierig.

Ich habe jetzt den DataCamp Einführungskurs in pandas durchgearbeitet. Das war nicht einfach. Der Kurs ist dicht bepackt mit Informationen, die Aufgaben sind nicht so ausgearbeitet als die Aufgaben in den bisherigen Kursen. Das ist manchmal nervig, aber es hat mich auch gezwungen, mich intensiv mit dem Thema auseinander zu setzen. Und wie passend, dass das […]