Ich versuche gerade ein interessantes Problem zu lösen. Hier und hier habe ich beschrieben, wie ich den Performance von Spark und Pandas vergleichen will auf die Daten vom Kaggle Quora Wettbewerb. Dabei stoße ich auf ein interessantes Phänomen. Solange der Zugriff zeilenweise stattfindet, ist Spark OK. Jetzt will ich aber das Maximum einer Spalte berechnen. Das geht […]
Seiten
Themen
-
Andere Seiten (von mir)
Blogroll