2017 April « — was einer so denkt

Monthly Archives: April 2017

Inherentes Apache Spark Problem

30 April 2017 – 9:20 pm

Ich versuche gerade ein interessantes Problem zu lösen. Hier und hier habe ich beschrieben, wie ich den Performance von Spark und Pandas vergleichen will auf die Daten vom Kaggle Quora Wettbewerb. Dabei stoße ich auf ein interessantes Phänomen. Solange der Zugriff zeilenweise stattfindet, ist Spark OK. Jetzt will ich aber das Maximum einer Spalte berechnen. Das geht […]

Von johan steunenberg | Veröffentlicht in Immer was neues, Steunenberg Data Science | Tagged pandas, python, spark | Kommentar verfassen

Gestern war ein schöner Tag

25 April 2017 – 8:38 pm

Gestern war ein schöner Tag, weil ich den ganzen Tag erfolgreich mit Sparks’s RDDs experimentiert hatte. Leider habe ich dann gestern Abend spät festgestellt, dass die Zukunft den DataSets (und DataFrames) gehört und nicht den RDDs 😦 Damit war ich heute noch nicht so erfolgreich. Ich hänge auf eine User Defined Function, wobei ich die […]

Von johan steunenberg | Veröffentlicht in Immer was neues, Steunenberg Data Science | Tagged python, spark | Comments (1)

Spark und Python und meine Vergangenheit

24 April 2017 – 8:21 pm

Ich habe jetzt zwei Wochen mit Spark und Python gespielt (oder eine Woche, es gab noch so was wie Feiertage und so was wie Arbeit) und verstehe jetzt wesentlich mehr. Ich hatte schon geschrieben, dass das Datacamp Tutorial ein wesentliches Detail übersehen hat. Ich muss gestehen, dass ich das Tutorial nicht mehr viel benutzt habe. In […]

Von johan steunenberg | Veröffentlicht in Steunenberg Data Science | Tagged Networkx, python, spark | Comments (2)

Spark auf Windows

9 April 2017 – 7:47 pm

Um Spark auf Windows zum Laufen zu kriegen brauchte ich genau diese Unterstützung, die in diesem Linux-lastigen Tutorial gefehlt hat. Jetzt kann es los gehen mit Spark und Python.

Von johan steunenberg | Veröffentlicht in Steunenberg Data Science | Tagged DataCamp, python, spark | Comments (1)

— was einer so denkt —

Monthly Archives: April 2017

Inherentes Apache Spark Problem

Gestern war ein schöner Tag

Spark und Python und meine Vergangenheit

Spark auf Windows

Seiten

Suche

Themen

Andere Seiten (von mir)

Blogroll

Archiv

Schlagwörter