Tag Archives: python

Inherentes Apache Spark Problem

Ich versuche gerade ein interessantes Problem zu lösen. Hier und hier habe ich beschrieben, wie ich den Performance von Spark und Pandas vergleichen will auf die Daten vom Kaggle Quora Wettbewerb. Dabei stoße ich auf ein interessantes Phänomen. Solange der Zugriff zeilenweise stattfindet, ist Spark OK. Jetzt will ich aber das Maximum einer Spalte berechnen. Das geht […]

Gestern war ein schöner Tag

Gestern war ein schöner Tag, weil ich den ganzen Tag erfolgreich mit Sparks’s RDDs experimentiert hatte. Leider habe ich dann gestern Abend spät festgestellt, dass die Zukunft den DataSets (und DataFrames) gehört und nicht den RDDs 😦 Damit war ich heute noch nicht so erfolgreich. Ich hänge auf eine User Defined Function, wobei ich die […]

Spark und Python und meine Vergangenheit

Ich habe jetzt zwei Wochen mit Spark und Python gespielt (oder eine Woche, es gab noch so was wie Feiertage und so was wie Arbeit) und verstehe jetzt wesentlich mehr. Ich hatte schon geschrieben, dass das Datacamp Tutorial ein wesentliches Detail übersehen hat. Ich muss gestehen, dass ich das Tutorial nicht mehr viel benutzt habe. In […]

Spark auf Windows

Um Spark auf Windows zum Laufen zu kriegen brauchte ich genau diese Unterstützung, die in diesem Linux-lastigen Tutorial gefehlt hat. Jetzt kann es los gehen mit Spark und Python.

Meilenstein

Pünktlich zum Abschluss meiner dreimonatlichen ‚Studienzeit‘ konnte ich den neuen DataCanp Track ‚Data Scientist with Python‘ abschließen. (Gleichzeitig habe ich die Tracks ‚Data Analyst with Python‘ und ‚Python Developer‘. abgeschlossen. Es fehlte einen Kurs für den 3 Tracks.). Das macht schon zufrieden. Es ist immer noch so, dass ich nicht glaube, richtig große Aufgaben angehen […]

Kaggle Wettbewerb: wann sind Fragen identisch?

Ich spiele jetzt mit einem neuen Kaggle Wettbewerb. Es geht darum, zwei Fragen, die  auf Quora gestellt wurden, mit einander zu vergleichen und dann zu entscheiden, ob es hier um die gleiche Frage geht. Das ist spannend, es geht nicht nur um Zahlen sondern auch um die Verarbeitung von Sprache. Als Mr. Selfmademan arbeite ich mich […]

Starten mit KERAS

Vor 6 Tage habe ich über ein  KERAS–Tutorial  geschrieben. Inzwischen bin ich weiter mit dem Thema. Es läuft zumindest: Hier einige Hinweise für Tutorials: Installationen sind immer eine Fummelei. Jeder bräuchte einen persönlichen Admin, der ihr/ihm diese Sorge abnimmt. DataCamp hat (zumindest demnächst, zum jetzigen Tag ist der Kurs noch in der Betatestphase) ein Deep Learning […]

KERAS – easy, huh? :-)

Ich spiele gerade das KERAS–Tutorial  von ‚Elite Datascience‘ durch. Das wirkt erst mal easy, obwohl ich noch längst nicht verstehe, was ich mach 🙂 Steht auch so beschrieben im Schritt 9: So sieht es in meinem Jupyter aus, nach mindestens 10, gefühlt schon 20 Minuten: Ich habe 10 Epochen definiert, dann werde ich jetzt erst mal […]

Kaggle 3: die harte Gangart

Nachdem ich einiges ausprobiert hab im Titanic Wettbewerb, versuch ich jetzt, in einem anderen Wettbewerb nach vorne zu kommen. Dabei stolpere ich jetzt knallhart über die Realität. In diesem Wettbewerb gibt es sowohl numerische Daten als auch Text. Sklearn hat ein wunderbares Konzept um Daten auseinander zu ziehen und nachher wieder zusammenzufügen, sehr wiederverwendbar und […]

Kaggle 2: climbing the ranks

Ich spiele erst mal in dem einfachsten Kaggle-Wettbewerb rum, die Aufgabe mit den Fischen ist für diese Woche zu hoch gegriffen. Ausgehende von der Lösung, die im DataCamp Kaggle Tutorial entwickelt werden, klettere ich jetzt mit einer SVM Lösung die Rangliste hoch. Mal sehen, was die Neuronale Netze bringen. Nach wie vor bräuchte ich ein reales […]