Category Archives: Steunenberg Data Science

TDD und Data Science

Nachdem ich jetzt einige Python Data Science Bücher [u.A. 1, 2, 3, 4] und alle DataCamp Python Kurse durchgearbeitet habe, habe ich mich gefragt, warum immer nur in hack-style gearbeitet und das sogar als Heldentat verbucht wird. Also habe ich gesucht. Und ich habe was gefunden! Es gibt ein Buch, dass sich mit Python, TDD […]

‚Schlechtes‘ Buch das mich sehr genutzt hat.

Diese Amazon-Rezension zu ‚Spark for Python Developers‚ habe ich erst gelesen, als ich das Buch schon bestellt habe. Die Rezension ist trotz drei Sterne abschreckend, trifft völlig zu oder ist eher noch untertrieben und trotzdem fand ich das Buch extrem nützlich. Ich liebe es, so zu sagen :-), gerade in seiner Unvollkommenheit. Das Fazit zuerst: wer […]

Inherentes Apache Spark Problem

Ich versuche gerade ein interessantes Problem zu lösen. Hier und hier habe ich beschrieben, wie ich den Performance von Spark und Pandas vergleichen will auf die Daten vom Kaggle Quora Wettbewerb. Dabei stoße ich auf ein interessantes Phänomen. Solange der Zugriff zeilenweise stattfindet, ist Spark OK. Jetzt will ich aber das Maximum einer Spalte berechnen. Das geht […]

Gestern war ein schöner Tag

Gestern war ein schöner Tag, weil ich den ganzen Tag erfolgreich mit Sparks’s RDDs experimentiert hatte. Leider habe ich dann gestern Abend spät festgestellt, dass die Zukunft den DataSets (und DataFrames) gehört und nicht den RDDs 😦 Damit war ich heute noch nicht so erfolgreich. Ich hänge auf eine User Defined Function, wobei ich die […]

Spark und Python und meine Vergangenheit

Ich habe jetzt zwei Wochen mit Spark und Python gespielt (oder eine Woche, es gab noch so was wie Feiertage und so was wie Arbeit) und verstehe jetzt wesentlich mehr. Ich hatte schon geschrieben, dass das Datacamp Tutorial ein wesentliches Detail übersehen hat. Ich muss gestehen, dass ich das Tutorial nicht mehr viel benutzt habe. In […]

Spark auf Windows

Um Spark auf Windows zum Laufen zu kriegen brauchte ich genau diese Unterstützung, die in diesem Linux-lastigen Tutorial gefehlt hat. Jetzt kann es los gehen mit Spark und Python.

Meilenstein

Pünktlich zum Abschluss meiner dreimonatlichen ‚Studienzeit‘ konnte ich den neuen DataCanp Track ‚Data Scientist with Python‘ abschließen. (Gleichzeitig habe ich die Tracks ‚Data Analyst with Python‘ und ‚Python Developer‘. abgeschlossen. Es fehlte einen Kurs für den 3 Tracks.). Das macht schon zufrieden. Es ist immer noch so, dass ich nicht glaube, richtig große Aufgaben angehen […]

Kaggle Wettbewerb: wann sind Fragen identisch?

Ich spiele jetzt mit einem neuen Kaggle Wettbewerb. Es geht darum, zwei Fragen, die  auf Quora gestellt wurden, mit einander zu vergleichen und dann zu entscheiden, ob es hier um die gleiche Frage geht. Das ist spannend, es geht nicht nur um Zahlen sondern auch um die Verarbeitung von Sprache. Als Mr. Selfmademan arbeite ich mich […]

Starten mit KERAS

Vor 6 Tage habe ich über ein  KERAS–Tutorial  geschrieben. Inzwischen bin ich weiter mit dem Thema. Es läuft zumindest: Hier einige Hinweise für Tutorials: Installationen sind immer eine Fummelei. Jeder bräuchte einen persönlichen Admin, der ihr/ihm diese Sorge abnimmt. DataCamp hat (zumindest demnächst, zum jetzigen Tag ist der Kurs noch in der Betatestphase) ein Deep Learning […]

KERAS – easy, huh? :-)

Ich spiele gerade das KERAS–Tutorial  von ‚Elite Datascience‘ durch. Das wirkt erst mal easy, obwohl ich noch längst nicht verstehe, was ich mach 🙂 Steht auch so beschrieben im Schritt 9: So sieht es in meinem Jupyter aus, nach mindestens 10, gefühlt schon 20 Minuten: Ich habe 10 Epochen definiert, dann werde ich jetzt erst mal […]