Tag Archives: python

Oanda Python interface

Ich spiele gerade mit der Oanda V20 Schnittstelle.Ich will die Oanda-Informationen verwenden, um mit dem Buch Python for Finance üben zu können. Die Schnittstelle von Oanda ist mir zu technisch, also schreibe ich gerade eine vereinfachte Schnittstelle. Das ist dann auch eine schöne Übung für Test Driven Development (beim ersten Anlauf wieder glatt vergessen). Auf […]

Thoughtful Machine Learning with Python

Mir gefällt das Buch ist ‚Thoughtful Machine Learning with Python‚ immer mehr. Wie beschrieben, ist es das erste Buch, dass ich zu Python und Data Science in Händen kriege, dass auch Unittests behandelt. Aber auch die Machine Learning Inhalte werden sehr sorgfältig behandelt. Das erste inhaltliche Kapitel (3) zu KNearestNeigbors habe ich jetzt ein mal […]

TDD und Data Science

Nachdem ich jetzt einige Python Data Science Bücher [u.A. 1, 2, 3, 4] und alle DataCamp Python Kurse durchgearbeitet habe, habe ich mich gefragt, warum immer nur in hack-style gearbeitet und das sogar als Heldentat verbucht wird. Also habe ich gesucht. Und ich habe was gefunden! Es gibt ein Buch, dass sich mit Python, TDD […]

‚Schlechtes‘ Buch das mich sehr genutzt hat.

Diese Amazon-Rezension zu ‚Spark for Python Developers‚ habe ich erst gelesen, als ich das Buch schon bestellt habe. Die Rezension ist trotz drei Sterne abschreckend, trifft völlig zu oder ist eher noch untertrieben und trotzdem fand ich das Buch extrem nützlich. Ich liebe es, so zu sagen :-), gerade in seiner Unvollkommenheit. Das Fazit zuerst: wer […]

Inherentes Apache Spark Problem

Ich versuche gerade ein interessantes Problem zu lösen. Hier und hier habe ich beschrieben, wie ich den Performance von Spark und Pandas vergleichen will auf die Daten vom Kaggle Quora Wettbewerb. Dabei stoße ich auf ein interessantes Phänomen. Solange der Zugriff zeilenweise stattfindet, ist Spark OK. Jetzt will ich aber das Maximum einer Spalte berechnen. Das geht […]

Gestern war ein schöner Tag

Gestern war ein schöner Tag, weil ich den ganzen Tag erfolgreich mit Sparks’s RDDs experimentiert hatte. Leider habe ich dann gestern Abend spät festgestellt, dass die Zukunft den DataSets (und DataFrames) gehört und nicht den RDDs 😦 Damit war ich heute noch nicht so erfolgreich. Ich hänge auf eine User Defined Function, wobei ich die […]

Spark und Python und meine Vergangenheit

Ich habe jetzt zwei Wochen mit Spark und Python gespielt (oder eine Woche, es gab noch so was wie Feiertage und so was wie Arbeit) und verstehe jetzt wesentlich mehr. Ich hatte schon geschrieben, dass das Datacamp Tutorial ein wesentliches Detail übersehen hat. Ich muss gestehen, dass ich das Tutorial nicht mehr viel benutzt habe. In […]

Spark auf Windows

Um Spark auf Windows zum Laufen zu kriegen brauchte ich genau diese Unterstützung, die in diesem Linux-lastigen Tutorial gefehlt hat. Jetzt kann es los gehen mit Spark und Python.

Meilenstein

Pünktlich zum Abschluss meiner dreimonatlichen ‚Studienzeit‘ konnte ich den neuen DataCanp Track ‚Data Scientist with Python‘ abschließen. (Gleichzeitig habe ich die Tracks ‚Data Analyst with Python‘ und ‚Python Developer‘. abgeschlossen. Es fehlte einen Kurs für den 3 Tracks.). Das macht schon zufrieden. Es ist immer noch so, dass ich nicht glaube, richtig große Aufgaben angehen […]

Kaggle Wettbewerb: wann sind Fragen identisch?

Ich spiele jetzt mit einem neuen Kaggle Wettbewerb. Es geht darum, zwei Fragen, die  auf Quora gestellt wurden, mit einander zu vergleichen und dann zu entscheiden, ob es hier um die gleiche Frage geht. Das ist spannend, es geht nicht nur um Zahlen sondern auch um die Verarbeitung von Sprache. Als Mr. Selfmademan arbeite ich mich […]