Category Archives: Steunenberg Data Science

Spark auf Windows

Um Spark auf Windows zum Laufen zu kriegen brauchte ich genau diese Unterstützung, die in diesem Linux-lastigen Tutorial gefehlt hat. Jetzt kann es los gehen mit Spark und Python. Advertisements

Meilenstein

Pünktlich zum Abschluss meiner dreimonatlichen ‚Studienzeit‘ konnte ich den neuen DataCanp Track ‚Data Scientist with Python‘ abschließen. (Gleichzeitig habe ich die Tracks ‚Data Analyst with Python‘ und ‚Python Developer‘. abgeschlossen. Es fehlte einen Kurs für den 3 Tracks.). Das macht schon zufrieden. Es ist immer noch so, dass ich nicht glaube, richtig große Aufgaben angehen […]

Kaggle Wettbewerb: wann sind Fragen identisch?

Ich spiele jetzt mit einem neuen Kaggle Wettbewerb. Es geht darum, zwei Fragen, die  auf Quora gestellt wurden, mit einander zu vergleichen und dann zu entscheiden, ob es hier um die gleiche Frage geht. Das ist spannend, es geht nicht nur um Zahlen sondern auch um die Verarbeitung von Sprache. Als Mr. Selfmademan arbeite ich mich […]

Starten mit KERAS

Vor 6 Tage habe ich über ein  KERAS–Tutorial  geschrieben. Inzwischen bin ich weiter mit dem Thema. Es läuft zumindest: Hier einige Hinweise für Tutorials: Installationen sind immer eine Fummelei. Jeder bräuchte einen persönlichen Admin, der ihr/ihm diese Sorge abnimmt. DataCamp hat (zumindest demnächst, zum jetzigen Tag ist der Kurs noch in der Betatestphase) ein Deep Learning […]

KERAS – easy, huh? :-)

Ich spiele gerade das KERAS–Tutorial  von ‚Elite Datascience‘ durch. Das wirkt erst mal easy, obwohl ich noch längst nicht verstehe, was ich mach 🙂 Steht auch so beschrieben im Schritt 9: So sieht es in meinem Jupyter aus, nach mindestens 10, gefühlt schon 20 Minuten: Ich habe 10 Epochen definiert, dann werde ich jetzt erst mal […]

Kaggle 3: die harte Gangart

Nachdem ich einiges ausprobiert hab im Titanic Wettbewerb, versuch ich jetzt, in einem anderen Wettbewerb nach vorne zu kommen. Dabei stolpere ich jetzt knallhart über die Realität. In diesem Wettbewerb gibt es sowohl numerische Daten als auch Text. Sklearn hat ein wunderbares Konzept um Daten auseinander zu ziehen und nachher wieder zusammenzufügen, sehr wiederverwendbar und […]

Kaggle 2: climbing the ranks

Ich spiele erst mal in dem einfachsten Kaggle-Wettbewerb rum, die Aufgabe mit den Fischen ist für diese Woche zu hoch gegriffen. Ausgehende von der Lösung, die im DataCamp Kaggle Tutorial entwickelt werden, klettere ich jetzt mit einer SVM Lösung die Rangliste hoch. Mal sehen, was die Neuronale Netze bringen. Nach wie vor bräuchte ich ein reales […]

Kaggle

Ich habe jetzt Kaggle entdeckt. Nachdem ich keinen Respons bekommen habe auf meinen Aufruf für ein Projekt, und März naht, werde ich mir da eine Spielwiese aussuchen. Erst werde ich mal zu hoch greifen und versuchen, mir diesem Wettbewerb anzuschließen. Das scheint mir ein sehr sinnvolles Projekt. Ich habe nur gar keine Ahnung von Bilderkennung […]

Fertig! (mit DataCamp Python Curriculum)

Ich bin durch mit dem DataCamp Python Curriculum. Zeit für Real Life Erfahrungen. Bald ist auch März, und das war die Planung für März. (Was fehlt ist Textmining.)

Wilde Einsichten beim Maschinenlernen lernen

Das sind noch mal Einsichten. Ich habe gerade eine Übung aus der Python-Maschinelles Lernen Kurs von DataCamp gemacht. In der Übung wird der Zusammenhang zwischen Aktienpreise von unterschiedene Firmen visualisiert. Computerfirmen liegen nah beieinander, Fluchtzeugbauer, Colahersteller, Ölfirmen, alles logisch. Aber warum correlieren Tabaksfirmen und Pharmafirmen so fein? Kann es sein, dass das, was gut für […]