Textklassifizierung mit fastText
Vielen Dank, dass du dir meinen Vortrag über Textklassifizierung mit fastText angeschaut hast!
Wie du fastText selbst installieren kannst, kannst du unter Building fastText as a command line tool nachlesen.
Ergänzend zu meinem Vortrag findest du konkrete Anwendungsbeispiele mit den Befehlen zum Training und zur Prediction mit fastText in der offiziellen Dokumentation zur Klassifizierung mit fastText.
Was im Vortrag gar nicht vorgekommen ist: Um sinnvoll mit Texten arbeiten zu können, muss fastText die Terme innerhalb der Texte in Vektoren umrechnen. Die Daten, die dabei entstehen, kann man für viele weitere spannende NLP Aufgaben nutzen. Wie man mit den von fastText ermittelten Vektordaten arbeitet, findest du in der Word representations Dokumentation.
Model Download
Das bereits trainierte Model, das ich im Praxisbeispiel des Vortrags erwähne, kannst du dir hier kostenlos herunterladen, um selbst mit fastText zu experimentieren. Damit kannst du sofort testen ohne selbst erst umfangreiche strukturierte Textdaten organisieren zu müssen.
Trainiert wurde das Model auf Basis von rund 3,3 Mio Fragen von gutefrage.net mit den dazugehörigen Tags als Labels. Das entspricht 250 Mio. Worten (2,6 Mio unique) und 1,6 GB Text. In den Rohdaten waren 41.000 Labels vorhanden, als Relevanzschwelle wurde beim Training festgelegt, dass ein Label mindestens 25 mal im gesamtem Korpus vorkommen muss, um sehr seltene Labels auszuschließen. Danach bleiben rund 15.000 Labels übrig.