Wiki

Clone wiki

BMCr / Stemming

https://en.wikipedia.org/wiki/Stemming

"Für die BMCr Analyse müssen die Daten aufbereitet werden, damit Klassifikationstools auf den wesentlichen Textbausteinen arbeiten."

In der natürlichen Sprache kommen Wörter in unterschiedlichen Formen vor (z.B. durch verschiedene Zeiten, Deklination). Um dieses Problem zu vereinfachen, wird das Word-Stemming verwendet. Dabei werden die gespeicherten Wörter auf ihre Grundform bzw. den Wortstamm gebracht und gespeichert. Im späteren Prozess werden so Wörter mit gleichem Wortstamm als gleich behandelt und die zugehörigen Canvases weisen eine höhere Ähnlichkeit auf.

Es gibt verschiedene Stemming-Verfahren und Stemmer, das sind SW Impl. der Stemming Verfahren.

Beispiel: gestemmte Worte

stemmedWords.JPG

Updated