Contact

admin

About Me · Send mail to the author(s) E-mail · Twitter

At GROSSWEBER we practice what we preach. We offer trainings for modern software technologies like Behavior Driven Development, Clean Code and Git. Our staff is fluent in a variety of languages, including English.

Feed Icon

Tags

Open Source Projects

Archives

Blogs of friends

Now playing [?]

Error retrieving information from external service.
Audioscrobbler/Last.fm

ClustrMap

Wortzerlegung der besonderen Art

Posted in Fun Stuff at Friday, June 30, 2006 2:00 PM W. Europe Daylight Time

Projekt WortschatzGestern sprachen Silke und ich mit Chris Biemann von der Abteilung Automatische Sprachverarbeitung an der Universität Leipzig. Die Kollegen beschäftigen sich mit verschiedenen Methoden, Texte mit Hilfe des Computers zu verarbeiten. Ihre Sprachklassifizierungssoftware durfte ich bereits in einem eigenen Projekt anwenden: Man übergebe dem Programm eine Menge Text und es sagt einem in welcher Sprache der Text wahrscheinlich verfasst ist. Damit kann man z.B. einen Dokumentenstamm sprachlich clustern.

Silke hat derzeit ein anderes Tool im Einsatz, nämlich eines das zusammengesetzte Substantive in seine Einzelteile zerlegt: Aus Vortragsgestaltung wird Vortrag und Gestaltung. Dabei kommen unter Umständen ganz lustige Ergebnisse zustande, wie bei dem von Chris angeführten Beispiel Schamanismus. Der Computer glaubt die Fragmente Scham, Anis und Mus zu erkennen, korrekterweise alles deutsche Worte. Durch eine weitere Funktion des Tools, der Grundformreduktion, entsteht in einem zweiten Schritt aber Scham, Anus und Mus. Der Schamanusmus.

Ein schönes Wochen, Ende.

All comments require the approval of the site owner before being displayed.
(will show your gravatar icon)
 
[Captcha]Enter the code shown (prevents robots):

Live Comment Preview