Hi,
@Rain_Maker @bytepool
nun mal nicht so negativ Jungs, denkt daran das vor 20 Jahren niemand gedacht hat das es bald mehr Handys als Einwohner in Deutschland gibt.
Das ist kein Negativismus, sondern eine informierte Meinung. Ich habe auch nicht von der Zukunft gesprochen, sondern von der aktuellen Situation. Das ist in der Tat ein Bereich an dem noch intensiv und viel geforscht wird, und in einigen Jahren koennte die Antwort auf deine Frage schon wieder anders ausfallen.
Text Mining und Information Retrieval ist nicht mein Schwerpunkt, aber ich bleibe bei meiner Meinung, dass da aktuell noch nicht viel sinnvolles bei rauskommen kann. Es gibt mittlerweile unheimlich gute AI Techniken die sich statistischer Auswertung bedienen. Wir haben z.B. in einem Uni Projekt wo es um Stimmerkennung ging, mit Gaussian Mixture Models eine Erkennungsrate von 97% hinbekommen. Allerdings auch nur unter stark kontrollierten Bedingungen.
Aber natuerliche Sprache ist nicht rein statistisch, und ist genau deswegen so wahnsinnig schwer zu handhaben. Wie Rain_Maker schon ganz richtig erkannt hat, ist in so einem Fall auch die Semantik extrem wichtig, und in dem Bereich ist die AI Forschung nach wie vor noch recht Schwach. Das geht dann wieder mehr in Richtung Logik.
Wenn du das Ganze auf einen konkreten Anwendungsfall begrenzt, oder dich nur in einem bestimmten Fachgebiet bewegst, ich denke dann kannst du nach viel Arbeit und fleissigem rumspielen mit Parametern brauchbare Ergebnisse erzielen. Doch wenn es dir um die allgemeine Aufgabenstellung geht, dann ist das meiner Meinung nach immer noch utopisch.
Ich koennte mir allerdings auch vorstellen dass die Laenge des Textes einen grossen Einfluss auf die Brauchbarkeit hat. Wie gesagt, beliebige Selektion ist trivial, aber brauchbare Ergebnisse fuer den allgemeinen Fall zu bekommen ist wieder eine voellig andere Sache.
Unabhaengig davon finde ich es schade dass sie da auf der Seite nirgendwo beschreiben wie sie denn ihre Selektion vornehmen. Sie schreiben da einfach nur dass sie ein Programm entwickelt haben das eine Selektion vornimmt, aber nicht wie. Die Technik dahinter wuerde mich viel mehr interessieren.
mfg,
bytepool