Sprachtechnologie im täglichen Leben (3)

heute: Syntax und Morphologie

Syntax und Morphologie werden in der Computerlinguistik oft in einem Atemzug genannt, weil es ähnliche Konzepte sind, die beiden Disziplinen zugrundeliegen. Insofern ist die Grenze etwas vage. Morphologie beschäftigt sich mit der Bildung von Wörtern und Syntax mit der Bildung von Sätzen. (Wohlgeformte) Sätze (bzw. Wörter) sind ja normalerweise keine bloße Ansammlung von Wörtern (bzw. Zeichen), sondern erfordern eine bestimmte Struktur – das alles haben wir in der Schule unter dem Begriff “Grammatik” mal gelernt.

2.4 In der Zeitung steht, dass der Lieferant von Gammelfleisch erst gestern erfuhr.

Diesen Satz kennen wir vom letzten Mal. Seine Mehrdeutigkeit kann am Ende aufgelöst werden, weil das Verb “erfahren” (die Abbildung von “erfuhr” [Präteritum] auf die Zitierform ist übrigens Teil der morphologischen Analyse) ein Objekt verlangt. Das, von dem erfahren wird. Dieses Objekt ist “Gammelfleisch”, wodurch es nicht mehr als Modifikator von “Lieferant” zur Verfügung steht.

Wie kommen wir also an solche Informationen? Mit einem Parser. Es ist leichter zu erklären was ein Parser in der Computerlinguistik tun muss, wenn man die Perspektive wechselt. Stellen wir uns vor, wir wollen ein Programm schreibt, dass anhand eines gegebenen Lexikons alle möglichen syntaktisch korrekten deutschen Sätze generiert. Nehmen wir zum Beispiel folgendes Lexikon an, in dem zu jedem Eintrag die Wortart (N=Nomen, D=Artikel, V=Verb) steht:

N -> frau
N -> katze
D -> der
D -> die
V -> schläft

Nun brauchen wir noch die Grammatikspezifikation, die uns sagt, dass die katze schläft gut ist, * katze frau der die schläft aber nicht.

Eine grundlegende Konstruktion in den allermeisten Sprachen ist die von Artikel und Nomen. Deswegen definieren wir, dass ein Artikel gefolgt von einem Nomen zusammen eine gute Sache sind – und zusammen eine Nominalphrase (NP) ergeben:

NP -> D N

Da wir damit noch keinen Satz haben, erlauben wir außerdem die Kombination von einer NP gefolgt von einem Verb zu einem Satz (S):

S -> NP V

So, nun überlegen wir, was wir damit machen können. Wir wollen einen Satz (S) generieren, also fangen wir damit an. Wir haben keine andere Möglichkeit, als “S” durch “NP V” zu ersetzen, was wir tun. Im nächsten Schritt ersetzen wir “V” durch “schläft” und “NP” durch “D N”. Jetzt sind wir ungefähr hier:
tree1.png

Ab hier bauen wir mehr als einen Satz, weil wir die Wahl zwischen mehreren (insgesamt 4) Alternativen haben. Heraus kommen also die folgenden vier Sätze:

  1. der frau schläft
  2. der katze schläft
  3. die frau schläft
  4. die katze schläft

(Wer sich wundert, dass ihm das alles bekannt vorkommt: Ja, das ist nichts spezifisch computerlinguistisches. Es handelt sich um eine kontextfreie Grammatik)

Jetzt haben wir vier Sätze generiert, von denen 2 grammatikalisch falsch sind. Das ist ja nicht so super. Dem können wir aber abhelfen, indem wir die Regel für Nominalphrasen und das Lexikon verändern.

Was schiefläuft, ist, dass das grammatikalische Geschlecht von “frau” und “der” nicht übereinstimmt (und “katze” und “der”). Die Information darüber muss also erstmal ins Lexikon:

N_fem -> frau
N_fem -> katze
D_mas -> der
D_fem -> die
V -> schläft

Und die Regel für NPs muss natürlich entsprechend angepasst werden:

NP -> D_fem N_fem
NP -> D_mas N_mas

Das war’s. Jetzt bekommen wir nur noch zwei Sätze, die beide grammatikalisch korrekt sind:

Wir haben jetzt dafür gesorgt, dass es innerhalb einer Nominalphrase nur noch ein grammatikalisches Geschlecht gibt. Der Computerlinguist bezeichnet das auch gerne als “Agreement”, also als Übereinstimmung.

Und nächstes Mal erkläre ich, wie wir damit Sätze wie 2.4 eindeutig machen können.

October 16th, 2006 Kategorie: Lehrstück

1 Comment Add your own

  • 1. The original hard bloggin&hellip  |  October 28th, 2006 at 1:19 pm

    […] Letztes Mal habe ich versucht zu erklären, wie Sätze im Prinzip syntaktisch analysiert werden können. Diese Analyse nennt sich Parsing und lässt sich auch umdrehen, was dann Generierung heißt. […]

Leave a Comment

Required

Required, hidden

Some HTML allowed:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Trackback this post  |  Subscribe to the comments via RSS Feed


Werbung

Kategorien

Aktuell

Aktueller Beitrag der Wisskomm-Wochenshow.

Hard Blogging Scientists (Auswahl)

Feeds

Unterstützt von

node3000.com
node3000

Digital Tools Magazine