EhrenvortragTechnische Universität Darmstadt
Universität des Saarlandes &
Deutsches Forschungszentrum für Künstliche Intelligenz GmbH
Darmstadt, 08. Oktober 2001
Übersicht
l Sprachliche Mehrdeutigkeit als Grundproblem
l Klassische Disambiguierungsalgorithmen
l Verzögerte Disambiguierung durch Unterspezifikation
l Wechselseitige Disambiguierung von Sprache, Gestik und Mimik
Drei Stufen der Sprachverarbeitung
Verbmobil: Übersetzung von Spontansprache über Mobiltelephone
Von der Eingabeschallwelle zur Ausgabeschallwelle
Disambiguierung: Auflösung mehrdeutiger sprachlicher Äußerungen
l Problem der kombinatorischen Explosion der Lesarten durch Propagierung von Alternativen über alle Verarbeitungsebenen
l Durch die Unsicherheit bei der Spracherkennung entstehen Wörter- gitter mit alternativen Hypothesen, welche die Flut von Lesarten noch weiter erhöhen
Disambiguierung durch Selektions-restriktionen und Weltwissen
Vater zu einem Service-Roboter im Cyber-Restaurant:
Drei Übersetzungen des Wortes “Termin”in Verbmobil
1. Verschieben wir den Termin.
Let’s reschedule the appointment
2. Schlagen Sie einen Termin vor.
3. Da habe ich einen Termin frei.
I have got a free slot there.
Die Verwendung von Kontextinformation und Weltwissen bei der Disambiguierung im System Verbmobil
Alle anderen Dialogübersetzungssysteme übersetzen Wort-für-Wort oder Satz-für-Satz
Nehmen wir dieses Hotel, ja. ? Let us take this hotel.
Ich reserviere einen Platz. ? I will reserve a room.
Gehen wir zum Abendessen. ? Let us have dinner .
Ich reserviere einen Platz. ? I will reserve a table.
Gehen wir ins Theater. ? Let us go to the theater.
Ich möchte Plätze reservieren. ? I would like to reserve seats.
Beispiel: Platz ? room / table / seat
Semantische Präzisierung durch Situationswissen
Lassen Sie uns zusammen Essen gehen!
Let‘s have lunch together!
Let‘s have dinner together!
Verzögerte Disambiguierung von Skopusmehr-deutigkeiten auf der Basis von Unterspezifikation
(A) Einen Computer benutzen alle Informatikstudenten.
(1) ?x (computer (x) ? ?y (informatik-student (y) ? benutzt (y,x)))
(2) ?y (informatik-student (y) ? ?x (computer (x) ? benutzt (x,y)))
Unterspezifizierte Repräsentation (ohne Skopusdisambiguierung)
(3) {?x: computer, ?y: informatik-student} (benutzt (y,x))
(B) Das ist der Zentralrechner PDP-10. <vor 20 Jahren> ? (1)
(C) Oft bringen sie ihr Notebook mit in die Vorlesung. <heute> ? (2)
Verzögerung und Umgehung der Disambiguierung durch Unterspezifikation
l Vermeidung einer kombinatorischen Explosion der Lesarten
l Kompakte Repräsentation ohne Auswertung aller Disjunktionen
l Unterstützung von nicht-monotoner Diskurssemantik mit Wait-and-See Strategie, ggf. mit Reininterpretation von Eingaben
l Direkte Inferenz über unterspezifizierten Repräsentationen ist möglich
{?x: computer, ?y: informatik-student} (benutzt (y,x)) ?z: ki-student (informatik-student (z))
Ambiguitätserhaltende Übersetzung
Lexikalische Disambiguierung bei Bedarf
Erhaltung lexikalischer Ambiguität (Rohrer 2000)
How did you find his office? (get to or like)
Wie fanden Sie sein Büro?
Eine Disambiguierung ist nicht notwendig zwischen Deutsch und Englisch.
dou kare no jimusho o mitsukeraremashita ka
How he POSS office OBJ get to can PAST QUESTION
kare no jimusho wa dou omoimasu ka
He POSS office TOPIC how think QUESTION
Eine Disambiguierung ist notwendig zwischen Deutsch und Japanisch.
Eine Multi-Blackboard Architektur zur Kombination von flachen und tiefen Verarbeitungspfaden
Vom Sprachdialog zum Multimodalen Dialog
Multimodale Dialoge mit Navigationssystemen für Autofahrer und Fußgänger
Benutzer: Ich möchte nach Heidelberg fahren.
Smartakus: Wollen Sie die schnellste oder kürzeste Strecke fahren?
Benutzer: Die schnellste.
Smartakus: Hier sehen Sie eine Karte mit der schnellsten Verbindung von Saarbrücken nach Heidelberg.
SmartKom bietet einen uniformen Navigationsdialog trotz unterschiedlicher Positionierungstechnologien
Multimodale Dialoge mit Navigationssystemen für Autofahrer und Fußgänger
Smartakus: Wir sind jetzt in Heidelberg angekommen. Hier ist ein Stadtplan mit den wichtigsten Sehenswürdigkeiten.
Benutzer: Ich möchte mehr Information über diese Kirche.
Smartakus: Hier sehen Sie die Webseite über die Peterskirche.
Benutzer: Wie komme ich zu Fuß am besten von diesem Parkplatz zu der Kirche.
Smartakus: Auf dieser Karte habe ich den Weg markiert.
Multimodale Kommunikation mit Unterhaltungselektronik
Benutzer: Welche Sender zeigen gerade aktuelle Nachrichten?
Smartakus: CNN und NTV zeigen jetzt Nachrichten.
Benutzer: Zeige diesen Sender am Fernsehen und zeichne diese Nachrichtensendung auf.
Smartakus: Okay, CNN wird jetzt vom Videorekorder aufgezeichnet und hier sind die NTV-Nachrichten.
Beispiel: Zugriff auf digitale Programmführer
Wechselseitige Disambiguierung durch Multiple Eingabemodalitäten
Die kombinierte Sprach- und Bildverarbeitung erhöht die Robustheit und die Verstehensleistung multimodaler Benutzerschnittstellen
Symbolische und Subsymbolische Fusion von Eingabemodalitäten
Wechselseitige Disambiguierung von Sprache und Gestik
Benutzer: Diese beiden Plätze bitte!
Fokusierende Geste zur Disambiguierung derSpracheingabe (Wahlster 1991)
„Warum soll ich das ‚A‘ löschen?“
Zeigegesteninterpretation in XTRA (eXpert TRAnslator, Wahlster et al. 1986)
Antizipationsrückkopplung bei derGestengenerierung
Unifikationsbasierte Integration von Sprach- und Gestikeingabe
Typisierte Merkmalstrukturen für
Sprachrepräsentation und Gestikeingabe
nach nicht mehr als 5 Sekunden
Unifikationsbasierte Integration von Sprach- und Gestikeingabe
Subkategorisierungsrahmen
l Spezifikation der erwarteten
l Zeitliche Constraints über
Unifikationsbasierte Integration von Sprach- und Gestikeingabe
Unifikationsbasierte Integration von Sprach- und Gestikeingabe
Unifikationsbasierte Integration von Sprach- und Gestikeingabe
Fusion von Sprach- und Mimikerkennung in SmartKom
Modifikation bis hin zur Negation der Standardsemantik
(1) Smartakus: Hier sehen Sie die Übersicht zum heutigen ZDF- Programm.
(3) Smartakus: Ich zeige Ihnen alternativ das Programm eines anderen Senders.
(2’) Benutzer: Echt toll.
(3’) Smartakus: Welche Sendungen wollen Sie aus dem ZDF-Programm sehen oder aufzeichnen?
Videobasierte Mimikerkennung auf der Basis von Eigenfaces
Sprecherunabhängie Emotionserkennung
Fusion und Allokation multipler Modalitäten in SmartKom
Kombination von Sprache und Gestik in SmartKom
Multimodale Ein- und Ausgabe in SmartKom
Zusammenfassung
l Es gibt keinen universellen Disambiguierungsalgorithmus. Nur mithilfe der Kombination von Evidenzen aus verschiedenen Wissensquellen und durch die Fusion von Ergebnissen konkurrenter Verarbeitungs- pfade, kann eine eindeutige Interpretation gewonnen werden.
l Durch die wechselseitige Disambiguierung von Eingabemodalitäten (Sprache, Gestik, Mimik) sind multimodale Dialogsysteme erheblich robuster und effizienter als reine Sprachdialogsysteme.
l Die Unterspezifikation von Bedeutungsrepräsentationen erlaubt eine Verzögerung des Disambiguierungsprozesses im Dialog solange, bis ausreichende Information vorliegt.
l Bei der maschinellen Übersetzung ist in vielen Fällen eine Disambigu- ierung des quellsprachlichen Ausdrucks nicht notwendig, da die Mehr- deutigkeit in der Zielsprache erhalten bleibt und ggf. vom Sprecher sogar intendiert war.