Wenn Menschen durcheinander reden, versteht ein Computer nicht viel

Warum hören sich Computerstimmen oft künstlich an? Wieso kann ein Roboter nicht einfach verstehen, aus welcher Richtung ein Mensch zu ihm spricht? Und kann man die Spracherkennung von Computern verbessern, wenn man weiß, wie der Mensch selbst eine Sprache erlernt? Mit solchen Fragen beschäftigen sich junge Wissenschaftler aus ganz Europa, die sich vom 11. bis 14. Januar zu einer Tagung an der Universität des Saarlandes treffen. Neben Informatikern und Ingenieuren nehmen daran auch Geisteswissenschaftler sowie zwei Industriepartner teil.

In den vergangenen Jahrzehnten wurden intensiv daran geforscht, wie man Sprache mit Computern verarbeiten kann. Dabei ging es zum einen darum, wie man geschriebene Texte von einer Computerstimme auf möglichst natürliche Weise wiedergeben kann. Man beschäftigte sich aber auch damit, wie gesprochene Sprache von Computer automatisch verstanden und verarbeitet werden kann. Viele Fortschritte wurden dabei gemacht, von denen wir heute am Handy, in Computerspielen oder im Dialog mit Call-Centern profitieren. Was für die Computer aber weiterhin eine Herausforderung bleibt, ist zum einen, die Mehrdeutigkeit von Sprache und die vielfältigen Nuancen der menschlichen Stimme abzubilden. Zum anderen fällt es Spracherkennungssystemen schwer, im Stimmengewirr einer Menschenmenge einzelne Stimmen herauszufiltern und räumlich zu orten. Das spielt zum Beispiel bei Video-Konferenzen eine Rolle, bei denen Kameras automatisch zum Sprecher geschwenkt werden sollen.

Die Wissenschaftler, die jetzt in Saarbrücken an der internationalen Tagung teilnehmen werden, beschäftigen sich aus ganz verschiedenen Perspektiven mit der Sprachverarbeitung. Sie erhoffen sich neue Erkenntnisse durch die fächerübergreifende Zusammenarbeit. So können zum Beispiel Informatiker von Sprachforschern profitieren, die untersuchen, wie Menschen eine Sprache erlernen und wie sie beim Sprechen nicht nur einzelne Vokale, sondern ganze Silben formulieren. Denn wenn es gelingt, die menschliche Sprachverarbeitung nachzubilden, kann die maschinelle Sprachverarbeitung natürlicher und besser werden. Dies interessiert auch den Elektronikkonzern Toshiba sowie die Firma Nuance, eines der führenden Unternehmen auf dem Gebiet der Spracherkennung, deren Vertreter an der Tagung teilnehmen werden.

Die Tagung in Saarbrücken ist Teil des Scale-Projektes, das im Rahmen des Marie-Curie-Programms von der Europäischen Union gefördert und von Dietrich Klakow, Professor für Sprach- und Signalverarbeitung der Universität des Saarlandes, geleitet wird. Die Wissenschaftler des Scale-Projektes, das für „Speech Communication with Adaptive Learning“ steht, beschäftigen sich damit, wie die maschinelle Sprachverarbeitung weiter verbessert werden kann. Das Marie-Curie Programm gibt jungen Wissenschaftlern die Chance, dass sie während ihrer Promotion gleichzeitig von zwei europäischen Universitäten betreut werden und an internationalen Forschungsprojekten teilnehmen können.

Weitere Informationen unter:

Jean Pütz

Wissenschaftsjournalist

Wenn Menschen durcheinander reden, versteht ein Computer nicht viel