Smartphones sind wahre Alleskönner. Eines ist jedoch nach wie vor recht dürftig: Die Sprachqualität beim Telefonieren. Ein neuer Codec, an dessen Entwicklung Fraunhofer-Forscher maßgeblich beteiligt waren, soll dies nun ändern. Er hebt die Sprachqualität auf eine neue Stufe – die Worte des Telefonpartners klingen so natürlich, als würde er neben einem stehen. Der Grund: Es wird erstmals das komplette hörbare Frequenzspektrum übertragen.
Blechern dröhnt die Musik der Warteschleife aus dem Lautsprecher des Smartphones. Und hat man es endlich geschafft und einen menschlichen Gesprächspartner an der Strippe, ist die Sprachqualität auch nicht gerade berauschend. Denn während die meisten Anwendungen des Smartphones große Entwicklungssprünge gemacht haben, verharrt die Sprachübertragung seit Jahren auf dem gleichen Stand.
Klar und natürlich statt dumpf und verzerrt
Der neue Standard Enhanced Voice Services, kurz EVS, soll das künftig ändern: Vergleichbar etwa mit dem Schritt vom Röhrenfernseher zum Flachbildschirm. Statt dumpf und verzerrt hört man die Stimme des Telefonpartners so klar und natürlich wie im Gespräch von Angesicht zu Angesicht. Angestoßen und entwickelt wurde der Codec vom internationalen Gremium für Mobilfunkstandardisierung 3rd Generation Partnership Project (3GPP). Daran war auch ein großes Team des Fraunhofer-Instituts für Integrierte Schaltungen IIS in Erlangen maßgeblich beteiligt.
Die Anforderungen an einen solchen Standard sind hoch. »Die Grundvoraussetzung besteht zunächst einmal darin, Sprache in guter Qualität zu übertragen – und zwar bei niedrigen Datenraten, so dass die Übertragung wirtschaftlich bleibt«, sagt Markus Multrus, der die Software-Entwicklung für den Codec am Fraunhofer IIS koordiniert. Zudem sollte der Codec robust gegenüber Fehlern bei der Übertragung sein, damit das Gespräch bei schlechten Empfangsbedingungen nicht unterbrochen wird. Weiterhin sollte der Codec auch mit anderen Signalen gut auskommen – und etwa Musik in Warteschleifen in guter Klangqualität übertragen. Das ist jedoch alles andere als einfach, schließlich sind Sprach- und Audiocodierung zwei verschiedene Welten. Daher analysiert der Codec alle 20 Millisekunden, ob gerade Sprache oder Musik übertragen wird – und verwendet die jeweils passenden Algorithmen.
Übertragung des gesamten hörbaren Frequenzspektrums
Doch worin genau besteht nun der technische Unterschied zwischen den bisherigen Codecs und EVS? »Das menschliche Ohr nimmt Frequenzen bis ca. 20 Kilohertz wahr«, erläutert Guillaume Fuchs, der die wissenschaftliche Entwicklung von EVS am Fraunhofer IIS vorangetrieben hat. »Der bisherige Codec übermittelt allerdings nur Tonsignale in einem Frequenzbereich bis 3,4 Kilohertz – der Bereich zwischen 3,4 und 20 Kilohertz wird schlichtweg abgeschnitten. Daher klingt die Stimme dumpf. Der neue Codec überträgt je nach Bitrate Frequenzen bis 16 beziehungsweise bis 20 Kilohertz.« Kurzum: Der Codec umfasst das komplette hörbare Frequenzspektrum – bei Datenraten, die mit bisherigen Mobilfunkcodecs vergleichbar sind.
Kein Unterschied zur natürlichen Sprache
Bevor ein neuer Codec jedoch als Standard gesetzt werden kann, muss er zeigen, was er kann. In zahlreichen Hörtests wurde der Codec weltweit von mehreren Tausend Testpersonen bewertet. Das Ergebnis: Die Hörer beurteilten den neuen Standard signifikant besser als die bisherigen Verfahren. Mittlerweile ist der Codec in 3GPP standardisiert. »In Japan, Korea, den USA und Deutschland wird EVS bereits kommerziell eingesetzt«, freut sich Stefan Döhla, der das Fraunhofer IIS im Gremium vertritt. »Schätzungen zufolge sind bereits 50 bis 100 Millionen Geräte mit EVS ausgerüstet.«
Für die Entwicklung des Sprachcodecs EVS erhalten Dipl.-Ing. Markus Multrus, Dr. Guillaume Fuchs und Dipl.-Ing. Stefan Döhla den diesjährigen Joseph-von-Fraunhofer-Preis – stellvertretend für das Team, das aus über 50 Wissenschaftlern und Ingenieuren bestand. Die Jury begründet die Preisvergabe unter anderem mit »dem weltweiten Einsatz und den hohen zu erwartenden Lizenzeinnahmen«.