Ohren auf!
Auf den Spuren des Hörens: Wie akustische Wahrnehmung unser Leben sicherer und komfortabler macht – und sogar ganz neue Dimensionen erschließen kann.
Mehr als 120 Behinderungen durch Drohnen an deutschen Flughäfen im Jahr 2019. Immer öfter werden Flughäfen gesperrt, entfallen Starts, werden Landungen verschoben. Für herkömmliche Radargeräte sind die kleinen Fluggeräte kaum zu erkennen. Umso wichtiger werden neue Ansätze, den Luftraum über Flughäfen zuverlässig zu überwachen – um Gefahren für Flugzeuge und Fluggäste zu minimieren. Das Fraunhofer-Institut für Digitale Medientechnologie IDMT in Oldenburg hat ein mobiles Sensorsystem entwickelt, das mit acht Mikrofonen sogar dreidimensional Geräusche lokalisieren kann – für den Einsatz an Flughäfen.
Die Erkennung basiert auf dem »akustischen Fingerabdruck«, einem spezifischen Muster im akustischen Signal, das von verschiedensten Drohnenmodellen ermittelt und in einer Datenbank abgelegt wird. Für die zuverlässige Identifikation reichen 25 Stunden Tonaufnahmen verschiedener Drohnen aus, um selbst zuvor nicht »gehörte« Drohnen zu erkennen.
Die größte Herausforderung für die Forschenden am Institutsteil Hör-, Sprach- und Audiotechnologie sind Störgeräusche – etwa der Lärm der startenden und landenden Flugzeuge. Für die Lokalisation der Drohnen in Echtzeit nutzen die Sensoren den Effekt, dass Schall in der Luft träge ist und somit an den unterschiedlichen Mikrofonen zeitversetzt ankommt. So lässt sich die exakte Position im Raum berechnen.
Fake-News sind aktuell eine große Gefahr. Ist die Audioaufnahme echt? Um Manipulationen zu entlarven, nutzen die Wissenschaftlerinnen und Wissenschaftler vom Fraunhofer-Institut für Digitale Medientechnologie IDMT die forensische Audioanalyse: Spezielle Verfahren erkennen Spuren, die durch Aufnahme und Veränderungen verursacht werden, und können damit Aussagen über Entstehung und Bearbeitung der Inhalte prüfen.
So enthalten manche Tonaufnahmen beispielsweise ein Brummen, das charakteristischen Schwankungen des elektrischen Stromnetzes über die Zeit unterliegt. Weist dieses Brummen »Sprünge« auf oder passen seine Eigenschaften nicht zum behaupteten Aufnahmezeitpunkt, so sind dies Hinweise für Veränderungen und Ungereimtheiten. Bei der Suche nach Veränderungen setzt das Fraunhofer IDMT zusätzlich auf Werkzeuge zur Erkennung von Teilüberlappungen. Bei Fakes wird gern »recycelt«. Durch die automatischen Verfahren des Fraunhofer IDMT lassen sich kleinste Teilstücke, die bereits anderswo »gehört« wurden, schnell lokalisieren. »Letztendlich ist die forensische Audioanalyse ein Katz-und-Maus-Spiel«, fasst Patrick Aichroth, der das am Fraunhofer IDMT zuständige Expertenteam leitet, zusammen. »Es gibt zahllose ›Angriffsvarianten‹ und auf neue oder verbesserte Detektoren kommen früher oder später wieder verbesserte Angriffe, die die Entwicklung neuer Detektoren notwendig machen.« Im Forschungsprojekt Digger, das gemeinsam mit der Deutschen Welle und der griechischen Firma ATC durchgeführt wird, werden die Audioforensik-Verfahren aber auch erstmalig für den journalistischen Einsatz angepasst und in die Content-Verifikations Plattform TrulyMedia integriert. Künftig steht damit Journalistinnen und Journalisten ein Werkzeug zur Verfügung, mit dem die Chancen auf News ohne Fake steigen.
Corona-Zeiten sind Rekordzeiten im Online-Handel. Für den Kunden wird der Internet-Kauf immer bequemer – und inzwischen auch immer sinnlicher. Damit Produkte größtmöglichen Anklang finden, stellt sich auch die Frage nach dem Sound. Dafür entwickelt das Fraunhofer-Institut für Digitale Medientechnologie IDMT in Ilmenau eine revolutionäre Softwarelösung.
Ein authentisches Klangerlebnis kreieren die Fraunhofer-Forschenden, indem sie räumliche Simulationsdaten mit Messdaten in einem virtuellen Raum kombinieren. Diese Hörbarmachung heißt Auralisation. So können Produkte oder Komponenten in verschiedenen
Umgebungen akustisch erlebt werden. Dem Fraunhofer IDMT gelingt es, ein realistisches 3D-Audioerlebnis zu schaffen. Im Gegensatz zu herkömmlichen Wiedergabeverfahren kann das System die akustische Richtwirkung eines virtuellen Objekts abbilden. Fraunhofer-Wissenschaftlerinnen und -Wissenschaftler erzeugen den Ton richtungs- und wahrnehmungsecht auf Basis von Simulations- und Messdaten. Außerdem beschleunigt die neue Software AUVIP den Entwicklungsprozess. Virtuelle sowie reale Prototypen können anhand ihres Produktklangs verständlich beurteilt und Varianten leicht miteinander verglichen werden. »Mit AUVIP sind wir jetzt zum ersten Mal in der Lage, numerische Simulationsdaten akustisch erlebbar zu machen – lange bevor ein realer Prototyp entsteht«, erklärt der verantwortliche Experte am Fraunhofer IDMT, Bernhard Fiedler. »Unser Werkzeug ist damit die perfekte Ergänzung für die virtuelle Produktentwicklung. 3D wird damit sinnlich erlebbar für Auge und Ohr.«
Der realistische Klang zahlreicher virtueller Alltagsgeräte: https://auralization.idmt.fraunhofer.de
»Gott, schenke uns Ohrenlider!« So lässt Kurt Tucholsky seufzen in seinem Roman »Schloss Gripsholm. Eine Sommergeschichte«. Tatsächlich kann der Mensch die Augen schließen, den Blick abwenden. Das Ohr nimmt immer auf – bis jetzt. Das Fraunhofer-Institut für Digitale Medientechnologie IDMT in Oldenburg entwickelt mit KI-gestützter Technologie einen intelligenten Gehörschutz in Ohrknopfgröße.
Quelltrennungsalgorithmen sind bereits in der Lage, Lärm von Sprache zu unterscheiden. Ein Hearable soll dann Sprache und Umgebungsgeräusche so aufeinander abstimmen, dass das gesprochene Wort verständlich bleibt und die Nebengeräusche hörbar sind, aber nie zu laut. Für natürlichen Klang im Ohr wird der Schall auch richtungsecht wiedergegeben. Damit bleibt die Orientierung im Raum vorhanden.
Die Fraunhofer-Wissenschaftlerinnen und -Wissenschaftler sehen den Einsatzbereich unter anderem an Lärmarbeitsplätzen – zum Beispiel in lauten Werkshallen. Dabei kann das Hearable Kolleginnen und Kollegen miteinander vernetzen, die beispielsweise auf verschiedenen Seiten einer Maschine stehen und sich eigentlich gar nicht hören könnten.
Es ist Sonntag. Es ist »Tatort«. Es ist Rekordquote. Gut ein Fünftel der Zusehenden tut sich als Zuhörer schwer, weil ihr Hörvermögen beeinträchtigt ist. Ein Dauerthema bei Beschwerden an die Fernsehsender ist darüber hinaus, dass Musik und Hintergrundgeräusche zu laut und die gesendete Sprache zu leise seien. Forschende des Fraunhofer-Instituts für Integrierte Schaltungen IIS haben daher eine KI-basierte Lösung entwickelt, die Dialoge verständlicher macht – und dieses Dauerärgernis beim Fernsehen behebt.
Dazu untersucht ein Algorithmus das Audiomaterial und unterscheidet zwischen Sprache sowie Geräuschen, Ambiente und Musik. Die KI erkennt, wann gesprochen wird, trennt Dialog und Hintergrundgeräusche und senkt Letztere ab, wenn sie zu laut sind. In einer Studie in Zusammenarbeit mit einer öffentlich-rechtlichen Rundfunkanstalt wurden 2000 Zuschauerinnen und Zuschauer zu der neuen verständlicheren Tonmischung befragt. Selbst die jüngeren Teilnehmenden fanden die Möglichkeit gut, dass zwischen zwei Tonspuren (normaler Mix und Dialog+) gewählt werden konnte. 46 Prozent aller Befragten präferierten die verständlichere Tonspur, nur etwa ein Fünftel die Originalmischung.
Schweißen ist schweißtreibend. Diese anstrengende Arbeit wird zunehmend automatisiert erledigt – im Karosseriebau der Autoindustrie liegt der Automatisierungsgrad bereits bei fast 100 Prozent. Aber: Eine erfahrene Schweißerin oder ein erfahrener Schweißer hört bereits beim Schweißvorgang, ob Naht oder Schweißpunkt gelungen sind. Diese akustische Rückmeldung fehlt den Robotern – bisher.
Die Forschenden am Fraunhofer-Institut für Digitale Medientechnologie IDMT in Ilmenau arbeiten an einer »sinnreichen« Abhilfe. Mit der Etablierung einer künstlichen Intelligenz auf Basis akustischer Sensordaten und maschineller Lernverfahren sind die Fraunhofer-Wissenschaftlerinnen und -Wissenschaftler dabei Vorreiter – vor allem, wenn es um Luftschalldaten geht.
In dem vom BMBF geförderten Projekt AKoS wurde beispielsweise ein Mikrofon am Arm des Schweißroboters in geringem Abstand zur Elektrode montiert. Akustische Auffälligkeiten werden sofort erkannt, der Fertigungsvorgang kann bei Bedarf gestoppt und korrigiert werden.
Die Forschenden am Fraunhofer IDMT testeten die Technologie auch schon zur Endkontrolle an elektrisch verstellbaren Fahrzeugsitzen, um verbaute Servomotoren zerstörungsfrei zu prüfen.
Beim autonomen Fahren dirigieren Computer ein ganzes Orchester an Sensorik – neu an der ersten Geige: die Akustik. Moderne Autos sehen fast alles – mit sechs Kameras, vier Radargeräten und einem Lidar, das mit Lichtstrahl statt mit Radarstrahlen arbeitet. Sie hören nichts. Sogar die Insassen nehmen mit stei-gendem Komfort und immer besserer Schalldämmung akustisch immer weniger von der Umgebung wahr. Um das »hörende Auto« zu realisieren, entwickeln Forscherinnen und Forscher am Fraunhofer-Institut für Digitale Medientechnologie IDMT in Oldenburg KI-basierte Technologien zur akustischen Ereigniserkennung. Ein Sensor soll im Bruchteil einer Sekunde Umgebungsgeräusche wahrnehmen, einordnen und lokalisieren. Bei einer herannahenden Sirene würde dies bedeuten, dass zukünftig autonome Fahrzeuge eigenständig Platz machen. Selbst bei durch Menschenhand gelenkten Fahrten macht das System Sinn: Die von der Außenwelt Isolierten könnten durch einen Hinweis im Head-up-Display frühzeitig aufmerksam gemacht werden. Das KI-basierte akustische Sensorsystem der Wissenschaftlerinnen und Wissenschaftler am Institutsteil Hör-, Sprach- und Audiotechnologie setzt sich aus akustischen Sensoren, Recheneinheiten und modularen Softwarekomponenten zusammen. Neben dem Martinshorn könnten auch spielende Kinder am Straßenrand, ein klingelnder Radfahrer oder ein herannahender Zug an einem unbeschrankten Bahnübergang detektiert werden.
Drei Fragen an Bernhard Fiedler, Fraunhofer IDMT in Ilmenau
Als Akustiker reizt es mich besonders, das menschliche Hören zu verstehen und in Modellen zu digitalisieren. Denn je genauer dieses Modell ist, desto realitätsnäher kann eine digitale Klangszene wiedergegeben werden.
Ich hoffe, dass wir in Zukunft eine künstliche akustische Immersion erreichen können, die von der Realität kaum noch zu unterscheiden ist. Insbesondere wird dies dabei helfen, alltägliche Lärmquellen besser simulieren, verstehen und schließlich modifizieren zu können. Denn weniger Schallemissionen schützen nicht nur die Umwelt, sondern auch die Gesundheit.
Die menschliche Wahrnehmung ist nicht nur hoch anpassungsfähig, sondern auch hochindividuell. Zum Beispiel im Hinblick auf Geräusche: Was für den einen Menschen angenehm klingt, kann für einen anderen bereits nervig wirken. An dieser Stelle glaube ich, dass beispielsweise KI-basierte Technologien alltägliche Dinge objektiver bewerten können, als es Menschen tun.
Drei Fragen an Dr. Jens-E. Appell, Fraunhofer IDMT in Oldenburg
Für mich als Hörforscher spielt insbesondere die Unterstützung von Menschen eine große Rolle. Der besondere Reiz liegt dabei darin, den durch die Evolution hervorragend entwickelten Hörsinn des Menschen durch Technik zu unterstützen. Umgekehrt gelingt es uns aber auch, Maschinen das Hören beizubringen, damit sie sich selbst und ihre Umgebung akustisch erfassen und zum Beispiel Fehlfunktionen erkennen oder sich per Sprache bedienen lassen.
Ich bin überzeugt, dass KI-unterstützte Hörsysteme die Kommunikation zwischen Menschen und unsere Interaktion mit unserer Umwelt wesentlich verändern werden und solche »intelligenten Ohren« in Zukunft einen festen Bestandteil unseres Alltags darstellen – sei es in der Industrie, der Mobilität, im Gesundheitswesen oder im Privaten. Sie werden Sprache oder Gefahrensituationen akustisch erkennen und unerwünschte Geräusche ausblenden. Sie werden unsere Umgebung und unsere Gesundheit erfassen und uns entsprechend warnen und über das, was uns interessiert, informieren.
Der Hörsinn ist unter unseren Sinnen vielleicht der Sinn, der am unmittelbarsten in der Lage ist, Emotionen bei uns auszulösen. Der Mensch nimmt nicht nur die Sprache wahr, sondern unterscheidet auch Stimmen, Stimmungen, Zwischentöne. Emotionale Verbindung wird uns Technik auf sehr lange Sicht nicht vermitteln können. Durch den Einsatz von KI ist sie jedoch immer besser in der Lage, unsere Wahrnehmung zu unterstützen, unangenehme Ereignisse, wie Lärm, zu vermeiden und wichtige Ereignisse für uns in den Fokus zu rücken.