»Ich will es noch mal wissen!« – Karlheinz Brandenburg im Interview

Der mp3-Entwickler arbeitet heute an der perfekten auditorischen Illusion

Er hat es in die »Internet Hall of Fame« geschafft und natürlich darf er auch bei den Fraunhofer-Alumni nicht fehlen: Prof. Dr.-Ing. Dr. rer. nat. h.c. mult. Karlheinz Brandenburg ist einer der Erfinder des Dateiformats mp3, die wohl wichtigste Entwicklung für die Musikindustrie seit der Schallplatte. Vor über einem Jahr gab er die Leitung des Fraunhofer IDMT ab, um sich – wie er selbst sagt – in den Unruhestand zu begeben. Er ist nicht nur Senior Professor der TU Ilmenau, sondern entwickelt derzeit mit großem Engagement als CEO der von ihm gegründeten Brandenburg Labs das »nächste große Ding«: PARty ist sozusagen das akustische Pendant zu virtueller Realität. Es soll dem Hörer eine perfekte auditorische Illusion vermitteln und zudem als akustische Lupe oder Filter funktionieren – also gezieltes Weg- oder Hinhören ermöglichen. Die Anwendungsmöglichkeiten sind vielfältig, bis zur Marktreife aber ist es noch weit. Die Forscherinnen und Forscher stehen vor zahlreichen Herausforderungen, wovon sich der Investor und Forscher Brandenburg nicht abschrecken lässt. Wie bei der Entwicklung von mp3 ist auch hier bei diesem neuen Projekt ein vergleichsweise kleines, gut aufeinander eingespieltes Team am Werk.

Das mp3-Team am Fraunhofer IIS im Jahr 1987
© Fraunhofer IIS
Ein "echtes Team": Die vergleichsweise kleine, aber gut auf einander eingespielte Truppe um Heinz Gerhäuser (sitzend) forderte mit mp3 erfolgreich die Branchenriesen heraus. Von Links: Harald Popp, Stefan Krägeloh, Harmut Schott, Berhard Grill, Heinz Gerhäuser, Ernst Eberlein, Karlheinz Brandenburg und Thomas Sporer. Diese Aufnahme entstand 1987 am Fraunhofer-Institut für Integrierte Schaltungen IIS in Erlangen.
Karlheinz Brandenburg engagiert sich heute anderem als Gründer und Investor
© Brandenburg Labs
Mit der Gründung des Unternehmens Brandenburg Labs verfolgt der mp3-Entwickler von damals heute seinen großen Traum von einer Technolgie, die eine perfekte "auditorische Illusion" vermittelt.
Chips made in Germany von ITT Intermetall
© Fraunhofer IIS
Erster Prototyp eines mp3-Spielers, der ohne bewegliche Teile auskommt. Das Breisgauer Unternehmen ITT Intermetall stellte diesen 1994 auf der "Tonmeistertagung" Karlsruhe vor. Etwa vier jahre später kamen die ersten tragbaren mp3-Endgeräte auf den Markt. Rund 10 Milliarden Geräte wurden bis heute lizensiert.

Sie haben für die Digitalisierung der Musik einen großen Beitrag geleistet. Doch seit einigen Jahren blüht entgegen aller Prognosen die mehrfach totgesagte LP in einer Nische. Herr Brandenburg, wann haben Sie zum letzten Mal eine Schallplatte gehört?
Vinyl? Das liegt bestimmt mehr als 25 Jahre zurück. Wir haben am Fraunhofer IIS zu viel in diesem Bereich geforscht, als dass ich noch für vermeintliche Vorzüge empfänglich wäre. Das sind alles psychologische Faktoren, die mit der Klangqualität nichts zu tun haben. Die Schallplatte ist aufgrund der Nebengeräusche für den Menschen erkennbar und das sorgt zusammen mit Haptik, Optik und anderen Faktoren für ein gutes Gefühl. Wer das mag, zieht die Vinyl-Platte vor, ich nicht.

Aber sind nicht gerade psychologische Faktoren für das Hören von Musik sehr wichtig?
Was wir an der Stelle sicher sagen können: Hören beruht ganz wesentlich auf Erwartungen. Dem kann man sich auch nicht bewusst entziehen. Unser Gehirn ist hier ein hervorragender Pattern-Matcher. Das Ohr gleicht ständig mit Erlebtem oder Gehörtem ab. Neben der Erinnerung beeinflussen aber auch Faktoren wie die aktuelle Umgebung oder Eindrücke unsere Wahrnehmung. Also: Wir bewerten die Varianten nach persönlichem Geschmack.

Bleiben wir bei der Wahrnehmung. Sie haben »Tom‘s Diner« vermutlich so oft gehört wie kein Zweiter. Warum war gerade dieser Song von Suzanne Vega so eine große Herausforderung?
Das Format mp3 nutzt wenig psychologische Prozesse, sondern nutzt Wissen über die Mechanik des Ohrs. Auf Seiten des Formats haben wir Signalstatistiken, die zum effizienten Codieren herangezogen werden. Die sogenannte Maskierung ist dann intensiver, wenn Musik sehr breitbandig oder sehr komplex ist. Bei einzelnen Tönen hingegen tritt das nicht so stark auf. Teilweise gleichen sich diese Effekte wieder aus. Bei Sprache analysiert das Gehirn das Gehörte besonders kritisch. Sprache setzt sich aus der Sprachgrundfrequenz und Oberwellen zusammen, die der Algorithmus einzeln codiert. Sprache ist zudem ein sehr breitbandiges Signal. Im Fall von Tom‘s Diner hat der Algorithmus gemeldet, dass er die vierfache der verfügbaren Bitrate benötigt.

Letztlich aber haben Sie und Ihr Team auch dieses Problem gelöst. Aber schauen wir auf die Parallelen der Geschäftsmodelle zwischen Schallplatte und mp3. In beiden Fällen ging der größere Teil der Umsätze auf das Konto der Inhalte und nicht auf das der Technologien. Ist das nicht das klassische Vermarktungsproblem?
Wenn man sich die Rolle der Fraunhofer-Gesellschaft anschaut, dann muss man das klar verneinen. Wir haben vielleicht nicht die Umsätze von Dolby übertroffen, aber dennoch erhebliche Patenteinnahmen erzielt. Ich zitiere da auch gerne einen amerikanischen CTO eines großen Technikkonzerns und Freund, der mir Anfang 2000 erklärte: „You know Karlheinz, you Fraunhofer guys have been the only ones in this area, who understood the business models of the Internet.“ Zuerst hielt ich das für Schmeichelei. Aber im Nachhinein glaube ich doch, dass er nicht ganz unrecht hatte. Nach den damals bestehenden Marktregeln hätten sich Unternehmen durchsetzen müssen, die das 100-fache Marketing-Budget in vergleichbare Technologien investierten.

Millionen Nutzer nutzten dieses Format. Die Anbieter mussten nachziehen?
Diese Weichen wurden schon gestellt, als mp3 noch nicht standardisiert war. In den späten 90er Jahren konkurrierten einige Organisationen um diesen Markt – wie gesagt mit massiven Marketing-Budgets, aber vor allem mit Technologien, die nur wenig schlechter waren als mp3. Sie können mir glauben, dass wir gefeiert haben, als Microsoft und Sony als letzte große Player schließlich doch mp3 angenommen hatten.

Was hat Fraunhofer anders gemacht?
Wir haben den Markt betrachtet, in dem schon Präzedenzen gesetzt waren. RealNetworks, ein Microsoft-Spin-off, hatte für Musikübertragung einen Decoder und einen Encoder, mit dem man Inhalte vorbereiten konnte, kostenfrei im Internet zur Verfügung gestellt. Das klang zunächst ganz fürchterlich. Allerdings konnte man so immerhin auf einem Rechner Musik hören, was zu diesem Zeitpunkt noch nicht sonderlich verbreitet war. Diesem Beispiel folgten wir. Die Decoder, also sozusagen die Abspielgeräte, machten wir für die kommerzielle Nutzung auf PCs (nicht Abspielgeräte wie mp3-Player oder Smartphones) sehr günstig verfügbar. Unser Plan war es, die Encoder sehr teuer zu vermarkten. Allerdings hat uns ein australischer Student die Encoder-Bibliotheken entwendet und – heute würde man dazu »im Darknet« sagen – kostenlos zur Verfügung gestellt. Wir haben schließlich Preise massiv gesenkt und mit Shareware-Anbietern Verträge geschlossen. Mit Thomson war der richtige Industriepartner an unserer Seite. Damals gab es in Deutschland mit ITT Intermetall einen Hersteller, der mit mp3-Decoder-Chips zeitweise einen Weltmarktanteil von über 95 Prozent erreichte. Im Rahmen eines Industrieprojekts haben wir der Firma geholfen und vom Erfolg der mp3-Player durch Lizenzeinnahmen profitiert.
 

Das mp3-Team im Jahr 2007
© Fraunhofer IIS
Die mp3-Mannschaft im Jahr 2007: Gut eingespielte Teams sind laut Prof. Brandenburg extrem wichtig. Ein weiteres Erfolgsrezept sieht Brandenburg in der Tatsache, dass bei Fraunhofer Teams relativ lange stabil sind. So ist das Fraunhofer-Institut für Integrierte Schaltungen IIS bei neueren Audiocodierungsstandards mit über 200 Entwicklern in diesem Bereich in einer Spitzenposition. Ein weiteres Beispiel dafür ist das Fraunhofer Heinrich-Herz-Institut HHI in Berlin.

Natürlich ist mp3 eine Erfolgsgeschichte, aber unterhält man sich mit Menschen, die sich bei Start-ups und neuen Technologien engagieren, hört man häufig, dass gerade in Deutschland keine idealen Rahmenbedingungen für Gründerinnen und Gründer vorherrschen.
Als ich damals aus den USA zurückkehrte, überlegte ich zum ersten Mal, mich selbständig zu machen. Damals hätte eine Unternehmensgründung bedeutet: bei Verwandten Geld leihen und das Eigenheim verpfänden. Beides hatte ich damals nicht zur Verfügung. Ich glaube, diese Rahmenbedingungen haben sich heute massiv verbessert. Als Gründer kann man heute bei unterschiedlichen Organisationen wie zum Beispiel Fraunhofer Venture, Banken, über Partnerschaften oder Business Angels Unterstützung erhalten. Sieht man sich aber an, wie viel Wagniskapital pro Unternehmen zur Verfügung steht, ist dieser Wert in den USA nach wie vor um den Faktor 10 höher. Das hat sich auch in den vergangenen Jahren nicht gebessert.
Wir haben auch ein kulturelles Problem: In Deutschland muss man von vornherein erfolgreich sein. In den USA sagt man, wenn man dreimal eine Firma in den Sand gesetzt hat, weiß man wie es geht. Dementsprechend risikoscheu sind natürlich auch die Unternehmer hierzulande.

Sie engagieren sich mit Brandenburg Ventures selbst bei Start-ups und investieren in die Entwicklung einer neuen Technologie. Wollen Sie uns noch etwas über ihr jüngstes Projekt, »PARty« verraten?
Es ist ein alter Traum von mir: die perfekte Audio-Illusion. Das Fraunhofer IDMT hat mit »SpatialSound Waves« ein System zur dreidimensionalen, realistischen Beschallung mittels Lautsprechern entwickelt. Die noch schwierigere Aufgabe ist es jetzt, diese natürliche Klangillusion wissenschaftlich zu beschreiben. Bislang gab es Belege dafür nur in Form von sogenannter »anecdotal evidence«. Das bedeutet, Personen beschreiben eine subjektive Empfindung. Unsere Forschungsergebnisse entsprachen nicht immer etablierten Lehrmeinungen, wurden aber inzwischen größtenteils wissenschaftlich nachvollzogen.
PARty steht für »Personalized Auditory Reality«. Dieser Name stammt von einem unserer Mitarbeitenden und hat mich sofort überzeugt. Unsere Vision bei PARty ist es, Kopfhörer zu entwickeln, die intelligent die Geräusche der Umgebung aufnehmen: Das System weiß, wo man sich befindet und was um eine Person herum stattfindet. Man hört nicht einfach einen Ton am Ohr, sondern der Ton erklingt realistisch von der richtigen Stelle im Raum. Das System bezieht die akustischen Signale auf die Umgebung, sodass es sich möglichst natürlich anhört. Man kann es sich wie eine Brille vorstellen, von der der Träger vergisst, dass er sie auf der Nase hat. Und dieses Erlebnis kann auch modifiziert werden.

Können Sie uns ein Beispiel geben?  
Stellen Sie sich den Innenraum einer Kirche vor, in dem ein Chor zu hören ist. Über das System würden Sie diesen Chor ganz natürlich im Raum wahrnehmen. Oder man möchte sich auf einer Konferenz mit einer Person unterhalten, die weiter entfernt steht. Aufgrund der Umgebungsgeräusche ist das schwierig. Das System könnte selektiv die Personen, mit denen ich mich unterhalten möchte, verstärken und die Hintergrundgeräusche abschwächen.
Auf einer Feier läuft Musik. Mit dem System wären Sie in der Lage, die Musik zu verstärken und die anderen Hintergrundgeräusche abzuschwächen. Wenn bei einem Vortrag von außen Baustellenlärm hereindringt, schwächt das System diesen isoliert ab. Im Straßenverkehr würden diesen Kopfhörer die Umgebungsgeräusche ausblenden, Warnsignale aber weiterleiten – um nur einige Anwendungsmöglichkeiten zu nennen. 

Gibt es schon erste Prototypen? Funktionieren diese von Ihnen angesprochenen Beispiele bereits in der Praxis?
Davon sind wir noch weit entfernt. Wir können aber inzwischen unter Laborbedingungen diese auditorischen Illusionen demonstrieren, wie etwa vor kurzem bei einer Präsentation anlässlich einer Konferenz in Ilmenau, wo wir viele Menschen überzeugen konnten. Das ist ein großer Schritt, denn bisherige Systeme hatten mit der Einschränkung zu kämpfen, dass es nur bei bestimmten Personen oder Tonsignalen funktionierte. Und nochmal zum Hören und den Erwartungen: Man läuft hier schnell Gefahr, dass man sich Höreffekte antrainiert. Eine Person kann einen Effekt nachvollziehen und eine andere hört keinen Unterschied zu einem »normalen« Signal. Dann liegt das womöglich an einer antrainierten Hörleistung. Unser System soll aber natürlich die gewünschten Effekte ohne vorheriges Training ermöglichen.

Welche sind die größten Herausforderungen?
Da gibt es einige: Das System muss die gesamte Umgebung und die Tonquellen akustisch analysieren. Künstliche Intelligenz gleicht Muster von bekannten oder unbekannten Quellen ab. Die Tonquellen müssen zudem trennbar sein. Daran wird seit mehreren Jahrzehnten geforscht. Für unsere Zwecke ist die Forschung aber noch nicht weit genug. Weitere Voraussetzung ist ein internes Format, das in der Lage ist, die Akustik des Raums mit aufzunehmen. Dieses Format muss diese auch rendern und wiedergeben können. Im Augenblick nehmen wir Impulsantworten mit einem sich im Raum drehendem Kunstkopf auf. Aus diesen Daten interpolieren wir für verschiedene Stellen im Raum Werte. Dieser Laboraufbau ist natürlich nicht praxisgerecht und wir suchen seit etwa drei Jahren nach Alternativen. Wir haben bei Brandenburg Labs Ergebnisse der Gruppe an der Uni übernommen und arbeiten auch mit dem Fraunhofer IDMT zusammen. In einigen Wochen wollen wir so weit sein, zum ersten Mal einen Aufbau auf eine Messe mitnehmen zu können. Das ist schon mal eine Grundvoraussetzung, dass wir die Dinge größer angehen können.

Was bedeutet größer angehen?
Die Akquisition von Forschungsgeldern durch die Gruppe an der TU Ilmenau ging mir viel zu langsam. Da habe ich mir gesagt: »Ich will es nochmal wissen!« und die Brandenburg Labs gegründet. Hier investiere ich einen Teil der Einnahmen aus den mp3-Lizenzen, die bei mir persönlich angekommen sind. Die Idee, dass eine Technologie wie PARty realisierbar ist, hatten inzwischen schon Andere. Daher brauchen wir mindestens ein Team von 20 Leuten, um gegen größere Organisationen realistische Chancen zu haben.  

Wie wollen Sie diese Technologie auf den Markt bringen?

Eine der Lehren aus der mp3-Geschichte ist, sich zunächst auf Low Hanging Fruits zu konzentrieren, dabei aber das große Ziel nicht aus dem Auge zu verlieren. So haben wir uns damals auf Profi-Systeme fokussiert, nachdem sämtliche Consumer-Elektronik-Anbieter unsere Technologie abgelehnt hatten. Nach einem vergleichbaren Muster könnte auch die Markteinführung von PARty funktionieren.

Jetzt sind wir wieder bei mp3 gelandet. Sie haben ja eingangs erwähnt, dass Sie eigentlich ein sehr kleines Team waren. Für Ihr aktuelles Vorhaben wollen Sie ebenfalls mit deutlich größeren, teilweise internationalen Organisationen konkurrieren. Was ist anders an Fraunhofer?
Bei der Entwicklung von mp3 war von Anfang an wichtig, dass wir ein Team waren. Ich habe als Einzelkämpfer angefangen. Schnell kamen zunächst Studierende hinzu. Mithilfe öffentlicher Förderungen konnte Prof. Gerhäuser ein Team aufbauen mit weiteren wissenschaftlichen Mitarbeiterinnen und Mitarbeitern, in dem wir gut zusammengespielt haben. Das ist äußerst wichtig. Aus meiner Erfahrung weiß ich, dass solche Teams nicht so einfach zu finden sind. In meiner Zeit als Postdoc bei den AT&T Bell Labs in den USA hatte man mir erklärt, dass man als Postdoc außerhalb der Hackordnung stehe. Alle anderen versuchten dagegen möglichst viel auf sich selbst zu projizieren, um bei der nächsten Gehaltsbesprechung bessere Karten zu haben. Diese Haltung widerspricht natürlich dem Gedanken »Wir bauen zusammen etwas«.
Das große Verdienst von Prof. Gerhäuser war es, unter anderem mit Ernst Eberlein, Bernhard Grill, Jürgen Herre und Harald Popp und weiteren ein echtes Team zusammenzustellen, in dem er auch selbst mit großem Aufwand mitarbeitete. So konnten wir nicht nur kritische Phasen sehr gut meistern, sondern haben alles getan, um mp3 auf den Markt zu bringen. Bei Fraunhofer sind zudem Teams relativ lange stabil. Das Fraunhofer-Institut für Integrierte Schaltungen IIS ist immer noch bei allen neueren Audiocodierungsstandards, angefangen mit MPEG Advanced Audio Coding AAC, in einer Spitzenposition. Auch das Fraunhofer Heinrich-Herz-Institut HHI in Berlin ist dafür ein Beispiel: Der Codec H.264 war der große Erfolg. Aber auch heute noch ist das Fraunhofer HHI eine der führenden Organisationen in diesem Bereich.
Solche Konstellationen hätten wir anderswo so schnell nicht gefunden. Natürlich gab es auch damals kommerzielle Labore, die sich mit ähnlichen Themen beschäftigten, doch im Vergleich zu anderen Einrichtungen profitiert bei Fraunhofer eine erfolgreiche Abteilung, etwa in Form neuer Stellen. Ich will nicht sagen, dass es so etwas überhaupt nicht mehr gibt, aber es ist wirklich sehr selten zu finden.

Pflegen Sie noch regelmäßig Kontakte zu Weggefährten?
Persönliche Treffen sind natürlich in Zeiten von Corona selten geworden. Aber unter normalen Umständen gibt es immer wieder Gelegenheiten. In letzter Zeit bin ich wieder in der Standardisierung aktiv. Auch da treffe ich auf manche alten Freunde und Kollegen. Ich habe an vielen Stellen erlebt, wie stark Alumni-Netzwerke sein können, was das für ein Vertrauen herstellt, wenn man beispielsweise die gleiche Universität besucht hat. Dieser Vorteil ist bei Fraunhofer spät erkannt worden, aber an dieser Stelle entwickelt sich in der jüngsten Vergangenheit einiges. Am Fraunhofer IDMT wollen wir natürlich auch den Kontakt zu unseren Ehemaligen aufrechterhalten und laden diese unter anderem regelmäßig zu Veranstaltungen ein.

Wir danken Ihnen für dieses Gespräch, Herr Brandenburg.