Nahezu alle Universitäten und Fachhochschulen bieten ihre Vorlesungen und Kurse auch online an. Die Studierenden können jederzeit und von überall her auf die Lerninhalte zugreifen, und die Zahl der Teilnehmenden ist nicht auf die Größe des Hörsaals begrenzt. Bisher war das Angebot jedoch auf das passive Konsumieren von Video-Aufzeichnungen beschränkt.
Jetzt hat das Fraunhofer-Institut für Nachrichtentechnik, Heinrich-Hertz-Institut, HHI in Berlin eine Lösung entwickelt, die es ermöglicht, Online-Vorlesungen oder -Kurse für die Teilnehmenden interaktiv und individuell zu gestalten. Die Professorin oder der Professor erscheinen in fotorealistischer Qualität als sich bewegender und sprechender Avatar, der seinen Vortrag persönlich an die einzelnen Teilnehmenden richtet und sogar auf Fragen reagiert. »Die Online-Vorlesungen der Universitäten werden sowohl in der visuellen und der akustischen als auch in der didaktischen Qualität auf ein neues Level gehoben«, sagt Dr. Cornelius Hellge, Head of Multimedia Communications Group und Leiter des Projekts.
Foto- und audiorealistischer Avatar
Um den Avatar zu generieren, stellt sich der oder die Vortragende im ersten Schritt in eine Rotunde. Diese ist mit Stereomikrofonen und insgesamt 32 Videokameras ausgestattet. Nun kann die Dozentin oder der Dozent den Vortrag halten, sich dabei frei bewegen und gestikulieren. Aus den Videoaufnahmen des Vortrags wird ein animierter 3D-Avatar in fotorealistischer Qualität erzeugt. Auch charakteristische Bewegungen fließen mit ein. Da auch das Volumen des Körpers der jeweiligen Person miteinbezogen wird, spricht man von volumetrischen Videos, daher auch der Name des Projekts: VoluProf (volumetrischer Professor).
Der Dozierende stellt dann das Vorlesungsskript als Text bereit. Dieser dient zum einen als Grundlage für die Audiosynthese, bei der der Text mit der Stimme des Dozenten wiedergegeben wird. Zum anderen dient das Vorlesungsskript als Basis für die Animation des 3D-Avatars, sowohl für die zum Text passende Mimik als auch für die geeigneten Körperbewegungen. Das gilt ebenso für die Stimme, die synchron zu den Lippenbewegungen ertönt.
Um an den virtuellen Kursen teilzunehmen, benötigen die Studierenden lediglich ein Smartphone und eine AR-Brille (Augmented Reality). Mit Hilfe der Brille wird der animierte 3D-Avatar direkt in die reale Umgebung eingeblendet. Für den Teilnehmenden sieht es so aus, als stünde der Vortragende vor ihm im Raum. Zudem kann über die Brille die Position des Teilnehmenden im Raum und seine Blickrichtung aufgefangen werden. Diese Daten wandern via Smartphone zum Server des Anbieters, wo das Bild des Avatars laufend so gerendert wird, dass dieser sich jederzeit dem Kursteilnehmer zuwendet und direkt zu ihm zu sprechen scheint. Die Bewegungen des Avatars und die Reaktion auf den Input der Teilnehmenden erfolgen dabei nahezu in Echtzeit, die Latenz liegt bei maximal 40 Millisekunden. »Man erhält den Eindruck, die Professorin oder der Professor würde den Vortrag ganz persönlich für den jeweiligen Studierenden halten«, erklärt Hellge.
Interaktion durch Fragen und Dialog
Im Gegensatz zur klassischen, passiven Online-Vorlesung ist bei VoluProf jederzeit Interaktion mit dem Vortragenden möglich. Als Studierender könnte man beispielsweise fragen: »Würden Sie das bitte wiederholen?« oder »Das habe ich nicht verstanden.« Solche Fragen sind als Kommando im neuronalen Netz hinterlegt und lösen dann eine Wiederholung oder ausführlichere Erklärung des Avatars aus.
Die Teilnehmerin oder der Teilnehmer kann aber auch individuelle Fragen stellen. Da alle denkbaren Fragen bereits vorab im Vortragstext hinterlegt werden können, reagiert der virtuelle Professor auf die jeweilige Frage. Dafür wandelt die Spracherkennung des Systems die gesprochene Frage in Text um. Ein KI-basierter Chatbot verknüpft dann den Fragetext mit dem passenden Antwort-Text, der von der virtuellen Professorin oder dem Professor vorgetragen wird – inklusive Gestik, Mimik und synchroner Lippenbewegungen.
Die technisch anspruchsvolle Lösung stellt trotzdem nur geringe Anforderungen an die Geräte des Endanwenders. Da rechenintensive Tasks wie Animation und Rendering, Audiosynthese oder Spracherkennung auf dem Server des Anbieters stattfinden, benötigen die Teilnehmenden lediglich ein handelsübliches Smartphone, das mindestens 4G unterstützt, und eine leichte AR-Brille. »Wir haben das Konzept bewusst so ausgelegt, dass die Einstiegshürde für Studierende möglichst niedrig liegt«, erklärt Hellge.
Expertise in Grafik, Audio- und Videocodecs
Für VoluProf hat das Fraunhofer HHI seine langjährige Expertise in den Bereichen Computer Vision, Video und Machine Learning genutzt. Ein Team konzipierte die fotorealistische Darstellung von Personen als Avatar durch volumetrische Videodaten. Ein anderes Team kümmerte sich um die effiziente Übertragung der Videodaten. Die Forscherinnen und Forscher entwickelten hierfür eigens ein Übertragungsverfahren, das eine niedrige Latenz garantiert, sich dabei an unterschiedliche Netzwerkbedingungen anpasst und auch bei schlechter Verbindung fließende Bewegungen bei reduzierter Auflösung ermöglicht. Hellge betont den innovativen Ansatz des Gesamtprojekts, in das diese Technologien einfließen: »Fotorealistische Avatare kennt man ja aus dem Kino. Das Neue und Einzigartige an VoluProf ist aber, dass die fotorealistischen Avatare über eine Online-Verbindung in Echtzeit mit den Menschen interagieren und Fragen beantworten.«
Fraunhofer-Forscher Hellge hat das Projekt initiiert, geeignete Technologiepartner an Bord genommen und treibt die Weiterentwicklung als Projektleiter voran. Erste Versuche an der Universität Rostock haben bereits stattgefunden. »Die Reaktionen waren sehr positiv, und das Interesse an der konkreten Realisierung ist groß«, freut sich Hellge.