Projektbeschreibung
IMA-XR konzentriert sich auf Forschung und Entwicklung im Bereich multimodaler generativer künstlicher Intelligenz (KI)-Methoden für interaktive KI-Agent:innen in virtuellen (VR) und erweiterten Realitäten (XR). Während viele aktuelle Agentensysteme rein textbasiert sind und die Erstellung von 3D-Agent:innen für XR manuelle Arbeit und Expertenwissen in Animation und Scripting erfordert, zielt IMA-XR darauf ab, die Erstellung von KI-Agent:innen durch multimodale generative KI-Methoden zu erleichtern, ohne umfangreiche Expertise, manuelle Arbeit oder sehr hohe Rechenressourcen erforderlich zu machen. Langfristig könnte dies für Entwickler:innen und Content Creators für XR- und Robotikanwendungen, Bildungseinrichtungen und Trainingsanbieter, besonders in Bereichen, die Bewegungsvorführungen für Schulungszwecke beinhalten, sowie Rehabilitations- und Sporttrainer:innen für motorisches Lernen interessant sein.
Wir bauen auf bestehender Arbeit im Bereich kontextbezogenes Verständnis und Beschreibung von Bewegung (aufgezeichnete reale Bewegung) und Bewegungserzeugung auf, wobei der Kontext derzeit durch Sprache und räumliche Bedingungen vorgegeben wird. Der Fokus liegt auf der Erforschung interaktiver und ressourcenschonender Ansätze, um die Benutzerfreundlichkeit und Anpassungsfähigkeit an verschiedene Anwendungsszenarien zu verbessern. Diese Forschung zielt darauf ab, anpassbare Ansätze zu entwickeln, die die Lücke zwischen dialogbasierten (sprachgestützten) Agent:innen und der räumlichen (dreidimensionalen, bewegungsgestützten) Interaktion, die für immersive XR-Erfahrungen inklusiver digitaler Charaktere entscheidend ist, schließen. Während wir in diesem Projekt virtuelle Agent:innen in Betracht ziehen, stellt diese Forschung auch einen Vorabbereich für intuitive reale Interaktionen mit verkörperten Agent:innen (wie Robotern) dar.
Forschungsfragen:
Wie können semantisch codierte Bewegung und Sprache kombiniert werden, um natürliche, kontinuierliche Dialoge mit einem KI-Agenten in interaktiven XR-Umgebungen zu ermöglichen, während eine niedrige Latenzzeit und nutzerzentrierte Anpassung beibehalten werden?
Wie kann die räumliche/umweltbezogene Codierung und Vokabularerweiterung entwickelt werden, um kontextbewusste Bewegung-Sprache-Interaktionen über diverse XR-Anwendungsfälle hinweg zu verbessern, eventuell durch Nutzung multimodaler Eingaben (z. B. Blick, Audio)?
Wie können aktuelle multimodale Agentensysteme für kontextspezifisches Bewegungsverstehen, -beschreibung und -generierung mit minimalen Rechenressourcen angepasst werden, während ein Gleichgewicht zwischen technischer Effizienz und Anforderungen an die Nutzererfahrung (z. B. Natürlichkeit der Bewegung, Komfort) gewahrt wird?
10/2025 – 09/2027