Multimodale Large Language Models en computervisie voor open ontdekking in educatieve augmented reality
Augmented reality wordt steeds vaker ingezet om gebruikers te ondersteunen bij het uitvoeren van complexe fysieke taken, maar traditionele systemen zijn vaak beperkt tot statische instructies of vooraf gedefinieerde scenario's. Deze masterproef ontwikkelt een nieuw type AR-assistent dat multimodale artificiële intelligentie combineert met realtime objectlocalisatie om dynamisch, stap-per-stap begeleiding te bieden via een smartphone.
Het systeem maakt gebruik van GPT-4o om gebruikershandelingen te analyseren op basis van camerabeelden en taakspecifieke prompts. De AI beoordeelt of een stap correct is uitgevoerd, geeft gerichte feedback en vertaalt natuurlijke objectnamen naar klassen die het detectiemodel begrijpt. Parallel hieraan detecteert een getraind YOLOv8-model de relevante objecten in beeld. Deze 2D-coördinaten worden vervolgens via ARKit-LiDAR naar 3D omgezet, waardoor het mogelijk wordt om pijlen en aanwijzingen exact in de echte ruimte te projecteren.
De functionaliteit werd getest met zeventien deelnemers, waaronder twee domeinexperten, die twee uiteenlopende scenario's uitvoerden: de opstart van een VR-loopband en de voorbereiding van een gastroscopietrainer. Uit systeemlogs, observaties, vragenlijsten en interviews bleek dat alle deelnemers de taken volledig konden uitvoeren met minimale externe hulp. Ze waardeerden vooral de realtime bevestigingen, foutdetectie en visuele AR-aanwijzingen, die onzekerheid verminderden en een sterk gevoel van voortgang gaven.
Hoewel sommige beperkingen naar voren kwamen, zoals occasionele misdetecties of interpretatieproblemen bij vage instructies, tonen de resultaten aan dat het combineren van MLLM-redenering en vision-gebaseerde objectlocalisatie veel potentieel heeft voor toegankelijke AR-taakondersteuning op consumententoestellen.
Deze masterproef werd opgenomen in de shortlist van de Eos-prijs voor exact-wetenschappelijke scripties.