- Multimedia Modeling 2025

MMM2025 Organization

Page content

Demonstrations: Day 2 & 3 (9 and 10 January 13:30 – 15:00)

paperID	authors	title
466	Jheng, Duen-Chian ; Harchan, Bill Louis ; Kostka de Sztemberg, Berenika Nawoja ; Hsu, Jen-Hao ; Hu, Min-Chun	Badminton Footwork Practice via an Immersive Virtual Reality System
468	Wattasseril, Jobin Idiculla; Döllner, Jürgen	SelectSum: Topic-Based Selective Summarization of Speech-Based Videos
469	Hamanaka, Masatoshi	Real-time Visualizer for Turntablist Performance
470	Gan, Wenbin; Dao, Minh-Son; Zettsu, Koji	DriveCoach: Smart Driving Assistance with Multimodal Risk Prediction and Risk Adaptive Behavior Recommendation
472	Fernandez Roblero, Jaime Boanerjes ; Ali, Muhammad Intizar	System Demo of Modeling Smart University Campus Virtual Environments
473	Mohamed Serouis, Ibrahim; Sèdes, Florence	AMDA: Advancing Multimedia Data Annotation for human-centric situations
475	HUNG-YAO, PENG; ZI-HENG, ZHONG; CHENG-CHIH, TSAI; CHING-YEH, CHIANG; TSE-YU, PAN	FencBuddy: Action-aware Depth Perception Training for Fencing Attacks
477	Izumi, Kota; Yanai, Keiji	WaveFontStyler: Font Style Transfer Based on Sound
479	Korb, Martin; Bailer, Werner	Training a Segmentation-based Visual Anonymization Service for Street Scenes
480	Kawanishi, Yasutomo; Nakamura, Yutaka; Shintani, Taiken; Ishi, Carlos T.; Kawano, Seiya; Yoshino, Koichiro; Minato, Takashi; Minoh, Michihiko	RoboDJ: Live Commentary Robots System Driven by Physical- and Cyber-world Observations
481	Chiang, Yung-Chu ; Tang, Zi-Xian ; Luo, Yi-Ching ; Chang, Jason S.	CleverFox: Integrating Visual Mnemonics with AI for Enhanced Language Learning
482	Iino, Nami ; Iino, Akinaru	Fingering Prediction for Classical Guitar: Dataset Creation and Model Development
483	Kitahara, Tetsuro ; Tsutsumi, Takuya ; Nagoshi, Takaaki ; Suzuki, Taizan	An Implementation of Networked JamSketch
485	Garcia Contreras, Angel Fernando ; Chang, Wen-Yu ; Kawano, Seiya ; Chen, Yun-Nung ; Yoshino, Koichiro	Using Language Models to Generate and Forget the Narrative Memories of an Assistive Robot
486	Borgli, Hanna ; Stensland, Håkon Kvale ; Halvorsen, Pål	Better Image Segmentation with Classification: Guiding Zero-Shot Models Using Class Activation Maps
487	Li, Bohan ; Li, Xingyi ; Liang, Yangwen ; Wang, Shuangquan ; Song, Kee-Bong	Leveraging Latent Diffusion in 3D Gaussian Splatting for Novel View Synthesis
488	Limberg, Christian ; Zhang, Zhe ; Kastner, Marc A.	Transformer-Based Audio Generation Conditioned by 2D Latent Maps: A Demonstration
489	YUAN, HONGHUI; YANAI, KEIJI	KuzushijiFontDiff: Diffusion Model for Japanese Kuzushiji Font Generation
490	YUAN, HONGHUI; YANAI, KEIJI	SceneTextStyler: Editing Text with Style Transformation
492	Lynch, Kelley ; Rim, Kyeongmin ; King, Owen ; Pustejovsky, James	Multimodal Interoperability with the CLAMS Platform
493	Kontostathis, Ioannis; Apostolidis, Evlampios; Apostolidis, Konstantinos; Mezaris, Vasileios	Enhancing User Control in AI-Based Video Summarization for Social Media
494	Khan, Omar Shahbaz ; Duane, Aaron ; Hasnan, Hariz ; Blavec, Noé Le ; Ouvrard, Pierre ; Verdon, Johan ; d’Orazio, Laurent ; Thierry, Constance ; Jónsson, Björn Þór	Multi-Dimensional Exploration of Media Collection Metadata
496	Huang, Wei-Lun ; Hidayati, Shintami Chusnul ; Pan, Tse-Yu	Movie Retrieval Systems Using Genre-guided Multimodal Learning Techniques
497	Kongmeesub, Onanong; Gurrin, Cathal; Nie, Dongyun	A User Identification and Reading Style Detection System Based on Eye Movement Patterns During Reading
484	Le, Duy-Dong ; Huynh, Duy-Thanh ; Bao, Pham The	Federated Learning with Multimodal-Sensing and Knowledge Distillation: An application on real-world benchmark dataset
499	Vu, Dang ; Dang, Tien ; Nguyen, Quoc-Trung ; Pham, Tan	Efficient Deployment of Multimodal AI Models: Leveraging Pruning, Quantization and Multi-Objective Optimization for Edge Computing

Demonstrations: Day 2 & 3 (9 and 10 January 13:30 – 15:00)

Important Dates

Sponsors

Subsidies

Supporters