FROM VIDEO TO RECIPE: LEVERAGING VISION LANGUAGE MODELS FOR CULINARY ANALYSIS

4th INTERNATIONAL CONGRESS on FOOD RESEARCHES, Sivas, Türkiye, 16 - 18 Ekim 2025, ss.90-91, (Özet Bildiri)

Yayın Türü: Bildiri / Özet Bildiri
Basıldığı Şehir: Sivas
Basıldığı Ülke: Türkiye
Sayfa Sayıları: ss.90-91
Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu
Marmara Üniversitesi Adresli: Evet

Görsel dil modelleri (VLM’ler), pek çok alanda dönüşümü tetiklediği gibi gıda araştırmaları ve gıda biliminde de her geçen gün kendine daha fazla kullanım alanı bulmaktadır. Her ne kadar VLM’lerin doğal dil işleme yetenekleri oldukça güçlü olsa da özellikle video yorumlamada dil/kültür önyargısı ve yanlış bilgi üretme riski devam etmektedir. Bu çalışmada, Türkçe dil desteğine sahip açık ağırlıklı büyük VLM’ler kullanılarak kültüre özgü yemek videolarından tarif çıkarımı görevindeki performansı incelenmiştir. Çalışma kapsamında yürütülen deneylerde, sosyal medyada yer alan 1 dakikanın altındaki videolardan yararlanılarak tarif üretme, malzeme listesinin çıkarımı ve pişme süresinin tahmin edilme kabiliyetleri değerlendirilmiştir. Elde edilen bulgular, VLM’lerin yemek adı sınıflandırmasını çok doğru bir şekilde yaptığı, malzemelerin bir bölümünü de doğru biçimde yakalayabildiğini; ancak tarifin bütün adımlarını kapsayan eksiksiz ve güvenilir bir tarif üretmede hâlâ geliştirilmesi gerektiğini göstermektedir. Özellikle kısa süreli videolarda hazırlık ve pişirme sürecindeki ayrıntılar ya yanlış ya da atlanabilmekte, miktar tahminleri ise yanlış veya belirsiz kalmaktadır. Buna rağmen, Türkçe dil desteği olan açık ağırlıklı VLM’ler gastronomide tarif çıkarımı, beslenme analizi ve video içeriklerinin otomatik işlenmesi için önemli bir başlangıç noktası sunmaktadır. Gelecek çalışmalarda, VLM’lerde bulunan “düşünme” kipinin etkinleştirilmesi ve alma ile artırılmış üretim (RAG) yaklaşımlarının entegrasyonu ile daha doğru, ayrıntılı ve kültürel bağlama uygun tarif ve beslenme analizlerinin yapılabileceği değerlendirilmektedir.

Visual language models (VLMs) are increasingly driving transformation across multiple domains, including food research and food science, where their applications are steadily expanding. Despite their strong natural language processing capabilities, these models still face persistent challenges, particularly in video interpretation, where cultural and linguistic bias and the risk of misinformation remain significant. This study investigates the performance of open-weight large VLMs with Turkish language support in extracting recipes from culturally specific cooking videos. Experiments were conducted using social media videos under one minute in length to evaluate the models’ ability to generate recipes, extract ingredient lists, and estimate cooking times. The findings reveal that while VLMs can accurately classify dish names and correctly identify part of the ingredient list, they still fall short in producing complete and reliable step-by-step recipes. In particular, short videos often lead to misinterpreted or omitted details of preparation and cooking processes, and quantity estimations tend to be inaccurate or ambiguous. Nevertheless, open-weight VLMs with Turkish support provide an important starting point for recipe extraction, nutritional analysis, and the automated processing of culinary video content. Future work may benefit from activating the “reasoning” mode of VLMs and integrating retrieval-augmented generation (RAG) approaches to enable more precise, detailed, and culturally grounded recipe and nutrition analysis.