این پژوهش اولین چارچوب جامع برای بازیابی متن–تصویر در زبان فارسی (PTIR) را معرفی میکند؛ حوزهای که تا پیش از این به دلیل کمبود داده و مدلهای اختصاصی برای فارسی، پیشرفت اندکی داشته است. چارچوب پیشنهادی شامل سه نوآوری کلیدی است:
-
ایجاد دیتاست بزرگمقیاس:
مجموعهای متشکل از ۱.۲ میلیون جفت تصویر–توضیح فارسی از منابع متنوع گردآوری و با ترجمه ماشینی و ویرایش انسانی بهینهسازی شد. این دیتاست با دقت بالا ویژگیهای تصویری مانند تعداد اشیاء، رنگها، حالات، موقعیت مکانی و حتی بافت محیطی را توصیف میکند. -
مدلسازی تصویرنویسی فارسی (Image Captioning):
مدلی مبتنی بر معماری ویژن–انکودر و دیکودر متنی فارسی (GPT2-fa) توسعه یافت. این مدل قادر است توضیحهای دقیق و متنی غنی از تصاویر تولید کند که زیربنای بازیابی دقیق متن–تصویر محسوب میشود. -
زیرساخت مقیاسپذیر برای بازیابی:
با استفاده از مدلهای تعبیه جمله چندزبانه و پایگاه داده برداری Milvus، یک سیستم سریع و مقیاسپذیر ایجاد شد که امکان جستجوی شباهت میان پرسشهای متنی فارسی و تصاویر را با تأخیر بسیار کم فراهم میکند.
نتایج ارزیابی:
-
بر روی دیتاست COCO با توضیحات فارسی، مدل پیشنهادی نسبت به سیستمهای موجود تا ۴۰٪ بهبود در معیارهای استاندارد تصویرنویسی و ۹٪ افزایش در Hit@K نسبت به CLIP نشان داد.
-
کیفیت تولید توضیحها (ROUGE، BLEU، CIDEr) بهطور محسوسی بالاتر از مدلهای فارسی موجود مثل Hezarai و Hamtech بود.
-
چارچوب PTIR با طراحی ماژولار خود قابلیت سازگاری با دامنههای تخصصی مثل پزشکی یا میراث فرهنگی را دارد.
این کار نهتنها نقطه عطفی در توسعه ابزارهای هوش مصنوعی فارسی محسوب میشود، بلکه الگویی برای سایر زبانهای کممنبع نیز ارائه میدهد.