مقاله Persian Text-Image Retrieval: A Framework Based on Image Captioning and Scalable Vector Search

846 بازدید

این پژوهش اولین چارچوب جامع برای بازیابی متن–تصویر در زبان فارسی (PTIR) را معرفی می‌کند؛ حوزه‌ای که تا پیش از این به دلیل کمبود داده و مدل‌های اختصاصی برای فارسی، پیشرفت اندکی داشته است. چارچوب پیشنهادی شامل سه نوآوری کلیدی است:

  1. ایجاد دیتاست بزرگ‌مقیاس:
    مجموعه‌ای متشکل از ۱.۲ میلیون جفت تصویر–توضیح فارسی از منابع متنوع گردآوری و با ترجمه ماشینی و ویرایش انسانی بهینه‌سازی شد. این دیتاست با دقت بالا ویژگی‌های تصویری مانند تعداد اشیاء، رنگ‌ها، حالات، موقعیت مکانی و حتی بافت محیطی را توصیف می‌کند.

  2. مدل‌سازی تصویرنویسی فارسی (Image Captioning):
    مدلی مبتنی بر معماری ویژن–انکودر و دیکودر متنی فارسی (GPT2-fa) توسعه یافت. این مدل قادر است توضیح‌های دقیق و متنی غنی از تصاویر تولید کند که زیربنای بازیابی دقیق متن–تصویر محسوب می‌شود.

  3. زیرساخت مقیاس‌پذیر برای بازیابی:
    با استفاده از مدل‌های تعبیه جمله چندزبانه و پایگاه داده برداری Milvus، یک سیستم سریع و مقیاس‌پذیر ایجاد شد که امکان جستجوی شباهت میان پرسش‌های متنی فارسی و تصاویر را با تأخیر بسیار کم فراهم می‌کند.

نتایج ارزیابی:

  • بر روی دیتاست COCO با توضیحات فارسی، مدل پیشنهادی نسبت به سیستم‌های موجود تا ۴۰٪ بهبود در معیارهای استاندارد تصویرنویسی و ۹٪ افزایش در Hit@K نسبت به CLIP نشان داد.

  • کیفیت تولید توضیح‌ها (ROUGE، BLEU، CIDEr) به‌طور محسوسی بالاتر از مدل‌های فارسی موجود مثل Hezarai و Hamtech بود.

  • چارچوب PTIR با طراحی ماژولار خود قابلیت سازگاری با دامنه‌های تخصصی مثل پزشکی یا میراث فرهنگی را دارد.

این کار نه‌تنها نقطه عطفی در توسعه ابزارهای هوش مصنوعی فارسی محسوب می‌شود، بلکه الگویی برای سایر زبان‌های کم‌منبع نیز ارائه می‌دهد.

آیا این مطلب را می پسندید؟
https://tehrandata.org/?p=15724
اشتراک گذاری:

باکس دانلود

گزارش خرابی لینک ها