مقاله Persian Text-Image Retrieval: A Framework Based on Image Captioning and Scalable Vector Search

1356 بازدید

دسته بندی: مقالات اساتید زمان مطالعه: 2 دقیقه

این پژوهش اولین چارچوب جامع برای بازیابی متن–تصویر در زبان فارسی (PTIR) را معرفی می‌کند؛ حوزه‌ای که تا پیش از این به دلیل کمبود داده و مدل‌های اختصاصی برای فارسی، پیشرفت اندکی داشته است. چارچوب پیشنهادی شامل سه نوآوری کلیدی است:

ایجاد دیتاست بزرگ‌مقیاس:
مجموعه‌ای متشکل از ۱.۲ میلیون جفت تصویر–توضیح فارسی از منابع متنوع گردآوری و با ترجمه ماشینی و ویرایش انسانی بهینه‌سازی شد. این دیتاست با دقت بالا ویژگی‌های تصویری مانند تعداد اشیاء، رنگ‌ها، حالات، موقعیت مکانی و حتی بافت محیطی را توصیف می‌کند.
مدل‌سازی تصویرنویسی فارسی (Image Captioning):
مدلی مبتنی بر معماری ویژن–انکودر و دیکودر متنی فارسی (GPT2-fa) توسعه یافت. این مدل قادر است توضیح‌های دقیق و متنی غنی از تصاویر تولید کند که زیربنای بازیابی دقیق متن–تصویر محسوب می‌شود.
زیرساخت مقیاس‌پذیر برای بازیابی:
با استفاده از مدل‌های تعبیه جمله چندزبانه و پایگاه داده برداری Milvus، یک سیستم سریع و مقیاس‌پذیر ایجاد شد که امکان جستجوی شباهت میان پرسش‌های متنی فارسی و تصاویر را با تأخیر بسیار کم فراهم می‌کند.

نتایج ارزیابی:

بر روی دیتاست COCO با توضیحات فارسی، مدل پیشنهادی نسبت به سیستم‌های موجود تا ۴۰٪ بهبود در معیارهای استاندارد تصویرنویسی و ۹٪ افزایش در Hit@K نسبت به CLIP نشان داد.
کیفیت تولید توضیح‌ها (ROUGE، BLEU، CIDEr) به‌طور محسوسی بالاتر از مدل‌های فارسی موجود مثل Hezarai و Hamtech بود.
چارچوب PTIR با طراحی ماژولار خود قابلیت سازگاری با دامنه‌های تخصصی مثل پزشکی یا میراث فرهنگی را دارد.

این کار نه‌تنها نقطه عطفی در توسعه ابزارهای هوش مصنوعی فارسی محسوب می‌شود، بلکه الگویی برای سایر زبان‌های کم‌منبع نیز ارائه می‌دهد.

آیا این مطلب را می پسندید؟

https://tehrandata.org/?p=15724

باکس دانلود

گزارش خرابی لینک ها

گزارش خرابی لینک ها [contact-form-7 id="14" title="فرم گزارش خرابی لینک دانلود"]

فایل مقاله Persian Text-Image Retrieval

دانلود

نظرات

0 نظر در مورد مقاله Persian Text-Image Retrieval: A Framework Based on Image Captioning and Scalable Vector Search

امکان ثبت نظر جدید بسته شده است.

هیچ دیدگاهی نوشته نشده است.

مقاله Persian Text-Image Retrieval: A Framework Based on Image Captioning and Scalable Vector Search

نتایج ارزیابی:

باکس دانلود

حتما مطالب زیر را بخوانید

مقاله A framework for robust glaucoma detection

مقاله Diverse hand gesture recognition dataset

نظرات

پشتیبانی آنلاین