آموزش بهینه سازی تورهای گردشگری استانبول و آنتالیا

آموزش بهینه سازی تورهای گردشگری استانبول و آنتالیا

آموزش بهینه سازی تورهای گردشگری استانبول و آنتالیا

آموزش بهینه سازی تورهای گردشگری استانبول و آنتالیا

آموزش بهینه سازی تورهای گردشگری استانبول و آنتالیا

طبقه بندی موضوعی
  • ۰
  • ۰

هوش مصنوعی متاورس جستجوی چندوجهی تشخیص شی سئو

مدل های چند وجهی با چه چالش هایی روبرو هستند؟

ترکیبی از تصاویر و توضیحات متنی که به یکباره از اینترنت استخراج شده اند نشان داده اند که منبع قدرتمندی برای آموزش هوش مصنوعی در سئو هستند. ما قبلاً شاهد ظهور جستجوی چندوجهی و ظهور برخی از مدل‌های برجسته مانند OpenAI CLIP و DALL-E بودیم . این مدل‌های آموزش‌دیده و خودنظارت‌گر هوش مصنوعی یک مزیت بزرگ دارند: آنها بازنمایی بسیار قوی‌تر از دسته‌های بصری را یاد می‌گیرند، زیرا نیازی به تکیه بر طبقه‌بندی‌های تعریف‌شده توسط انسان ندارند. به زبان انگلیسی ساده، این بدان معناست که این مدل‌ها می‌توانند وظایف تحلیل تصویر را بدون آموزش هوش مصنوعی اضافی انجام دهند .

با این حال، مدل‌های چندوجهی با چالش‌هایی روبرو هستند: آنها بر روی داده‌های تصویری آموزش دیده‌اند که از ImageNet به عنوان معیار استفاده می‌کنند و عملکرد ضعیفی را برای برخی موضوعات خاص و تخصصی نشان می‌دهند. این در جستجوی تصاویر گوگل نیز منعکس شده است. هنگام استفاده از CLIP در ارتباط با مدل Diffusion و در جستجوی تصویر گوگل، تعصبات مشابهی را می توان یافت. به همین دلیل است که ما این مدل‌ها را مطالعه و استفاده می‌کنیم، زیرا این به ما کمک می‌کند سئو را در دنیای چندوجهی اول انجام دهیم (که گوگل با MUM حرکت می‌کند.

معرفی روش تنظیم تصویر قفل شده (روشن) توسط گوگل

دانشمندان کامپیوتر گوگل موفق شدند روش جدیدی برای تجزیه و تحلیل تصویر ایجاد کنند که بهترین های این دو جهان را با هم ترکیب می کند: یک مدل چندوجهی با قابلیت تجزیه و تحلیل تصویر قدرتمند بدون نیاز به آموزش مجدد برای کارهای جدید، در عین حال به دقت مدل های تخصصی دست پیدا می کند. تفاوت در اینجا این است که LiT گوگل فقط رمزگذار متن را آموزش می دهد. این با رویکرد چندوجهی قبلی آنها که در آن رمزگذار تصویر بازنمایی تصویر را می آموزد در حالی که رمزگذار متن نمایش متن مربوطه را می آموزد متفاوت است.

گوگل در حال تغییر بازی با LiT است. آنها با یک مدل از پیش آموزش دیده سروکار دارند که از سه میلیارد تصویر استفاده می کند که به عنوان رمزگذار تصویر عمل می کند. روش کار به این صورت است که پارامترهای مدل در فرآیند آموزش چندوجهی منجمد می شوند. این رویکرد تضمین می‌کند که رمزگذار تصویر و نمایش‌های آموخته‌شده آن اصلاح نمی‌شوند. تیم هوش مصنوعی از یک مجموعه داده خصوصی استفاده کرد که شامل چهار میلیارد تصویر با متن مرتبط است که گوگل در سال های گذشته جمع آوری کرده بود.

 

آیا کلیپ بهتر از روش تنظیم تصویر قفل شده عمل می کند؟

معیار صنعت برای بینایی کامپیوتر معمولا ImageNet است. مدل آموزش داده شده با این روش جدید LiT به دقت 84.5% در ImageNet دست می یابد در حالی که در همان زمان دقت 81.1% را در معیار ObjectNet بدون آموزش اضافی به دست می آورد.

شایان ذکر است که بهترین مقداری که با ImageNet به دست می آید حدود 91% است در حالی که CLIP حدود 76% بدست آورده است. در همان زمان، CLIP به 72.3 درصد دقت در معیار ObjectNet دست یافت.

در هر صورت، شایان توجه است که در هر صورت، CLIP یک نقطه عطف واقعاً در این زمینه بوده است. به طور خلاصه، قدرت CLIP و LiT یکسان است و در توانایی ارزیابی شباهت بین یک تصویر و یک قطعه متن نهفته است.

یکی دیگر از پیشرفت های گوگل: Pix2seq – رابط زبان جدید برای تشخیص اشیا

تشخیص اشیا برای تعدیل محتوا و درک تصویر مفید است. ما در مورد آزمایش های تشخیص اشیا در پست قبلی خود در مورد SEO metaverse نوشتیم. نیاز به درک صحنه‌های مختلف و در عین حال اجتناب از تکرار شی، به پیچیدگی بومی‌سازی تنها نمونه‌های شی مرتبط می‌افزاید.

چالش دیگری که رویکردهای فعلی مبتنی بر سریعتر R-CNN و DETR با آن روبرو هستند، کاهش توانایی مدل برای تعمیم برای کارهای دیگر است. نیاز به طراحی مجدد واضح است، بنابراین تیم Google رویکرد جدیدی را برای ICLR 2022 ، دهمین کنفرانس بین‌المللی نمایش‌های یادگیری، به نام Pix2Seq ، پیشنهاد کرد.

Pix2Seq ورودی های پیکسل را برای تشخیص اشیا می گیرد . این مدل جدید نتایج فوق‌العاده‌ای را در مجموعه داده‌های محبوب COCO در مقیاس بزرگ به دست می‌آورد. ایده این است که برای یک تصویر معین، اگر شبکه عصبی بداند اشیاء در کجا قرار دارند، می توان به سادگی نحوه خواندن آنها را آموزش داد. شبکه عصبی اساساً در حال یادگیری نحوه توصیف اشیاء است، بنابراین مدل می تواند بازنمایی اشیاء مفید را فقط بر اساس مشاهدات پیکسلی بیاموزد.

به عبارت ساده، این بدان معنی است که اگر تصویری را برای مدل Pix2Seq ارائه کنیم، دنباله ای از توضیحات شی را به عنوان خروجی ارائه می دهد که در آن هر شیء از طریق مختصات گوشه های جعبه مرزی و یک برچسب کلاس دقیقاً مانند روی توصیف می شود. عکس زیر

Pix2seq and Lit برای دنیای سئو چه معنایی دارد؟

تشخیص اشیاء در تصاویر قطعاً یک لایه اضافی از سیگنال های رتبه بندی را ارائه می دهد که به راحتی نمی توان آنها را بدست آورد یا دوباره مهندسی کرد که کار را برای SEO هایی که در حال حاضر با بیش از 200 فاکتور رتبه بندی دستکاری می کنند دشوارتر می کند. در عین حال، این می‌تواند به‌عنوان یک تکنیک سایه‌دار برای پر کردن اشیا در تصاویر یا محیط‌های مشابه متاورس نیز استفاده شود و این چالشی را برای Google ایجاد می‌کند تا محیط‌های بصری با کیفیت را در مقیاس تشخیص دهد.

شایان ذکر است که نرم افزار سئو فعلی به دلیل پیچیدگی تحلیلی که باید انجام شود و همچنین قدرت محاسباتی زیادی که در وهله اول باید وجود داشته باشد، توانایی آنالیز تصاویر و فیلم ها را ندارد.

با نگاهی مثبت، تصاویر (و ویدئوها) در نهایت می توانند بسیار شبیه به متن صحبت کنند : این مدل ها و روش های جدید را می توان در محصولات Big G مانند جستجوی عکس و تصویر گوگل، یوتیوب و ماشین های خودران ادغام کرد. پیامدهای این پیشرفت ها در سئو بسیار بزرگ است و اهمیت داشتن داده های معنایی غنی برای آموزش این مدل ها نیز اهمیت دارد. امروزه می‌توانیم به سرعت CLIP (مانند جستجوی چندوجهی ) را آموزش دهیم تا به ما کمک کند ویژگی‌های تصویر یک محصول را تشخیص دهیم و این چیزی است که ما، سئوکاران نباید آن را دست کم بگیریم.

به طور خلاصه، آینده در حال حاضر اینجاست - نتایج ارگانیک مانند امروز به نظر نخواهند رسید: تصاویر با کیفیت، اشیاء با تعریف خوب، و تصاویر مضمون قطعاً احتمالاً مرکزی خواهند بود.

منبع: آموزش سئو