دانش و فناوری

مدل جدید هوش مصنوعی AI21 Labs می تواند زمینه بیشتری را نسبت به سایر موارد کنترل کند

صنعت هوش مصنوعی به طور فزاینده ای به سمت مدل های هوش مصنوعی مولد با زمینه های طولانی تر حرکت می کند. اما مدل‌هایی با پنجره‌های زمینه بزرگ معمولاً محاسباتی فشرده هستند. اوری گوشن، مدیر عامل استارتاپ هوش مصنوعی AI21 Labs، ادعا می‌کند که لازم نیست اینطور باشد – و شرکت او در حال انتشار یک مدل مولد برای اثبات آن است.

زمینه‌ها یا پنجره‌های زمینه به داده‌های ورودی (مثلاً متن) اشاره می‌کنند که یک مدل قبل از تولید خروجی (متن بیشتر) در نظر می‌گیرد. مدل‌هایی با پنجره‌های زمینه کوچک تمایل دارند محتوای مکالمات بسیار اخیر را فراموش کنند، در حالی که مدل‌هایی با زمینه‌های بزرگ‌تر از این دام اجتناب می‌کنند – و به عنوان یک مزیت اضافی، جریان داده‌هایی را که دریافت می‌کنند بهتر درک می‌کنند.

Jamba آزمایشگاه AI21، یک مدل جدید تولید و تجزیه و تحلیل متن، می‌تواند بسیاری از کارهای مشابهی را انجام دهد که مدل‌هایی مانند ChatGPT OpenAI و Gemini گوگل انجام می‌دهند. Jamba که بر روی ترکیبی از داده های عمومی و اختصاصی آموزش دیده است، می تواند متن را به زبان های انگلیسی، فرانسوی، اسپانیایی و پرتغالی بنویسد.

Jamba می تواند تا 140000 توکن را در حالی که روی یک GPU با حداقل 80 گیگابایت حافظه اجرا می کند (مانند Nvidia A100 پیشرفته) مدیریت کند. این به حدود 105000 کلمه یا 210 صفحه ترجمه می شود – رمانی با اندازه مناسب.

در مقایسه، Llama 2 متا دارای یک پنجره زمینه 32000 توکنی است – در سمت کوچکتر با استانداردهای امروزی – اما برای اجرا فقط به یک GPU با 12 گیگابایت حافظه نیاز دارد. (پنجره های زمینه معمولاً با نشانه ها اندازه گیری می شوند که بیت هایی از متن خام و سایر داده ها هستند.)

جامبا از نظر ظاهری غیرقابل توجه است. تعداد زیادی از مدل‌های هوش مصنوعی مولد و قابل دانلود رایگان در دسترس هستند، از DBRX اخیراً منتشر شده توسط Databricks تا Llama 2.

اما چیزی که جامبا را منحصر به فرد می کند، چیزی است که در زیر کاپوت وجود دارد. از ترکیبی از دو معماری مدل استفاده می کند: ترانسفورماتورها و مدل های فضای حالت (SSM).

ترانسفورماتورها معماری منتخب برای کارهای استدلالی پیچیده هستند، به عنوان مثال، مدل هایی مانند GPT-4 و Gemini گوگل را تقویت می کنند. آنها چندین ویژگی منحصر به فرد دارند، اما ویژگی مشخص ترانسفورماتورها “مکانیسم توجه” آنها است. برای هر قطعه از داده های ورودی (به عنوان مثال یک جمله)، ترانسفورماتور وزن کردن ارتباط هر ورودی دیگر (جملات دیگر) و از آنها برای تولید خروجی (یک جمله جدید) استفاده کنید.

از سوی دیگر، SSMها، چندین کیفیت از انواع قدیمی‌تر مدل‌های هوش مصنوعی، مانند شبکه‌های عصبی تکراری و شبکه‌های عصبی کانولوشنال را ترکیب می‌کنند تا معماری محاسباتی کارآمدتری ایجاد کنند که قادر به مدیریت توالی‌های طولانی از داده‌ها باشد.

اکنون SSM ها محدودیت های خود را دارند. اما برخی از تجسم‌های اولیه، از جمله یک مدل منبع باز از محققان پرینستون و کارنگی ملون به نام Mamba، می‌توانند ورودی‌های بزرگ‌تری را نسبت به معادل‌های مبتنی بر ترانسفورماتور خود مدیریت کنند و در عین حال از آنها در وظایف تولید زبان بهتر عمل کنند.

جامبا در واقع از Mamba به عنوان مدل پایه استفاده می کند – و گوشن ادعا می کند که سه برابر توان عملیاتی را در زمینه های طولانی در مقایسه با مدل های مبتنی بر ترانسفورماتور با اندازه های مشابه ارائه می دهد.

گوشن در مصاحبه ای با TechCrunch گفت: «در حالی که چند نمونه اولیه آکادمیک از مدل های SSM وجود دارد، این اولین مدل تجاری در مقیاس تولید است. “این معماری، علاوه بر نوآوری و جالب بودن برای تحقیقات بیشتر توسط جامعه، امکان کارایی و توان عملیاتی بسیار خوبی را به وجود می آورد.”

در حال حاضر، در حالی که Jamba تحت مجوز Apache 2.0 منتشر شده است، یک مجوز منبع باز با محدودیت‌های استفاده نسبتا کمی، Goshen تاکید می‌کند که این نسخه تحقیقاتی برای استفاده تجاری نیست. این مدل تضمینی برای جلوگیری از ایجاد متن سمی یا اقدامات کاهشی برای مقابله با سوگیری احتمالی ندارد. یک نسخه تنظیم شده و ظاهرا “ایمن تر” در هفته های آینده در دسترس خواهد بود.

اما گوشن ادعا می‌کند که جامبا حتی در این مرحله اولیه، نوید معماری SSM را نشان می‌دهد.

وی گفت: “ارزش افزوده این مدل، هم به دلیل اندازه و هم به دلیل معماری نوآورانه آن، این است که می توان آن را به راحتی بر روی یک واحد پردازش گرافیکی نصب کرد.” “ما معتقدیم که با دستیابی به ترفندهای اضافی Mamba عملکرد بیشتر بهبود خواهد یافت.”

منبع techcrunch
آگهی
دکمه بازگشت به بالا