گوگل جمینی یک خانواده از مدلهای زبانی بزرگ هوش مصنوعی چندوجهی است که دارای قابلیتهایی در درک زبان، صدا، کد و ویدیو است. Gemini 1.0 در ششم دسامبر سال ۲۰۲۳ توسط معرفی شد و توسط واحد تجاری Google DeepMind از بخش Alphabet این شرکت توسعه یافته است. گوگل دیپمایند بر روی تحقیق و توسعه هوش مصنوعی پیشرفته متمرکز است. سرگئی برین، یکی از بنیانگذاران گوگل، در توسعه مدلهای زبانی بزرگ (LLM) جمینی و موارد دیگر نقش موثری داشته است.
در زمان انتشار، جمینی پیشرفتهترین مجموعه LLM در گوگل بود که جایگزین مدل زبان Pathways (PaLM 2) این شرکت شد. درست مانند PaLM 2، جمینی نیز در چندین فناوری گوگل ادغام شده است و قابلیتهای هوش مصنوعی مولد (Generative) را ارائه میدهد.
یکی از ملموسترین جاهایی که میتوانیم کاربرد جمینی را در عمل ببینیم، چت بات گوگل بارد است که قبلا توسط PaLM 2 پشتیبانی میشد.
جمینی قابلیتهای پردازش زبان طبیعی را ادغام و توانایی درک و پردازش زبان را فراهم میکند که برای درک کوئریها و دادههای ورودی استفاده میشود. جمینی همچنین دارای قابلیتهای درک و تشخیص تصویر است که امکان تجزیه تصاویر پیچیده مانند نمودارها و اشکال را بدون نیاز به فناوری OCR فراهم میکند.
جمینی همچنین دارای قابلیتهای چندزبانه گستردهای است که امکان ترجمه و استفاده در زبانهای مختلف را میسر میسازد. بهعنوان مثال، جمینی قادر است استدلال ریاضی را درک و مطالب را در چندین زبان خلاصه کند. جمینی همچنین میتوانید برای یک تصویر به زبانهای مختلف کپشن تولید کند.
برخلاف مدلهای قبلی، گوگل Gemini دارای ویژگی چندوجهی بومی است. این یعنی جمینی با مجموعههای دادهای که چندین نوع داده را شامل میشود آموزش داده است. ماهیت چندوجهی جمینی تواناییهای استدلال متقابل را امکانپذیر میکند. بنابراین، جمینی قادر است بر روی یک سری از انواع دادههای ورودی شامل صدا، تصویر و متن استدلال انجام دهد.
برای مثال، مدلهای جمینی میتوانند یادداشتهای دستنویس، نمودارها و گرافها را برای حل مسائل پیچیده درک کنند. معماری جمینی از دریافت مستقیم متن، تصاویر، شکل موجهای صوتی و فریمهای ویدیویی به عنوان دنبالههای در هم آمیخته پشتیبانی میکند.
جمینی چه قابلیتهایی دارد؟
مدلهای جمینی گوگل قادر به انجام کارهای زیادی در وجههای مختلف هستند که از جمله درک متن، تصویر، صدا و ویدیو را شامل میشود. ماهیت چندوجه جمینی همچنین امکان ترکیب روشهای مخلتف برای درک و تولید خروجی را فراهم میکند. به طور کلی، کارهایی که جمینی میتواند انجام دهد موارد زیر را شامل میشود:
خلاصهسازی متن: مدلهای جمینی میتوانند محتوا را از انواع مختلف دادهها جمعآوری و خلاصه کنند.
تولید متن: جمینی میتواند متنی را براساس درخواست کاربر تولید کند. این متن همچنین میتواند توسط یک رابط چت بات از نوع پرسش و پاسخ ایجاد شود.
ترجمه متن: مدلهای Gemini دارای قابلیتهای چندزبانه گستردهای هستند که ترجمه و درک بیش از ۱۰۰ زبان را ممکن میسازد.
درک تصویر: جمینی میتواند تصاویر پیچیده مانند نمودارها، اشکال و نمودارها را بدون ابزارهای OCR خارجی تجزیه و تحلیل کند. از جمینی میتوان برای کپشننویسی تصاویر و قابلیت بصری پرسش و پاسخ استفاده کرد.
پردازش صدا: جمینی از تشخیص گفتار در بیش از ۱۰۰ زبان و امکان ترجمه صوتی پشتیبانی میکند.
درک ویدیویی: مدل های جمینی میتوانند فریمهای موجود در کلیپهای ویدیویی را برای پاسخ به سوالات و ایجاد توضیحات پردازش و درک کنند.
استدلال چندوجهی: یکی از نقاط قوت کلیدی Gemini گوگل توانایی استدلال چندوجهی آن است. به لطف این توانمندی، میتوان انواع مختلفی از دادهها را برای ایجاد یک خروجی ترکیب کرد.
تحلیل و تولید کد: جمینی میتواند کدهای مربوط به زبانهای برنامهنویسی محبوب از جمله پایتون، جاوا، گو و سی پلاس پلاس را درک کند، توضیح دهد و تولید کند.
چه برنامههایی از جمینی استفاده میکنند؟
جمینی به عنوان یک مدل پایه توسط گوگل توسعه داده شده و به طور گستردهای در سرویسهای مختلف گوگل ادغام شده است. جمینی همچنین برای ساخت و استفاده از اپلیکیشنهای مختلف در دسترس توسعهدهندگان است.
برنامههایی که در حال حاضر از جمینی استفاده میکنند شامل موارد زیر هستند:
بارد: سرویس هوش مصنوعی مکالمهای گوگل از نسخه بهبودیافته Gemini Pro برای استدلال پیشرفته و قابلیتهای چتبات استفاده میکند.
AlphaCode 2: ابزار تولید کد ساخت Google DeepMind از یک نسخه سفارشی شده از جمینی پرو بهره میبرد.
گوگل پیکسل: گوشی هوشمند پیکسل ۸ پرو ساخت گوگل اولین دستگاهی است که مدل Gemini Nano را بر روی دستگاه اجرا میکند. جمینی برای تقویت ویژگیهای جدید مانند خلاصهسازی در برنامه Recorder و Smart Reply در Gboard برای برنامههای پیامرسان بهکار گرفته شده است.
اندروید ۱۴: پیکسل ۸ پرو اولین گوشی هوشمند اندرویدی است که از جمینی بهره میبرد، اما تنها گوشی هوشمند اندرویدی مجهز به این قابلیت نخواهد بود. توسعهدهندگان اندروید این امکان را دارند تا با استفاده از سیستم AICore و Gemini Nano قابلیتهای مختلفی را ایجاد کنند.
Vertex AI: سرویس هوش مصنوعی Google Cloud که مدل های پایهای را ارائه میکند. توسعهدهندگان میتوانند از این مدلها برای ساخت برنامهها استفاده کنند و به جمینی پرو دسترسی داشته باشند.
Google AI Studio: توسعهدهندگان میتوانند از طریق ابزار مبتنی بر وب Google AI Studio نمونه اولیه و بیلدهای رسمی اپلیکیشنها را با جمینی بسازند.
Search: گوگل در حال آزمایش نحوه استفاده از جمینی در سرویس Search Generative Experience خود است تا به کاهش تاخیر و بهبود کیفیت کمک کند.
آینده جمینی چیست؟
گوگل با معرفی نسل اول جمینی، مسیر اولیه برای مدلهای زبانی بزرگ آینده خود را تعیین کرد. نکته مهم در خصوص آینده جمینی، مدل Gemini Ultra است که همزمان با جمینی پرو و جمینی نانو معرفی نشد. در زمان معرفی جمینی، گوگل اعلام کرد که Gemini Ultra ابتدا در دسترس متشریان خاص، توسعهدهندگان، شرکا و متخصصان قرار میگیرد تا آزمایشهای لازم انجام شود و بازخوردهای اولیه را دریافت کند. طبق اعلام قبلی گوگل، انتظار داریم جمینی اولترا اوایل سال ۲۰۲۴ به صورت کامل در اختیار توسعهدهندگان و شرکتها قرار بگیرد.
جمینی اولترا همچنین پایه و اساس چیزی خواهد بود که گوگل از آن به عنوان تجربه Bard Advanced یاد میکند. Bard Advanced در واقع نسخهای بهروز شده، قدرتمندتر و توانمندتر از چتبات بارد خواهد بود.
آینده جمینی همچنین در مورد بهکارگیری و ادغام شدن گستردهتر در مجموعه سرویسهای گوگل است. جمینی در مرورگر گوگل کروم حضور خواهد داشت تا به بهبود تجربه مرور وب کاربران کمک کند. گوگل همچنین متعهد شده است که Gemini را در پلتفرم Google Ads ادغام میکند و راههای جدیدی را برای تبلیغکنندگان فراهم میکند تا با کاربران ارتباط برقرار کرده و آنها را درگیر کنند. دستیار هوش مصنوعی Duet نیز قرار است در آینده از توانمندیهای جمینی بهرهمند شود.