اخبار

معرفی Gemini بزرگ‌ترین و توانمندترین مدل هوش مصنوعی گوگل

معرفی Gemini بزرگ‌ترین و توانمندترین مدل هوش مصنوعی گوگل
Robot hand 3D, AI technology

گوگل جمینی یک خانواده از مدل‌های زبانی بزرگ هوش مصنوعی چندوجهی است که دارای قابلیت‌هایی در درک زبان، صدا، کد و ویدیو است. Gemini 1.0 در ششم دسامبر سال ۲۰۲۳ توسط معرفی شد و توسط واحد تجاری Google DeepMind از بخش Alphabet این شرکت توسعه یافته است. گوگل دیپ‌مایند بر روی تحقیق و توسعه هوش مصنوعی پیشرفته متمرکز است. سرگئی برین، یکی از بنیان‌گذاران گوگل، در توسعه مدل‌های زبانی بزرگ (LLM) جمینی و موارد دیگر نقش موثری داشته است.

در زمان انتشار، جمینی پیشرفته‌ترین مجموعه LLM در گوگل بود که جایگزین مدل زبان Pathways (PaLM 2) این شرکت شد. درست مانند PaLM 2، جمینی نیز در چندین فناوری گوگل ادغام شده است و قابلیت‌های هوش مصنوعی مولد (Generative) را ارائه می‌دهد.

یکی از ملموس‌ترین جاهایی که می‌توانیم کاربرد جمینی را در عمل ببینیم، چت بات گوگل بارد است که قبلا توسط PaLM 2 پشتیبانی می‌شد.

جمینی قابلیت‌های پردازش زبان طبیعی را ادغام و توانایی درک و پردازش زبان را فراهم می‌کند که برای درک کوئری‌ها و داده‌های ورودی استفاده می‌شود. جمینی همچنین دارای قابلیت‌های درک و تشخیص تصویر است که امکان تجزیه تصاویر پیچیده مانند نمودارها و اشکال را بدون نیاز به فناوری OCR فراهم می‌کند.

جمینی همچنین دارای قابلیت‌های چندزبانه گسترده‌ای است که امکان ترجمه و استفاده در زبان‌های مختلف را میسر می‌سازد. به‌عنوان مثال، جمینی قادر است استدلال ریاضی را درک و مطالب را در چندین زبان خلاصه کند. جمینی همچنین می‌توانید برای یک تصویر به زبان‌های مختلف کپشن تولید کند.

برخلاف مدل‌های قبلی، گوگل Gemini دارای ویژگی چندوجهی بومی است. این یعنی جمینی با مجموعه‌های داده‌ای که چندین نوع داده را شامل می‌شود آموزش داده است. ماهیت چندوجهی جمینی توانایی‌های استدلال متقابل را امکان‌پذیر می‌کند. بنابراین، جمینی قادر است بر روی یک سری از انواع داده‌های ورودی شامل صدا، تصویر و متن استدلال انجام دهد.

برای مثال، مدل‌های جمینی می‌توانند یادداشت‌های دست‌نویس، نمودارها و گراف‌ها را برای حل مسائل پیچیده درک کنند. معماری جمینی از دریافت مستقیم متن، تصاویر، شکل موج‌های صوتی و فریم‌های ویدیویی به عنوان دنباله‌های در هم آمیخته پشتیبانی می‌کند.

جمینی چه قابلیت‌هایی دارد؟

معرفی Gemini بزرگ‌ترین و توانمندترین مدل هوش مصنوعی گوگل

مدل‌های جمینی گوگل قادر به انجام کارهای زیادی در وجه‌های مختلف هستند که از جمله درک متن، تصویر، صدا و ویدیو را شامل می‌شود. ماهیت چندوجه جمینی همچنین امکان ترکیب روش‌های مخلتف برای درک و تولید خروجی را فراهم می‌کند. به طور کلی، کارهایی که جمینی می‌تواند انجام دهد موارد زیر را شامل می‌شود:

خلاصه‌سازی متن‌: مدل‌های جمینی می‌توانند محتوا را از انواع مختلف داده‌ها جمع‌آوری و خلاصه کنند.

تولید متن: جمینی می‌تواند متنی را براساس درخواست کاربر تولید کند. این متن همچنین می‌تواند توسط یک رابط چت بات از نوع پرسش و پاسخ ایجاد شود.

ترجمه متن: مدل‌های Gemini دارای قابلیت‌های چندزبانه گسترده‌ای هستند که ترجمه و درک بیش از ۱۰۰ زبان را ممکن می‌سازد.

درک تصویر: جمینی می‌تواند تصاویر پیچیده مانند نمودارها، اشکال و نمودارها را بدون ابزارهای OCR خارجی تجزیه و تحلیل کند. از جمینی می‌توان برای کپشن‌نویسی تصاویر و قابلیت بصری پرسش و پاسخ استفاده کرد.

پردازش صدا: جمینی از تشخیص گفتار در بیش از ۱۰۰ زبان و امکان ترجمه صوتی پشتیبانی می‌کند.

درک ویدیویی: مدل های جمینی می‌توانند فریم‌های موجود در کلیپ‌های ویدیویی را برای پاسخ به سوالات و ایجاد توضیحات پردازش و درک کنند.

استدلال چندوجهی: یکی از نقاط قوت کلیدی Gemini گوگل توانایی استدلال چندوجهی آن است. به لطف این توانمندی، می‌توان انواع مختلفی از داده‌ها را برای ایجاد یک خروجی ترکیب کرد.

تحلیل و تولید کد: جمینی می‌تواند کدهای مربوط به زبان‌های برنامه‌نویسی محبوب از جمله پایتون، جاوا، گو و سی پلاس پلاس را درک کند، توضیح دهد و تولید کند.

چه برنامه‌هایی از جمینی استفاده می‌کنند؟

معرفی Gemini بزرگ‌ترین و توانمندترین مدل هوش مصنوعی گوگل

جمینی به عنوان یک مدل پایه توسط گوگل توسعه داده شده و به طور گسترده‌ای در سرویس‌های مختلف گوگل ادغام شده است. جمینی همچنین برای ساخت و استفاده از اپلیکیشن‌های مختلف در دسترس توسعه‌دهندگان است.

برنامه‌هایی که در حال حاضر از جمینی استفاده می‌کنند شامل موارد زیر هستند:

بارد: سرویس هوش مصنوعی مکالمه‌ای گوگل از نسخه بهبودیافته Gemini Pro برای استدلال پیشرفته و قابلیت‌های چت‌بات استفاده می‌کند.

AlphaCode 2: ابزار تولید کد ساخت Google DeepMind از یک نسخه سفارشی‌ شده از جمینی پرو بهره می‌برد.

گوگل پیکسل: گوشی‌ هوشمند پیکسل ۸ پرو ساخت گوگل اولین دستگاهی است که مدل Gemini Nano را بر روی دستگاه اجرا می‌کند. جمینی برای تقویت ویژگی‌های جدید مانند خلاصه‌سازی در برنامه Recorder و Smart Reply در Gboard برای برنامه‌های پیام‌رسان به‌کار گرفته شده است.

اندروید ۱۴: پیکسل ۸ پرو اولین گوشی هوشمند اندرویدی است که از جمینی بهره می‌برد، اما تنها گوشی هوشمند اندرویدی مجهز به این قابلیت نخواهد بود. توسعه‌دهندگان اندروید این امکان را دارند تا با استفاده از سیستم AICore و Gemini Nano قابلیت‌های مختلفی را ایجاد کنند.

Vertex AI: سرویس هوش مصنوعی Google Cloud که مدل های پایه‌ای را ارائه می‌کند. توسعه‌دهندگان می‌توانند از این مدل‌ها برای ساخت برنامه‌ها استفاده کنند و به جمینی پرو دسترسی داشته باشند.

Google AI Studio: توسعه‌دهندگان می‌توانند از طریق ابزار مبتنی بر وب Google AI Studio نمونه اولیه و بیلدهای رسمی اپلیکیشن‌ها را با جمینی بسازند.

Search: گوگل در حال آزمایش نحوه استفاده از جمینی در سرویس Search Generative Experience خود است تا به کاهش تاخیر و بهبود کیفیت کمک کند.

آینده جمینی چیست؟

معرفی Gemini بزرگ‌ترین و توانمندترین مدل هوش مصنوعی گوگل

گوگل با معرفی نسل اول جمینی، مسیر اولیه برای مدل‌های زبانی بزرگ آینده خود را تعیین کرد. نکته مهم در خصوص آینده جمینی، مدل Gemini Ultra است که هم‌زمان با جمینی پرو و جمینی نانو معرفی نشد. در زمان معرفی جمینی، گوگل اعلام کرد که Gemini Ultra ابتدا در دسترس متشریان خاص، توسعه‌دهندگان، شرکا و متخصصان قرار می‌گیرد تا آزمایش‌های لازم انجام شود و بازخوردهای اولیه را دریافت کند. طبق اعلام قبلی گوگل، انتظار داریم جمینی اولترا اوایل سال ۲۰۲۴ به صورت کامل در اختیار توسعه‌دهندگان و شرکت‌ها قرار بگیرد.

جمینی اولترا همچنین پایه و اساس چیزی خواهد بود که گوگل از آن به عنوان تجربه Bard Advanced یاد می‌کند. Bard Advanced در واقع نسخه‌ای به‌روز شده، قدرتمندتر و توانمندتر از چت‌بات بارد خواهد بود.

آینده جمینی همچنین در مورد به‌کارگیری و ادغام شدن گسترده‌تر در مجموعه سرویس‌های گوگل است. جمینی در مرورگر گوگل کروم حضور خواهد داشت تا به بهبود تجربه مرور وب کاربران کمک کند. گوگل همچنین متعهد شده است که Gemini را در پلتفرم Google Ads ادغام می‌کند و راه‌های جدیدی را برای تبلیغ‌کنندگان فراهم می‌کند تا با کاربران ارتباط برقرار کرده و آنها را درگیر کنند. دستیار هوش مصنوعی Duet نیز قرار است در آینده از توانمندی‌های جمینی بهره‌مند شود.

مصطفی طبری

مطالعه در مورد تازه‌های فناوری و گجت‌هایی که عجیب اما کاربردی هستن من رو به وجد میاره. موسیقی بی‌کلام و الکترونیک رو تقریبا روزی 6-7 ساعت گوش میدم و به همراه تماشای فیلم و سریال دو تا از تفریحات اصلی من رو تشکیل میدن.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

همچنین ببینید
بستن
دکمه بازگشت به بالا