ورود شیائومی به دنیای ربات‌های پیشرفته با معرفی هوش مصنوعی Robotics 0

خواندن این مطلب 2 دقیقه زمان میبرد

شیائومی با معرفی مدل متن‌باز Xiaomi Robotics 0 گام تازه‌ای به سوی توسعه ربات‌های هوشمند برداشته است. این مدل VLA با 4.7 میلیارد پارامتر می‌تواند ترکیبی از درک بصری، فهم زبان و اجرای دقیق حرکات را ارائه کرده و در چندین بنچمارک تخصصی عملکردی در سطح پیشرفته از خود به نمایش بگذارد.

محتوا پنهان

1 پیشرفته‌ترین مدل هوش مصنوعی برای ربات‌ها ؟

1.1 سایر نوشته‌های پیشنهادی

شرکت شیائومی که بیشتر با گوشی هوشمند، محصولات خانگی و گاه‌به‌گاه اخبار مربوط به خودروهای برقی شناخته می‌شود، اکنون قصد دارد جایگاهی در حوزه پژوهش‌های رباتیک نیز به دست آورد.

معرفی مدل متن‌باز Xiaomi Robotics 0

به گزارش msn، این غول دنیای فناوری از Xiaomi Robotics 0 رونمایی کرده است؛ یک مدل متن‌باز vision language action یا به اختصار VLA با 4.7 میلیارد پارامتر که هدف اصلی آن ترکیب درک بصری، فهم زبان و اجرای آنی اقدامات است؛ سه مؤلفه‌ای که Xiaomi از آن‌ها با عنوان هوش فیزیکی یاد می‌کند. به گفته مهندسان این شرکت، این مدل در شبیه‌سازی‌ها و همچنین آزمایش‌های دنیای واقعی چندین رکورد سطح پیشرفته را ثبت کرده است.

پیشرفته‌ترین مدل هوش مصنوعی برای ربات‌ها ؟

در سطح کلی، مدل‌های رباتیکی از این دست یک چرخه بسته شامل ادراک، تصمیم‌گیری و اجرا را حل می‌کنند. یک ربات باید محیط را ببیند، درخواست را درک کند، برای انجام آن برنامه‌ریزی کند و سپس آن را به شکلی روان اجرا کند. شیائومی اعلام کرده Robotics 0 به طور ویژه برای ایجاد تعادل میان درک گسترده مفهومی و کنترل دقیق حرکات ظریف طراحی شده است.

برای دستیابی به این هدف، مدل از معماری Mixture of Transformers یا MoT استفاده می‌کند که وظایف را میان دو بخش اصلی تقسیم می‌کند.

بخش نخست یک Visual Language Model یا VLM است که نقش مغز را ایفا می‌کند. این بخش برای تفسیر دستورات انسانی آموزش دیده است، حتی دستوراتی مبهم. علاوه بر موارد فوق، این مدل جدید می‌تواند روابط فضایی را از ورودی‌های بصری با وضوح بالا استخراج کند. تشخیص اشیا، پاسخ‌گویی به پرسش‌های مبتنی بر تصویر و استدلال منطقی از جمله وظایف این بخش است.

پیشرفته‌ترین مدل هوش مصنوعی برای ربات‌ها

بخش دوم که Xiaomi آن را Action Expert می‌نامد، بر پایه یک Diffusion Transformer چندلایه یا DiT ساخته شده است. این بخش به جای تولید یک حرکت منفرد، چیزی تحت عنوان Action Chunk تولید می‌کند که در واقع یک توالی از حرکات است. این فرایند با استفاده از تکنیک‌های flow matching انجام می‌شود تا دقت و نرمی حرکت حفظ شود.

در همین رابطه بخوانید:

– بهترین سایت های هوش مصنوعی برای انجام هر کاری!

– هوش مصنوعی چیست و چرا آینده بسیاری از علوم خواهد بود؟

یکی از چالش‌های رایج در مدل‌های VLA این است که هنگام یادگیری اجرای حرکات فیزیکی، بخشی از توانایی‌های درک مفهومی خود را از دست می‌دهند. Xiaomi اعلام کرده با آموزش هم‌زمان مدل روی داده‌های چندوجهی و داده‌های حرکتی، از بروز این مشکل جلوگیری کرده است. نتیجه، دست‌کم از نظر تئوریک، سیستمی است که هم توانایی استدلال درباره جهان را حفظ می‌کند و هم می‌تواند در آن حرکت کند.

بر اساس نتایج اعلام‌شده Xiaomi Robotics 0 در آزمون‌های معیار LIBERO، CALVIN و SimplerEnv عملکردی در سطح پیشرفته ثبت کرده و حدود 30 مدل دیگر را پشت سر گذاشته است.

Source link