ورود شیائومی به دنیای رباتهای پیشرفته با معرفی هوش مصنوعی Robotics 0

شیائومی با معرفی مدل متنباز Xiaomi Robotics 0 گام تازهای به سوی توسعه رباتهای هوشمند برداشته است. این مدل VLA با 4.7 میلیارد پارامتر میتواند ترکیبی از درک بصری، فهم زبان و اجرای دقیق حرکات را ارائه کرده و در چندین بنچمارک تخصصی عملکردی در سطح پیشرفته از خود به نمایش بگذارد.
شرکت شیائومی که بیشتر با گوشی هوشمند، محصولات خانگی و گاهبهگاه اخبار مربوط به خودروهای برقی شناخته میشود، اکنون قصد دارد جایگاهی در حوزه پژوهشهای رباتیک نیز به دست آورد.

به گزارش msn، این غول دنیای فناوری از Xiaomi Robotics 0 رونمایی کرده است؛ یک مدل متنباز vision language action یا به اختصار VLA با 4.7 میلیارد پارامتر که هدف اصلی آن ترکیب درک بصری، فهم زبان و اجرای آنی اقدامات است؛ سه مؤلفهای که Xiaomi از آنها با عنوان هوش فیزیکی یاد میکند. به گفته مهندسان این شرکت، این مدل در شبیهسازیها و همچنین آزمایشهای دنیای واقعی چندین رکورد سطح پیشرفته را ثبت کرده است.
پیشرفتهترین مدل هوش مصنوعی برای رباتها ؟
در سطح کلی، مدلهای رباتیکی از این دست یک چرخه بسته شامل ادراک، تصمیمگیری و اجرا را حل میکنند. یک ربات باید محیط را ببیند، درخواست را درک کند، برای انجام آن برنامهریزی کند و سپس آن را به شکلی روان اجرا کند. شیائومی اعلام کرده Robotics 0 به طور ویژه برای ایجاد تعادل میان درک گسترده مفهومی و کنترل دقیق حرکات ظریف طراحی شده است.
برای دستیابی به این هدف، مدل از معماری Mixture of Transformers یا MoT استفاده میکند که وظایف را میان دو بخش اصلی تقسیم میکند.
بخش نخست یک Visual Language Model یا VLM است که نقش مغز را ایفا میکند. این بخش برای تفسیر دستورات انسانی آموزش دیده است، حتی دستوراتی مبهم. علاوه بر موارد فوق، این مدل جدید میتواند روابط فضایی را از ورودیهای بصری با وضوح بالا استخراج کند. تشخیص اشیا، پاسخگویی به پرسشهای مبتنی بر تصویر و استدلال منطقی از جمله وظایف این بخش است.

بخش دوم که Xiaomi آن را Action Expert مینامد، بر پایه یک Diffusion Transformer چندلایه یا DiT ساخته شده است. این بخش به جای تولید یک حرکت منفرد، چیزی تحت عنوان Action Chunk تولید میکند که در واقع یک توالی از حرکات است. این فرایند با استفاده از تکنیکهای flow matching انجام میشود تا دقت و نرمی حرکت حفظ شود.
در همین رابطه بخوانید:
– بهترین سایت های هوش مصنوعی برای انجام هر کاری!
– هوش مصنوعی چیست و چرا آینده بسیاری از علوم خواهد بود؟
یکی از چالشهای رایج در مدلهای VLA این است که هنگام یادگیری اجرای حرکات فیزیکی، بخشی از تواناییهای درک مفهومی خود را از دست میدهند. Xiaomi اعلام کرده با آموزش همزمان مدل روی دادههای چندوجهی و دادههای حرکتی، از بروز این مشکل جلوگیری کرده است. نتیجه، دستکم از نظر تئوریک، سیستمی است که هم توانایی استدلال درباره جهان را حفظ میکند و هم میتواند در آن حرکت کند.
بر اساس نتایج اعلامشده Xiaomi Robotics 0 در آزمونهای معیار LIBERO، CALVIN و SimplerEnv عملکردی در سطح پیشرفته ثبت کرده و حدود 30 مدل دیگر را پشت سر گذاشته است.



