ترتيب أفضل نماذج الذكاء الاصطناعي لتطوير تطبيقات أندرويد وفقا لـ Google

كشفت Google عن مقياس جديد يهدف إلى ترتيب أفضل نماذج الذكاء الاصطناعي المستخدمة في تطوير تطبيقات أندرويد. وتوضح الشركة أن الهدف من هذا المشروع هو إنشاء نظام تقييم يختبر قدرات هذه النماذج في مهام البرمجة والتطوير الفعلية، بما يساعد المطورين على العمل بكفاءة أكبر وزيادة إنتاجيتهم. ووفقًا لهذه النتائج، جاء نموذج Gemini 3.1 Pro في صدارة القائمة، يليه كل من Claude وGPT-5.2 في المراكز التالية.

جوجل تكشف معيار Android Bench وترتيب أفضل نماذج الذكاء الاصطناعي لتطوير تطبيقات أندرويد

وترى Google أن المعايير العامة المستخدمة حاليًا لا تعكس بدقة طبيعة المنافسة في مجال تطوير تطبيقات أندرويد، لأن كتابة أكواد برمجية عامة بلغة مثل Python لا تعادل التعامل مع مهام أكثر تعقيدًا، مثل إدارة دورة حياة التطبيقات أو تطبيق بنية برمجية نظيفة داخل تطبيقات الهواتف. لذلك تعتقد الشركة أن هذا المعيار الجديد قد يصبح مرجعًا مهمًا للمطورين، ويساعدهم على اختيار الأدوات الأكثر فاعلية بدل إضاعة الوقت في استخدام حلول لا تقدم النتائج المطلوبة.

وفقًا لهذا التصنيف، تتصدر نماذج الذكاء الاصطناعي التي طورتها شركتا Google وAnthropic قائمة أفضل الأدوات المخصصة لتطوير تطبيقات أندرويد. فقد حقق نموذج Gemini 3.1 Pro Preview أعلى نتيجة بنسبة بلغت 72.4٪، وهي نسبة تمثل متوسط نتائج 100 اختبار ناجح تم توزيعها على عشر جولات مختلفة. كما أظهر النموذج هامش ثقة يتراوح بين 65٪ و 79٪، وهو مؤشر يُستخدم لتقييم مدى الموثوقية الإحصائية للنتائج.

ويأتي بعده في الترتيب كل من Claude Opus 4.6 و GPT-5.2 Codex، حيث سجلا نسب ثقة بلغت 66.6٪ و 62.5٪ على التوالي. تليهما نماذج أخرى مثل Claude Opus 4.5 و Gemini 3 Pro، في حين يبرز أيضا نموذج Claude Sonnet 4.6 ضمن المراتب المتقدمة. وتشير النتائج إلى أن نموذج Anthropic المتوسط الأداء قدّم مستوى أداء يصل إلى خمسة أضعاف مقارنة بنموذج Gemini 2.5 Flash، الذي لم يتجاوز مستوى موثوقية 10٪ فقط.

على عكس العديد من اختبارات الأداء التقليدية، يعتمد معيار Android Bench على مجموعة من 100 مهمة عملية تم اختيارها من قاعدة بيانات تضم نحو 39 ألف طلب سحب (Pull Request) على منصة GitHub. وقد قامت Google بتصفية هذه البيانات بعناية، فركزت فقط على المستودعات التي يتجاوز عدد نجومها 500 نجمة، إضافة إلى التعديلات التي تمت خلال السنوات الثلاث الأخيرة، وذلك لضمان أن التقييم يعتمد على ممارسات تطوير حديثة بدل الاعتماد على أكواد قديمة.

وبحسب الموقع الرسمي لـ Android Bench، تُمنح أعلى التقييمات للنماذج التي تُظهر كفاءة قوية في أربعة مجالات أساسية في تطوير تطبيقات أندرويد، وهي تصميم واجهة المستخدم، وإدارة العمليات المتزامنة، والتعامل مع حفظ البيانات، إضافة إلى حقن التبعيات (Dependency Injection)، وهي عناصر تعد من الركائز المهمة لبناء تطبيقات حديثة ومستقرة.

ترتيب أفضل نماذج الذكاء الاصطناعي لتطوير تطبيقات أندرويد

تشير نتائج الاختبارات إلى أن 71٪ من المهام تعتمد على لغة Kotlin، مقابل 25٪ فقط للغة Java. وعلى الرغم من أن أغلب المشاريع الموجودة على GitHub عبارة عن تطبيقات كاملة، فإن الاختبار المعياري أظهر أن 58٪ من المهام تركز في الواقع على تطوير المكتبات البرمجية. كما تختلف أحجام هذه المهام بشكل كبير، إذ تبدأ من تعديلات بسيطة لا تتجاوز 27 سطرا من الكود، وقد تصل إلى تغييرات كبيرة تتجاوز 400 سطر، وهو ما يعكس تقريبًا مختلف أنواع العمل التي يواجهها المطورون المحترفون.

ولتفادي أن تنجح نماذج الذكاء الاصطناعي بمجرد حفظ الأكواد خلال مرحلة التدريب، طبّقت Google مجموعة من الإجراءات الوقائية، إلى جانب مراجعة يدوية للخطوات التي يتبعها النموذج أثناء حل المهام. وبهذه الطريقة تضمن الشركة أن نسبة النجاح التي حققها نموذج Gemini 3.1 Pro Preview والبالغة 72.4٪ تعكس قدرته الحقيقية على حل المشكلات البرمجية في الوقت الفعلي، وليس مجرد استرجاع أكواد محفوظة مسبقًا.

وفقا لنتائج معيار Android Bench الذي نشرته Google، جاء ترتيب أفضل نماذج الذكاء الاصطناعي المخصصة لتطوير تطبيقات أندرويد على النحو التالي:

  1. Gemini 3.1 Pro Preview — بنسبة 72.4٪

  2. Claude Opus 4.6 — بنسبة 66.6٪

  3. GPT-5.2 Codex — بنسبة 62.5٪

  4. Claude Opus 4.5 — بنسبة 61.9٪

  5. Gemini 3 Pro Preview — بنسبة 60.4٪

  6. Claude Sonnet 4.6 — بنسبة 58.4٪

  7. Claude Sonnet 4.5 — بنسبة 54.2٪

  8. Gemini 3 Flash Preview — بنسبة 42٪

  9. Gemini 2.5 Flash — بنسبة 16.1٪

ويُظهر هذا التصنيف مدى التقدم الذي حققته نماذج الذكاء الاصطناعي الحديثة في مساعدة المطورين على إنشاء تطبيقات أندرويد بكفاءة أعلى، خاصة في المهام البرمجية المعقدة وإدارة بنية التطبيقات.

Exit mobile version