يوفر التعلم المعزز (RL) حلولًا لمشكلة صنع القرار المتسلسل أو مشكلة يمكن إعادة هيكلتها على أنها متسلسلة في الطبيعة. لا تعتمد هذه الألغاز على قرار واحد يتم اتخاذه في وقت معين ولكن على سلسلة كاملة من الخيارات اللاحقة – مثال على ذلك إجراءات العلاج في الرعاية الصحية.
قد تحظى معظم استخدامات التعلم المعزز بمزيد من الاهتمام ، ليس فقط في الأيام القادمة ، ولكن بعد ذلك. قد تكون هذه القائمة ذاتية لمجالات التركيز الجديدة والحالية للتعلم المعزز في العالم الحقيقي.
9 تطبيقات واعدة للتعلم المعزز في عام 2021:
- أنظمة التوصية
- نظم الإخطار
- الروبوتات المتنقلة
- التوجيه والملاحة ومراقبة الطيران
- أنظمة الحاسوب
- نظم قواعد البيانات
- الدولة : مجموعة العلاقات التي سيتم ضمها
- الإجراء : صلة صحيحة بين أي من العلاقات
- الحالة التالية : تتم إزالة العلاقات القياسية الحالية بعد علاقتين متصلتين من المجموعة
- المكافأة : تقدير التكلفة للانضمام
- تحسين المجمعين
- تحسين السوق
- التقدم العلمي
تساعد التوصيات في تخصيص تفضيلات المستخدم. في منصات الموسيقى والفيديو ، على سبيل المثال ، تساعد التوصيات الأعضاء في العثور على الترفيه للتفاعل معه والاستمتاع به مع زيادة الرضا والاحتفاظ بالمستخدمين. تم استخدام أنظمة التوصية (RecSys) لفترة طويلة للتنبؤ بالعنصر التالي الذي يهم المستخدم . نهج RecSys مثل تصفية ، السببية قد يكون لها القدرة على تذكر التجارب التاريخية من تفاعلات المستخدم وتكون قادرة على اللعب بها مرة أخرى عند الحاجة. لكنها مقيدة بمعنى أنها لا تستطيع التخطيط.
هذه الحاجة إلى القدرة على التخطيط هي دافع لاستخدام RL في أنظمة التوصية. تتمثل الميزة الرئيسية لـ RL في أنها مخصصة للمستخدم لتحقيق أقصى قدر من الرضا على المدى الطويل . في مؤتمر RecSys 2020 الأخير ، قدمت Netflix RL كإتجاه حديث في التخصيص ، حيث يستخدمونها لتحسين تفاعلات المستخدم المتنوعة. تحدث هذه التحسينات في جلسة مستخدم ولتفاعلات المستخدم عبر جلسات جهاز متعددة.
بينما يُظهر نظام التوصية للمستخدم مشاركة المحتوى بناءً على نموذج من طلب المستخدم ، فإن نظام الإخطار يدعو المستخدم للتفاعل مع هذا المحتوى في كل مرة يكون فيها متاحًا حديثًا أو يتم تحديثه.
ومع ذلك ، يمكن أن تكون دفع الإخطارات مزعجة للمستخدمين عند إرسالها في أوقات غير مناسبة. وكذلك رسائل البريد الإلكتروني الترويجية. يجب أن يحدد نظام الإخطار المرغوب فيه المستخدمين الذين يتم إخطارهم ومتى يتم زيادة التفاعل الإيجابي للمستخدم. تم استخدام RL لتحديد الوقت المناسب لإرسال إشعار إلى مستخدم معين. عند النجاح ، يقلل ذلك من تجاهل إشعارات المستخدم ويخلق رضا المستخدم الإيجابي.
يمكننا أيضًا إعادة صياغة هذا باستخدام RL للتنبؤ بسلوك المستخدم تجاه الإشعار ، والقصد من ذلك هو تقليل التأثير السلبي على المستخدمين مثل انخفاض أداء المهمة الحالية.
كان التركيز بشكل كبير على التعلم المعزز في الروبوتات في معالجة الكائنات ، مما أدى إلى ظهور روبوتات تتمتع ببعض القدرات الرائعة مثل حل مكعب روبيك . يساعد الروبوتات على تعلم كيفية التعامل مع الأشياء وتحريكها بشكل فعال.
ومع ذلك ، لم يكن لدى Deep RL الكثير من التطبيقات في التحكم المستمر في الروبوتات المحمولة الحقيقية. استخدمت الجهود المبكرة Q-Learning ، والتي يمكنها فقط التعامل مع مساحات العمل والحالة المنفصلة. في المقابل ، تتمتع الروبوتات بمسافات مستمرة – على سبيل المثال ، فإن تدوير الذراع سيشمل درجات عديدة من الحرية.
مع تزايد الاهتمام باستخدام RL لأنظمة الروبوتات المتنقلة ، سيكون لدينا المزيد من الروبوتات التي لديها القدرة على التحرك والتفاعل مع العالم ، وجمع الخبرات المتنوعة والتعميم بشكل أفضل على الملاحظات أو مجموعات البيانات المختلفة.
كان للتقدم في RL للروبوتات المحمولة في العالم الحقيقي مدخلات مؤخرًا مثل استخدام بيئات التدريب الموازية ، والجمع بين RL الهرمي ومستخلصات ميزات البيئة لتحسين تخطيط المسار ، والتنقل بدون خرائط .
يتم الان دراستة RL علنًا في تطوير توجيه الصواريخ ، نظرًا للمخاوف التي قد تكون لها ، كما تم التعبير عنها من خلال معهد مستقبل الحياة.
ومع ذلك ، كانت هناك تطبيقات RL في المركبات الجوية غير المأهولة (UAV) والتحكم في الطيران. لكن أنظمة الطيران مثل الطائرات بدون طيار المستخدمة لجمع البيانات والمراقبة ، كانت في الغالب خاصة بمهام محددة.
تساعد RL وكلاء الطيران في العثور على المسارات الفعالة المطلوبة من القيود المفروضة على وقت المهمة وعمر البطارية ، وكذلك تنفيذ تخطيط الملاحة بعيد المدى.
سيكون للنجاح في الطائرات بدون طيار والتحكم في الطيران فوائد مؤثرة في عمليات البحث والإنقاذ ، وتحديد حرائق الغابات ، وتسرب الغاز ، أو حتى في توصيلات الطعام والطرود. أثبتت RL الهرمي فائدتها في التنقل طويل المدى والتنقل التفاعلي ، أي التنقل الذي يتضمن معالجة الكائن في مرحلة ما ، ومن المحتمل أن يتم استخدامه بشكل أكبر في تحسين تقنيات التحكم في التنقل.
تتميز مناهج RL بقدرة متأصلة على التحكم في السلوك الديناميكي باستخدام أداء النظام الخام. ومع ذلك ، كانت التطبيقات العملية في أنظمة الكمبيوتر بعيدة المنال بسبب متطلبات البيانات الكبيرة. إنه مجال يوفر إمكانية محتملة لجمع الكثير من البيانات وسيستفيد من اعتماد أدوات قياسية لتقييم النموذج.
تحتوي الأنظمة على مجموعة متنوعة من تكوينات المعلمات اللازمة لتخصيص الجوانب التي تؤثر على أداء الكمبيوتر. يتضمن ذلك جدولة المجموعات للوظائف ذات التبعيات المختلفة ، ودفق الفيديو التكيفي الذي يحدد معدل البت الأمثل لعرض النطاق الترددي للشبكة وتنظيف ذاكرة التخزين المؤقت.
يتم تحديد هذه المعلمات من خلال عمليات التنفيذ اليدوية ، وتوصيات المجتمع ، وتقنيات الضبط التلقائي مؤخرًا مثل تحسين Bayesian. تكمن المشكلة في هذه الإجراءات في أنها تنتج تكوينات معلمة ثابتة في وضع عدم الاتصال . في المقابل ، يقترح RL مطابقة التكوينات المختلفة للمهام المميزة عبر الإنترنت ، بناءً على المراقبة المستمرة والتحكم التكيفي.
يحدد Schaarschmidt الحاجة إلى فصل تصميم RL عن عملية التنفيذ لجعل التنفيذ أكثر مرونة في أنظمة التوزيع المختلفة. تخيل أنظمة الكمبيوتر التي يمكنها التهيئة الذاتية باستمرار – فهذا يعني أن أجهزة الكمبيوتر تعمل بشكل أفضل بالنسبة لنا.
يمكن تمثيل استعلامات وتكوينات قاعدة البيانات كعمليات قرار ماركوف (MDPs) التي تعمل على تحسين الوصول إلى قاعدة البيانات. على سبيل المثال ، في ترتيب استعلامات الانضمام ، يمكننا تأطير MDP على النحو التالي:
لدى Deep RL مناهج لتكييف خطة الاستعلام لمجموعة بيانات محددة ، وعبء عمل الاستعلام ، وتكلفة الوصول الملحوظة. يمكن التعبير عن التكلفة على أنها إجمالي وقت التشغيل أو عدد الاستعلامات المطلوبة لتحقيق الهدف. حقق Deep Q-Learning تسريعًا كبيرًا لاستعلامات الانضمام التي تتضمن كميات كبيرة من البيانات مقارنة بأساليب الوصول إلى البرمجة الديناميكية.
في تحسين قاعدة البيانات ، تمتلك RL مساحة كبيرة للتقييم في تقنيات البيانات الضخمة مثل Apache Spark ، مما يؤدي إلى تحسين فهرسة قاعدة البيانات ، بما في ذلك توقع استعلامات الفهرسة مسبقًا. لتوفير الموارد ، من المستحسن أيضًا أن يكون لديك وكلاء يمكنهم التوسع بكفاءة إلى أنظمة قواعد البيانات الكبيرة عند تدريبهم في بيئات بيانات أقل استهلاكًا للموارد.
لماذا قد يرغب أي شخص في استخدام التعلم الآلي في المجمعين؟ أثناء ترجمة التعليمات البرمجية إلى نظام ثنائي ، يعد الصواب أمرًا بالغ الأهمية.
لا يزال ، هناك جانب التحسين. إلى جانب ترجمة الكود بشكل صحيح ، يحتاج المترجمون إلى إيجاد الترجمة الأكثر كفاءة. كانت الغالبية العظمى من التركيز الهندسي على هذا الهدف الثاني للأداء. تتطور بنية الكمبيوتر بوتيرة سريعة ، كل جيل لديه مراوغات التجميع الخاصة به. وبدلاً من الاعتماد على الاستدلال ، فإن التعلم الآلي مناسب لاتخاذ قرارات تحسين الكود حيث يعتمد تأثير الأداء على النظام الأساسي الأساسي.
تتيح لك برامج التحويل البرمجي تحديد مستوى التحسين في الإصدار. ما يفعله هذا هو تشغيل سلسلة من التمريرات على الكود. ولكن تتم تهيئة هذه التمريرات باستخدام بعض المعلمات الثابتة مسبقًا وتشغيلها بترتيب محدد مسبقًا. يعد ترتيب تطبيق تحسينات المترجم هذه على الكود ، والمعروف باسم ترتيب الطور ، مشكلة طويلة الأمد في بحث المترجم ، حيث تتفاعل كل مرحلة من مراحل التحسين هذه مع الكود الوسيط بطرق معقدة.
سيشمل مستقبل RL في تحسين المترجم أيضًا الوكلاء الذين يمكنهم التعلم الفوقي أو القيام بالتعلم تحت الإشراف الذاتي في أنظمة الهدف الجديدة. سيوفر ذلك الموارد الحسابية لأن التصميم الحالي يتطلب برامج يتم تجميعها وقياس الأداء على الأنظمة غير المرئية.
إذا كنا في مؤتمر مع الكثير من الأشخاص ، وكلنا بحث عن “مطعم” في تطبيق المراجعة المفضل لدينا ، فسنحصل على المطعم بأفضل التقييمات ، والذي يعمل جيدًا بالنسبة لنا – الجياع ، ولكن ليس كثيرًا بالنسبة للمطعم. (هذا مثال قدمه جيسون جوتشي ). ما سيحدث هو أن التطبيق قد تم تحسينه لجانب واحد فقط من السوق – العميل وليس للمطعم.
هذا الشكل من صنع القرار الذي يشمل طرفين ، يريدان حلاً أمثل لكل من احتياجاتهما (تقريبًا) بالتساوي ، هو عامل في العديد من الأسواق. خذ ، على سبيل المثال ، التخطيط لركوب bodaboda لتجنب حركة المرور والوصول إلى مكان ما بسرعة ، لكن الراكب يريد أيضًا توفير الوقود والاقتصاد. يمكن لإطار التحسين هذا في خدمات الحصول على خدمات الركوب استخدام RL لتقليل وقت انتظار الركاب مع تعزيز فائدة السائق. هذه مشكلة مطابقة ثنائية ، حيث تكون مطابقة الرسم البياني هي النهج السائد.
إن تطبيق RL لمشاكل تحسين السوق قابل للتوسع في الخدمات مثل مشاركة الإقامة بين السياح والسكان المحليين ، حيث نرغب في تحسين تفضيلات كل من المضيف والسائح. أي وضع للسوق يتضمن هذا التوازن الثنائي بين طرفين سوف يستفيد من قدرة RL على التخطيط واتخاذ القرارات. والعديد من الأسواق في قطاع الضيافة والخدمات هي من هذا النوع.
هناك إمكانية لـ RL لدفع المزيد من الاكتشافات العلمية. مثيرة للاهتمام الى حد بعيد. على سبيل المثال ، اكتشاف اللقاح والتسلسل الأمثل في علم الأحياء. ينطبق RL على فك تشفير التسلسل. تشتمل مشكلات تصميم تسلسل البروتين على شريط تشفير تسلسلي وشريط فك تشفير. باستخدام سياسة RL ، من الممكن التحكم في فك التشفير. نماذج مؤشر و العصبية الرسومية الشبكات هي بعض من الأساليب التي تحصل على استخدام انتشارا في مشاكل التصميم التسلسل.
يحتاج التسلسل الجيني إلى فهم جيد لبنات البناء الكيميائية ، والتي قد لا يتم تمثيلها بسهولة بواسطة الشبكة العصبية. يمكن أن تستفيد معظم المشكلات العلمية التي تنطوي على تخطيط وتحسين إجراءات الإنتاج من التعلم المعزز. على سبيل المثال ، تم استخدام تصميم شرائح الكمبيوتر باستخدام RL العميق لتحسين المواضع لرقائق التسريع في TPUs في Google.
مع هذه الأنواع من المشاكل ، فإن النجاح في إحداها يعطي نظرة ثاقبة قد تثبت قيمتها في تقدم الآخر. مثال ساذج في حل RL لتصميم الرقاقة المذكور ، حيث الهدف هو وضع الكتل على شريحة الكمبيوتر بالشكل الأمثل. على الرغم من صعوبة إضافية ، يمكن أن يكون للنهج المستخدم بعض الجوانب القابلة للنقل إلى مشكلة تسلسل البروتين ، والتي تتضمن أيضًا تحسين وضع الكتل (البنائية).