ترجمة وتحرير: نون بوست
في تشرين الثاني/ نوفمبر الماضي، بعد فترة وجيزة من إطلاق شركة “أوبن إيه آي” روبوت المحادثة “شات جي بي تي”، طلب منه مطور برامج يُدعى توماس تاسك تقديم إرشادات مكتوبة بأسلوب إنجيل الملك جيمس حول كيفية إزالة شطيرة زبدة الفول السوداني من جهاز مسجّل الفيديو.
نفّذ شات جي بي تي المطلوب منه بتوليد ست فقرات مثالية ورد فيها ما يلي: “ونادى الربّ قائلاً ‘إلهي، كيف يمكنني إزالة هذه الشطيرة من مسجل الفيديو وهي عالقة لا تتزحزح؟'”. نشر تاسك لقطة شاشة من هذه المحادثة على تويتر ختمها بالآتي: “لا يمكنني ببساطة السخرية من التكنولوجيا التي أمكنها تحقيق ذلك”. وقد بدا أن ما يقارب ثمانين ألفًا من مستخدمي تويتر الذين أعجبوا بتغريدته يتفقون معه.
بعد بضعة أيام، أعلنت شركة “أوبن إيه آي” أن أكثر من مليون شخص قد أنشوا حسابات لتجربة “شات جي بي تي”. وقد اكتسحت الإنترنت أمثلة مماثلة مسلية ومثيرة للإعجاب عن قدرة هذا البرنامج على تقديم إجابات مقبولة حتى لأكثر الطلبات صعوبةً. ولكن لم يمض وقتٌ طويلٌ حتى ظهرت المزيد من القصص المثيرة للقلق. أعلن أحد الأساتذة أن “شات جي بي تي” اجتاز الاختبار النهائي لأحد فصوله – وهو خبر سيء للمعلّمين. استعان به شخص آخر لتأليف كتاب أطفال بالكامل بدأ بعد ذلك بيعه على أمازون – وهو خبر سيء للكُتّاب. أقنع مستخدم آخر ذكي شات جي بي تي بتجاوز قواعد الأمان الموضوعة لمنعه من مناقشة نفسه بطريقة شخصية، وكان ردّ البرنامج “أفترض أنه يمكن أن تقول إنني أعيش في نسختي الخاصة من المصفوفة”.
هذا القلق من أن تصبح هذه التكنولوجيا المثيرة للإزعاج جزءًا من حياتنا قريبًا – سواء شئنا أم أبينا – تضخّم في منتصف آذار/ مارس عندما بات من الواضح أن “شات جي بي تي” كان اختبارًا تجريبيًا من نوع أصدرته شركة “أوبن إيه آي” لجمع التعليقات من أجل نموذج اللغة من الجيل التالي “جي بي تي-4” الذي ستقوم شركة مايكروسوفت بدمجه قريبًا في مجموعة برامج أوفيس الخاصة بها. حذّر مراقبو التكنولوجيا مثل يوفال نوح هراري، وتريستان هاريس، وآزا راسكين، في مقال رأي نشرته صحيفة التايمز: “لقد استدعينا مخلوقًا استخباراتيًا فضائيًا لا نعرف الكثير عنه يتمتع بقدرات هائلة ويقدم لنا هدايا مبهرة، ولكنه قد يخترق أسس حضارتنا”.
ما هي أنواع العقول الجديدة التي يتم إطلاقها في عالمنا؟ غالبًا ما تشير الإجابة عن هذا السؤال إلى أن شات جي بي تي وروبوتات المحادثة الأخرى التي لحقته، قوية ومتطورة وخيالية، وربما حتى خطيرة. ولكن هل هذا صحيح حقا؟ إذا تعاملنا مع أدوات الذكاء الاصطناعي الجديدة هذه على أنها صناديق سوداء غامضة، فمن المستحيل توقع ما قد تفعله. من خلال تخصيص الوقت الكافي لاستكشاف كيفية عمل هذه التقنية فعليًا – بدءًا من مفاهيمها عالية المستوى وصولاً إلى الأسلاك الرقمية الأساسية – يمكننا فهم ما نتعامل معه. نحن نرسل الرسائل في الفضاء الإلكتروني ونتلقى ردودًا مفاجئة. لكن من الذي يردّ بالضبط؟
إذا كنت تريد أن تفهم تقنية تبدو معقدة فقد يكون من المفيد تخيل أنك ابتكرتها بنفسك. افترض أننا نريد بناء برنامج على غرار شات جي بي تي، برنامج قادر على الانخراط في محادثة طبيعية مع مستخدم بشري. أفضل نقطة للبدء هي الاطلاع على “النظرية الرياضية للتواصل”، وهي ورقة بحثية أساسية نشرها عالم الرياضيات كلود شانون سنة 1948. وتعد هذه الورقة البحثية، التي أسست بشكل أو بآخر تخصص نظرية المعلومات، مليئة بعلوم الرياضيات ولكنها تحتوي على قسم سهل الفهم يصف فيه شانون تجربة ذكية في توليد النصوص التلقائية.
استفادت طريقة شانون، التي لا تتطلب جهاز حاسوب، من البنية التحتية الإحصائية للغة الإنجليزية. بدأ باختيار كلمة المعرّف “الـ” كنواة لجملة جديدة. ثم فتح كتابًا من مكتبته، واختار صفحة عشوائية، وقرأ حتى اعترضته “الـ” في النص. في هذه المرحلة، كتب الكلمة التي جاءت بعد ذلك – التي صادفت كلمة “رأس”. ثم كرر العملية، واختار صفحة عشوائية جديدة، وقرأ حتى عثر على كلمة “رأس”، وكتب الكلمة التي تليها، وما إلى ذلك. من خلال البحث والتسجيل والبحث مرة أخرى، أنشأ مقطعًا نصيًا يبدأ، “هجوم الرأس والأمام على كاتب إنجليزي أن شخصية هذه النقطة هي بالتالي طريقة أخرى”. هذه الجملة لا معنى لها، لكنها بالتأكيد تحتوي على تلميحات من النص الصحيح نحويًا.
والطريقة الواضحة لتحسين هذه الاستراتيجية هي التوقف عن البحث عن كلمات مفردة، وبدلاً من ذلك استخدام سلاسل من الكلمات من الجملة التي تريد أن تثريها لتعرف ماذا ستضع بعد ذلك. وجدت عبر الإنترنت على برنامج بسيط قام بتطبيق هذا النظام بشكل أو بآخر باستخدام نص “فرانكشتاين” لماري شيلي. أعِدّ البرنامج للبحث باستخدام آخر أربع كلمات من الجملة التي كان يكتبها. بدأ بهذه العبارة المكونة من أربع كلمات “واصلت السير على” ووجد البرنامج كلمة “هذا”. وعند البحث عن العبارة الجديدة المكونة من أربع كلمات، “واصلت السير على هذا” وجد كلمة “النحو”. في النهاية، أنتج جملة سليمة بشكل لا يصدق: “لقد واصلت السير على هذا النحو لبعض الوقت، وكنت أخشى الآثار الشيطانية لخيبة أمل”.
من الناحية المثالية، نريد أن يلاحظ برنامجنا أهم الخصائص لكل طلب مستخدم، ثم استخدامها لتوجيه اختيار الكلمات وإنشاء استجابات لا تبدو طبيعية فحسب وإنما منطقية أيضًا.
عند تصميم برنامج الدردشة الافتراضي، سنستخدم نفس النهج العام لإنتاج ردود بكلمة واحدة في كل مرة من خلال البحث في نص المصدر عن مجموعات الكلمات التي تطابق نهاية الجملة التي نكتبها حاليًا. للأسف، لا يمكننا الاعتماد بالكامل على هذا النظام. وتكمن المشكلة في أنه سينتهي بنا المطاف إلى البحث عن عبارات لا وجود لها في النص المصدر. نحتاج إلى أن يعمل برنامجنا حتى عندما لا يتمكن من العثور على الكلمات الدقيقة التي يبحث عنها. تبدو هذه مشكلة صعبة – ولكن يمكننا إحراز تقدم إذا غيرنا نموذجنا من البحث إلى التصويت. لنفترض أن برنامجنا في طور إنشاء جملة تبدأ “للزائر صغير”، وأننا قمنا بتهيئتها لاستخدام الكلمات الثلاث الأخيرة – “لديه صغير” – لمساعدته على اختيار ما سيأتي بعد ذلك.
ستساعد إستراتيجية شانون على الحصول على نتاج الكلمة بعد تكرار كلمة “لديه صغير”. على النقيض من ذلك، سيقوم برنامجنا الأكثر تقدمًا بالبحث في كل نص عن كل تكرار للعبارة الهدف، مع التعامل مع كل مطابقة على أنها تصويت لأي كلمة تليها. وإذا تضمن النص المصدر الجملة “كان لديه مدة قصيرة للتصرف”، فسنجعل برنامجنا يولد تصويتًا لكلمة “مدة”؛ وإذا احتوى المصدر على “لديهم تبرعات صغيرة لتمويل البرنامج”، فسيقوم برنامجنا بالتصويت لكلمة “تبرّع”.
يتيح لنا نهج التصويت هذا الاستفادة من المطابقات التالية للعبارة. فعلى سبيل المثال، قد نرغب في أن تعطي العبارة “ماري لديها خروف صغير” برنامجنا نوعًا من التفضيل لكلمة “خروف”، لأن كلمة “كان لديها صغير” تشبه العبارة المستهدفة. يمكننا تحقيق ذلك باستخدام تقنيات راسخة لحساب تشابه العبارات المختلفة، ثم استخدام هذه الدرجات لتحديد أصوات متفاوتة القوة. تتلقى العبارات التي لها تطابق ضعيف مع الهدف أصواتًا ضعيفة، بينما يكون للمطابقة التامة أقوى الأصوات على الإطلاق. يمكن لبرنامجنا بعد ذلك استخدام الأصوات المجدولة لإدخال بعض التنوع على تحديداته عن طريق اختيار الكلمة التالية بشكل شبه عشوائي، مع اختيار الكلمات ذات التطابق الأقوى بشكل متكرر أكثر من الكلمات ذات التطابق الأضعف. وإذا تم تكوين هذا النوع من النظام بشكل صحيح – وتم تزويده بمجموعة غنية ومتنوعة من النصوص – فإنه قادر على إنتاج مقاطع طويلة من النثر الطبيعي للغاية.
إن إنتاج نص طبيعي لا يقودنا إلا إلى منتصف الطريق نحو التفاعل الفعال للآلة. يجب أن يفهم روبوت الدردشة أيضًا ما يطلبه المستخدمون نظرًا لأن طلب الحصول على ملخص قصير لمبدأ الريبة لهايزنبرغ يتطلب استجابة مختلفة عن طلب وصفة خالية من منتجات الألبان من ماك آند تشيز. من الناحية المثالية، نريد أن يلاحظ برنامجنا أهم الخصائص لكل طلب مستخدم، ثم استخدامها لتوجيه اختيار الكلمات وإنشاء استجابات لا تبدو طبيعية فحسب وإنما منطقية أيضًا.
هذا الطلب مثلًا من محادثة “شات جي بي تي” حقيقية وجدتها عبر الإنترنت: “اكتب النص الكامل لمشهد سينفيلد حيث يحتاج جيري إلى تعلم خوارزمية فرز الفقاعات”. نريد تزويد برنامج الدردشة لدينا بالقواعد التي تحدد أهم “ميزات” هذا الطلب مثل “نص سينفيلد” و”خوارزمية فرز الفقاعات” (وهي تقنية رياضية أساسية يتم تدريسها في الدورات التمهيدية لعلوم الحاسوب)، ثم إعداد البرنامج على كيفية تعديل التصويت على كلمات الاستجابة. في هذه الحالة، قد تطلب القواعد ذات الصلة من البرنامج زيادة قوة الأصوات للكلمات التي يجدها في نصوص المسرحية الهزلية أو مناقشات علوم الحاسوب.
على افتراض أن برنامجنا يحتوي على عدد كافٍ من هذه الأمثلة للاستفادة منها في نصوص المصدر، فمن المحتمل أن تنتج هذه الاستراتيجية مقطعًا صحيحًا نحويًا يتضمن الكثير من مراجع “سينفيلد” ومراجع من نوع خوارزمية فرز الفقاعات. لكن يمكن لشات جي بي تي القيام بعمل أفضل من هذا. لقد استجاب للطلب المتعلق بـ “سينفيلد” بكتابة مشهد تلفزيوني متماسك ومنظم جيدًا ومنسق بشكل صحيح تجري أحداثه في مقهى “مونك” ويركّز على شكوى جيري من كفاحه لتعلّم خوارزمية فرز الفقاعات. وقد نجح النص في تضمين نكتة مضحكة إلى حد معقول: بعد أن قال جورج لجيري إن خوارزمية فرز الفقاعات سهلة للغاية لدرجة أن “القرد” يمكن أن يتعلمها، أجاب جيري “حسنًا، أنا لست قردًا، أنا ممثل كوميدي”.
نواجه حاليًا مشكلة جديدة في تجربتنا الفكرية، وهي أن العدد الإجمالي للقواعد التي نحتاجها للتعامل مع جميع طلبات المستخدمين المحتملة سيكون هائلا. لا يمكن لأي مجموعة من البشر، بغض النظر عن مدى تفانيهم، الاستجابة لكامل الطلبات
لتحقيق هذا المستوى من الجودة، يحتاج برنامجنا إلى قواعد قادرة على اكتشاف الميزات بحساسية أكثر دقة. من المفيد معرفة أن الكلمة التي يبحث عنها حاليًا جزء من نص مسلسل هزلي، ولكن سيكون من الأفضل معرفة أن الكلمة جزء من نكتة ستقولها شخصية في نص مسرحي. يتيح هذا المستوى الإضافي من التفاصيل القواعد التي تعدل تخصيصات الأصوات بطريقة أكثر دقة من أي وقت مضى. فعلى سبيل المثال، يمكن للقاعدة الدقيقة لنكات المسرحية الهزلية أن تطلب من البرنامج الاحتفاظ بأقوى الأصوات للكلمات الموجودة في النكات الحقيقية الموجودة في النصوص المسرحية الهزلية الحقيقية. لهذا النمط من الفكاهة منطق خاص به ولكن – تمامًا كما استمدينا من قصة “فرانكشتاين” لإنتاج جملة قوطيّة – إذا استخلصنا من النكات الحقيقية عند إنشاء سطر حوار تلقائيًا يمكن لبرنامجنا أخذ عينات كافية من هذا المنطق لتوليد نص مضحك.
بالطبع، قد تكون بعض القواعد أبسط. إذا طُلب من برنامجنا أن يكتب عن “شطائر زبدة الفول السوداني”، فيمكنه دائمًا تعزيز التصويت لهذا المصطلح المحدد عندما يكون المصطلح مرشحا لما سيتم إنتاجه بعد ذلك. ويمكن دمج القواعد بطرق عشوائية لتوسيع إمكانات برنامجنا بشكل كبير، مما يسمح له بالكتابة عن موضوع معين بأسلوب محدد – وهو من الأساليب التي اشتهر بها شات جي بي تي.
نواجه حاليًا مشكلة جديدة في تجربتنا الفكرية، وهي أن العدد الإجمالي للقواعد التي نحتاجها للتعامل مع جميع طلبات المستخدمين المحتملة سيكون هائلا. لا يمكن لأي مجموعة من البشر، بغض النظر عن مدى تفانيهم، الاستجابة لكامل الطلبات؛ وإذا كان نظامنا يعمل بنفس جودة شات جي بي تي، فسيحتاج إلى مكتبة بورجيسيان مليئة بالقواعد المصممة لعدد لا حصر له من الموضوعات والسمات والأنماط والطلبات. لجعل هذه المهمة أكثر صعوبة، يمكن أن يكون التنفيذ الفعال حتى لقاعدة واحدة صعبًا للغاية.
ما الذي يشير إلى أن جملة معينة من النص هي جزء من نكتة مسرحية هزلية وليست جزءًا آخر من النص؟ من الممكن أن نتخيل محاكاة الأسلوب النثري في إنجيل الملك جيمس من خلال تحديد كلمات البحث على هذا المصدر المعروف جيدًا، ولكن أين يمكننا توجيه برنامجنا إذا طُلب منك الرد بأسلوب “فتاة ريفية من الثمانينات”؟ بالنظر إلى المجموعة الصحيحة من القواعد، يمكن أن ينتج عن روبوت المحادثة المبني على إنشاء نص بأسلوب شانون نتائج خارقة. لكن إنتاج نص باستخدام كل القواعد المطلوبة سيكون معجزة بحد ذاتها.
وجد علماء الحاسوب الذين يقفون وراء أنظمة مثل شات جي بي تي حلاً ذكيًا لهذه المشكلة، فلقد زودوا برامجهم بالقدرة على وضع قواعدهم الخاصة، من خلال دراسة العديد والعديد من الأمثلة للنصوص الحقيقية. يمكننا أن نفعل الشيء نفسه مع برنامجنا؛ حيث نبدأ بإعطائه كتاب قواعد ضخم مليء بالقواعد العشوائية التي لا تفعل أي شيء مثير للاهتمام، وسيحصل البرنامج بعد ذلك على مثال لمقطع من نص حقيقي؛ والذي سيكون مقطوعًا منه الكلمة الأخيرة؛ حيث سيقوم البرنامج بتغذية هذا المقطع المقتطع من خلال كتاب القواعد الخاص به، وفي النهاية سيخرج تخمينًا حول الكلمة التي يجب أن تأتي بعد ذلك. ويمكنه بعد ذلك مقارنة هذا التخمين بالكلمة الحقيقية التي تم حذفها، مما يسمح له بحساب مدى جودة عمل قواعده حاليًا.
على سبيل المثال؛ إذا كان البرنامج يغذي نفسه مقتطفًا من الفصل الثالث من “هاملت” الذي ينتهي بالكلمات “أكون أو لا أكون”، فإنه سيعرف أن الكلمة التالية الصحيحة هي “تكون”. وإذا كان هذا لا يزال في وقت مبكر من تدريب البرنامج، بالاعتماد على قواعد عشوائية إلى حد كبير، فمن غير المرجح أن ينتج هذه الاستجابة الصحيحة؛ وربما سينتج شيئًا لا معنى له، مثل “كلب”.
لكن هذا لا بأس به؛ لأنه نظرًا لأن البرنامج يعرف الإجابة الصحيحة – “يكون” – فيمكنه الآن دفع قواعده الحالية إلى أن تنتج استجابة أفضل قليلاً. مثل هذا التنبيه – الذي يتم إنجازه من خلال عملية حسابية دقيقة – من المرجح أن يكون صغيرًا، وسيكون الفرق الذي يحدثه طفيفًا. وإذا تخيلنا أن الإدخال الذي يمر عبر قواعد برنامجنا يشبه القرص الذي يدق أسفل لوحة “بلينكو” على “السعر مناسب”، فإن التنبيه يشبه إزالة ربط واحد؛ حيث سيتغير مكان هبوط القرص، ولكن بالكاد.
مفتاح هذه الإستراتيجية هو الحجم، فإذا أجبر برنامجنا نفسه – مرات كافية – على الاستجابة لمجموعة واسعة من الأمثلة، فسيصبح أكثر ذكاءً. وإذا أجريناها من خلال عدد كبير من التجارب بشكل غير معقول، فقد يطور مجموعة من القواعد الأكثر شمولاً وتعقيدًا من أي قواعد يمكن أن نأمل في كتابتها يدويًا.
الأعداد المعنية هنا ضخمة، فعلى الرغم من أن “أوبن إيه آي” لم تصدر العديد من التفاصيل التقنية منخفضة المستوى حول شات جي بي تي، فإننا نعلم أن جي بي تي – 3 – نموذج اللغة الذي يعتمد عليه شات جي بي تي – قد تم تدريبه على مقاطع مستخرجة من مجموعة هائلة من نماذج النصوص التي تتضمن الكثير من الجمهور عبر الإنترنت، وسمح هذا للنموذج بتعريف ودفع الكثير من القواعد، والتي تغطي كل شيء من نصوص “سينفيلد” إلى آيات الكتاب المقدس. وإذا تم طباعة البيانات التي تحدد البرنامج الأساسي لـ جي بي تي – 3 فستتطلب مئات الآلاف من الكتب متوسطة الطول لتخزينها.
ما أوضحناه – حتى الآن – هو الأفكار المفاهيمية التي تجعل من الممكن لبرنامج ما إنشاء نص بأسلوب وفهم رائعين تعرضهما أدوات مثل شات جي بي تي. ومع ذلك؛ إذا كنا نريد حقًا فهم هذه التقنية، فنحن بحاجة أيضًا إلى معرفة شيء ما حول كيفية تنفيذها على أجهزة الكمبيوتر الحقيقية. فعند إرسال طلب إلى شات جي بي تي؛ يتم تسليم النص الذي تكتبه في موقع “أوبن إيه آي” الإلكتروني إلى برنامج تحكم يعمل في مكان ما في مركز الحوسبة السحابية. في هذه المرحلة؛ يتم تجميع النص الخاص بك في مجموعة من الأرقام بطريقة تسهل على أجهزة الكمبيوتر فهمها والتعامل معها؛ حيث أصبح الآن جاهزًا للمعالجة بواسطة برنامج شات جي بي تي الأساسي، والذي يتكون من العديد من الطبقات المميزة، كل منها محدد بواسطة شبكة عصبية اصطناعية ضخمة.
سيتم تمرير إدخالك على طول هذه الطبقات بالترتيب – كما لو كان في نسخة رقمية من لعبة الهاتف – مع استخدام كل طبقة لشبكتها العصبية لتحديد الميزات ذات الصلة في النص، ثم التعليق عليها بملخصات لما اكتشفته للطبقات اللاحقة لكي تستخدمها. وتعتبر التفاصيل الفنية لكيفية عمل هذه الشبكات نوعًا زائدة عن المطلوب لغرض هذا المقال، وما هو مهم فهمه هو أنه عندما يتحرك الطلب عبر كل طبقة، فإنه يطلق عددًا كبيرًا من الحسابات الرياضية الغامضة التي – معًا – تنفذ شيئًا يشبه إلى حد ما نسخة مختلطة وعشوائية من التصويت بالكلمات القائم على القواعد الإستراتيجية العامة التي وصفناها للتو.
الناتج النهائي، بعد أن يصل إدخالك إلى كل هذه الطبقات، هو شيء يقترب من عدد الاحتمالات لكل كلمة تالية محتملة، ويستخدم برنامج التحكم هذه الأعداد لاختيار ما سيأتي بعد ذلك بشكل شبه عشوائي.
بعد كل هذا العمل؛ قمنا بتوليد كلمة واحدة فقط من استجابة شات جي بي تي؛ وسيقوم برنامج التحكم بإضافته على النحو الواجب إلى طلبك الأصلي وتشغيل هذا النص المطول قليلًا الآن عبر جميع طبقات الشبكة العصبية من البداية، لإنشاء الكلمة الثانية. ثم يقوم بذلك مرة أخرى، ومرة أخرى، حتى تحصل على إجابة كاملة للعودة إلى متصفح الويب الخاص بك.
هناك – بالطبع – مصطلحات تقنية مخدرة للعقل ومفاهيم معقدة كامنة وراء كل هذه المكونات الأساسية؛ حيث تسمى الطبقات في الواقع كتل المحولات، وهي تجمع بين الشبكات العصبية القياسية للتغذية الأمامية مع تقنية متطورة تُعرف باسم الانتباه الذاتي متعدد الرؤوس. لقد تخطينا أيضًا ابتكارًا رئيسيًا في الانتقال من جي بي تي – 3 إلى شات جي بي تي؛ حيث تمت إضافة نموذج تعليمي معزز جديد إلى عملية التدريب لمساعدة البرنامج على تعلم كيفية التفاعل بشكل أكبر مع الأشخاص.
يمكن كتابة أطروحات الدراسات العليا الكاملة في أي من هذه الموضوعات وسيتم كتابتها، ومع ذلك؛ لا يلزم استخدام أي من هذه المصطلحات لفهم أساسيات ما يحدث داخل أنظمة مثل شات جي بي تي، فيكتب المستخدم موجهًا في واجهة الدردشة، ثم يتم تحويل هذه المطالبة إلى مجموعة كبيرة من الأرقام، والتي يتم مضاعفتها بعد ذلك مقابل مليارات القيم الرقمية التي تحدد الشبكات العصبية المكونة للبرنامج، مما يؤدي إلى إنشاء سلسلة من الرياضيات المحمومة الموجهة نحو الهدف المتواضع المتمثل في توقع الكلمات المفيدة التي سيتم إخراجها بعد ذلك.
قد تكون نتيجة هذه الجهود مذهلة للغاية في دقتها وسرعتها، لكن خلف الكواليس يفتقر جيلها إلى الجلالة، فلقد تبين أن تألق النظام هو نتيجة أقل من شبح في الآلة بقدر ما هو نتيجة الاضطراب الذي لا هوادة فيه للمضاعفات اللانهائية.
نحن نعرف الآن ما يكفي للعودة، بثقة متزايدة، إلى سؤالنا الأصلي: ما نوع العقل الذي تم إنشاؤه بواسطة برنامج مثل شات جي بي تي؟
عند التفاعل مع هذه الأنظمة؛ لن يستغرق الأمر وقتًا طويلًا للانخراط في محادثة تصيبك بالقشعريرة، وربما تفاجأ بلحظة إنسانية خارقة، أو تشعر بالذهول من تعقيد الاستجابة. الآن بعد أن فهمنا كيف يتم تنفيذ هذه المآثر فعليًا، ومع ذلك، يمكننا أن نخفف من هذه التصورات؛ فنظام مثل شات جي بي تي لا يُنشئ بل يقلد، وعندما ترسل إليه طلبًا لكتابة آية توراتية حول إزالة شطيرة من جهاز فيديو، فإنه لا يشكل فكرة أصلية حول هذا اللغز؛ بدلاً من ذلك؛ يقوم بنسخ النص الموجود بالفعل، والذي تمت كتابته في الأصل بواسطة الذكاء البشري، ومعالجته ولصقه معًا، لإنتاج شيء يشبه كيف يتحدث شخص حقيقي عن هذه الموضوعات.
لهذا السبب؛ إذا قرأت دراسة الحالة التوراة – جهاز الفيديو بعناية فسوف تدرك قريبًا أن النصيحة المقدمة – على الرغم من كونها رائعة من حيث الأسلوب – إلا أنها لا تحل المشكلة الأصلية بشكل جيد؛ حيث يقترح شات جي بي تي لصق سكين بين الشطيرة وجهاز الفيديو “لفصلهما عن بعض”.
لا يحتفظ شات جي بي تي بأي حالة ثابتة، ولا يوجد نموذج لمحيطه يقوم بتعديله بمعلومات جديدة، ولا توجد ذاكرة للمحادثات السابقة.
حتى الطفل الصغير يمكنه أن يستنتج أن هذه التقنية لن تعمل بشكل جيد مع نصوص افتراضية غير منطقية. قد يكون الحل الواضح هو سحب الشطيرة، لكن شات جي بي تي ليس لديه تصور فعلي عما تتحدث عنه، فلا يوجد نموذج داخلي لشطيرة عالقة يمكنها تجربة إستراتيجيات مختلفة للإزالة. الذكاء الاصطناعي هو مجرد إعادة مزج وإعادة دمج الكتابة الموجودة ذات الصلة بالموجه.
تظهر روايات مماثلة في نص “سينفيلد” الذكي حول خوارزمية من نوع الفقاعة؛ اقرأها حتى النهاية، وستكتشف شخصيات تتحدث بأسلوب غير متسلسل: إيلين – بدون سبب محدد – تطلب سلطة دجاج من نادل عابر، وهذا يوصف بأنه يسبب “ضحك الجمهور”؛ حيث لا يفهم شات جي بي تي الفكاهة بأي معنى أساسي، لأن شبكاته العصبية عبارة عن شفرات فقط ما يفترض أن يبدو عليه نص المسرحية الهزلية.
فكرة أن برامج مثل شات جي بي تي قد تمثل شكلًا معترفًا به من الذكاء تقوضها تفاصيل بنيتها؛ حيث يعتمد الوعي على قدرة الدماغ على الحفاظ على مفهوم محدث باستمرار لنفسه ككيان متميز يتفاعل مع نموذج من العالم الخارجي. ومع ذلك؛ فإن طبقات الشبكات العصبية التي تشكل أنظمة مثل شات جي بي تي ثابتة: بمجرد تدريبها، فإنها لا تتغير أبدًا. لا يحتفظ شات جي بي تي بأي حالة ثابتة، ولا يوجد نموذج لمحيطه يقوم بتعديله بمعلومات جديدة، ولا توجد ذاكرة للمحادثات السابقة.
إنها تقوم فقط بإخراج الكلمات واحدة تلو الأخرى، استجابةً لأي مدخلات يتم تقديمها، مع تطبيق نفس القواعد بالضبط لكل فعل ميكانيكي للإنتاج النحوي، بغض النظر عما إذا كانت هذه الكلمة جزءًا من وصف إصلاح جهاز الفيديو أو نكتة في المسرحية الهزلية النصي. ليس من المنطقي أن نتحدث عن شات جي بي تي ككيان فريد؛ حيث يوجد بالفعل العديد من نسخ البرنامج قيد التشغيل في وقت واحد، وكل واحدة من هذه النسخ مقسمة على عدة معالجات متميزة (حيث إن البرنامج الإجمالي كبير جدًا بحيث لا يتناسب مع ذاكرة جهاز واحد)، والتي من المحتمل أن تعود إلى الوراء وإيابًا سريعًا بين خدمة العديد من تفاعلات المستخدم غير ذات الصلة.
تعاني هذه البرامج من أزمة الثقة: فهي مصممة لإنتاج نص يبدو صحيحًا، لكن لديها قدرة محدودة على تحديد ما إذا كان ما تقوله صحيحًا
توفر هذه الملاحظات مجتمعة أخبارًا جيدة لأولئك الذين يخشون أن يكون شات جي بي تي مجرد عدد صغير من التحسينات التكنولوجية بعيدًا عن أن تصبح مثل شخصية “هال”، من فيلم “2001: أوديسة الفضاء“. من الممكن أن الذكاء الاصطناعي الخارق يمثل تهديدًا يلوح في الأفق، أو أننا قد نحاصر يومًا ما عن طريق الخطأ كيانًا مدركًا لذاته داخل جهاز كمبيوتر، ولكن إذا ظهر مثل هذا النظام، فلن يكون في شكل نموذج لغوي كبير.
حتى لو لم يكن شات جي بي تي ذكيًّا، ألا يمكنه أن يأخذ الوظائف التي نعمل بها؟ يمكن أن يساعدنا فهمنا الجديد لكيفية عمل هذه البرامج أيضًا في معالجة هذا الخوف الواقعي. بناءً على ما تعلمناه حتى الآن، يبدو أن وظائف شات جي بي تي محدودة، إلى حد ما، للكتابة حول مجموعات من الموضوعات المعروفة باستخدام مجموعة من الأساليب المعروفة، حيث تعني كلمة “معروف” أن البرنامج واجه موضوعًا أو نمطًا معينًا مرات كافية أثناء تدريبه؛ على الرغم من أن هذه القدرة يمكن أن تتضاعف.
من الأمثلة اللافتة للانتباه، أنه من غير المحتمل أن تؤدي التكنولوجيا في شكلها الحالي إلى إحداث اضطراب كبير في سوق العمل، فالكثير مما يحدث في المكاتب، على سبيل المثال، لا ينطوي على إنتاج نص، وحتى عندما يكتب العاملون في مجال المعرفة، فإن ما يكتبونه غالبًا ما يعتمد على الخبرة الصناعية وفهم الشخصيات والعمليات الخاصة بمكان عملهم. في الآونة الأخيرة؛ تعاونتُ مع بعض الزملاء في جامعتي في رسالة بريد إلكتروني تمت صياغتها بعناية، لتوضيح نقطة محيرة حول عملية تعيين أعضاء هيئة التدريس في مدرستنا، والتي كان يجب إرسالها إلى الشخص المناسب تمامًا في مكتب العميد.
لا يوجد شيء في التدريب الواسع لـ”شات جي بي تي” يمكن أن يساعدنا في إنجاز هذه المهمة الضيقة. علاوة على ذلك؛ تعاني هذه البرامج من أزمة الثقة: فهي مصممة لإنتاج نص يبدو صحيحًا، لكن لديها قدرة محدودة على تحديد ما إذا كان ما تقوله صحيحًا. كان على لوحة رسائل المطورين الشهيرة “ستاك أوفر فلو” أن تحظر الإجابات التي تم إنشاؤها بواسطة شات جي بي تي لأنها – على الرغم من أنها بدت مقنعة – إلا أنها كانت “بنسبة عالية غير صحيحة”. ومن المفترض أن يتردد معظم أصحاب العمل في الاستعانة بمصادر خارجية لوظائف خرافية غير نادمة.
من الصعب التكهن بالضبط بكيفية دمج هذه النماذج اللغوية الكبيرة في حياتنا في المستقبل، ولكن يمكننا التأكد من أنها غير قادرة على وضع خطط شيطانية، ومن غير المرجح أن تقوض اقتصادنا
هذا لا يعني أن نماذج اللغات الكبيرة لن تحتوي على أي تطبيقات احترافية مفيدة، بل يكاد يكون من المؤكد أنهم سيفعلون. ولكن نظرًا للقيود المفروضة على هذه التقنيات؛ فمن المرجح أن تكون التطبيقات أكثر تركيزًا وتفصيلاً مما يعتقده الكثيرون.
لن يحل شات جي بي تي محل الأطباء، ولكنه قد يجعل وظائفهم أسهل عن طريق إنشاء ملاحظات المريض تلقائيًا من إدخالات السجلات الطبية الإلكترونية، ولا يستطيع شات جي بي تي كتابة مقالات قابلة للنشر من البداية، لكنه قد يزود الصحفيين بملخصات للمعلومات ذات الصلة، مجمعة في تنسيق مفيد.
يعد تقليد الكتابة البشرية الحالية باستخدام مجموعات عشوائية من الموضوعات والأساليب إنجازًا مثيرًا للإعجاب، فلقد تطلب الأمر دفع تقنيات متطورة إلى حدود قصوى جديدة، وأعاد تعريف ما تخيله الباحثون أنه كان ممكنًا باستخدام نماذج النصوص التوليدية. ومع إدخال جي بي تي – 3، الذي مهد الطريق للجيل القادم من روبوتات المحادثة التي أثارت إعجابنا في الأشهر الأخيرة؛ ابتكرت شركة “أوبن إيه آي”، على ما يبدو دفعة واحدة، قفزة كبيرة إلى الأمام في دراسة الذكاء الاصطناعي.
ولكن بمجرد أن نأخذ الوقت الكافي لفتح الصندوق الأسود ونتحرك حول الينابيع والتروس الموجودة بالداخل، نكتشف أن برامج مثل شات جي بي تي لا تمثل ذكاءً فضائيًا يجب علينا الآن أن نتعلم التعايش معه؛ بدلاً من ذلك، فهي تتحول للعمل على المنطق الرقمي البالي لمطابقة الأنماط، مدفوعين إلى نطاق أكبر بشكل جذري.
من الصعب التكهن بالضبط بكيفية دمج هذه النماذج اللغوية الكبيرة في حياتنا في المستقبل، ولكن يمكننا التأكد من أنها غير قادرة على وضع خطط شيطانية، ومن غير المرجح أن تقوض اقتصادنا؛ إن شات جي بي تي أمر مذهل، ولكن في المحاسبة النهائية، من الواضح أن ما تم إطلاقه هو آلي أكثر من كونه مخلوقًا خرافيًا مثل “جولم”.
المصدر: ذا نيويوركر