ترجمة وتحرير نون بوست
سوف يكبر أطفال اليوم، ومستقبلا سيعتقدون أن لوحة المفاتيح عبارة عن أداة من الأدوات السابقة لعهد الطوفان مثل المعداد للحساب أو أداة مخض الزبدة، التي قد تعترضهم في حياتهم فقط إذا ما كانت مثبتة على الحائط في أحد مطاعم “تي جي آي فرايديز”.
في الحقيقة، تهيمن آلية الصوت على طريقة تفاعلنا مع التكنولوجيا وكيفية تعاطينا مع الكلمات التي نروم دمجها في صلب هذه التكنولوجيا، مع العلم وأنه كان من المفترض أن يحدث هذا الأمر منذ زمن بعيد. وبالعودة إلى سنة 1998، كتبت عمودا في صحيفة “يو أس أي توداي”، أوردت من خلاله أن “تكنولوجيا التعرف على الصوت تبدو جاهزة لتغيير العالم”.
في المقابل، اعتقدت أنه عندما أشرت إلى “اثنين من الأقراص الدوارة وميكروفون”، أثناء الحديث عن آخر وأحدث برمجية التعرف على الكلام، كنت أخال نفسي أتحدث عن “اثنين من الملصقات ومخروط من المثلجات”. وقد تبين أن هذا الأمر سابق لأوانه بحوالي 20 سنة.
في الأثناء، باتت تكنولوجيا التعرف على الصوت قيد الاستخدام في الوقت الراهن. وقد كانت مايكروسوفت وغوغل وأمازون وآي بي أم وبايدو ومجموعة من الشركات الناشئة تعمل بخطى حثيثة لإنشاء برنامج ذكاء اصطناعي، قادر على فهم خطاب دقيق ومن ثم تقديم رد متماسك.
تعمد تقنية التعرف على الكلام التابعة لغوغل إلى تعلم لغات البشر بنسق سريع. وفي أغسطس/آب، تمت إضافة 3 لغات جديدة على غرار اللغة الأذربيجانية واللغة الجاوية، ليصل مجموع اللغات إلى 199 لغة
في أواخر السنة الماضية، أكدت شركة مايكروسوفت أن تكنولوجيا التعرف على الكلام الخاصة بها قد بلغت مستوى فهم يرقى إلى المستوى ذاته مثل الإنسان، حيث تراجع “معدل الخطأ في الكلمة” إلى 5.9 بالمائة. وتجدر الإشارة إلى أن هذا المعدل يعد مماثلا لنسبة الخطأ التي ارتكبها الأشخاص الذين كتبوا المحادثة عينها، فضلا عن أنه أفضل بكثير من معدل الخطأ في الكلمة خلال محادثة بين أحد الوالدين وابنه المراهق.
مديرون تنفيذيون في مجال التكنولوجيا في معرض الإلكترونيات الاستهلاكية في لاس فيغاس سنة 2017. تقوم العديد من الشركات بصنع برامج الذكاء الاصطناعي التي يمكنها فهم خطاب دقيق وتقديم رد متناسق.
في الواقع، تعمد تقنية التعرف على الكلام التابعة لغوغل إلى تعلم لغات البشر بنسق سريع. وفي أغسطس/آب، تمت إضافة 3 لغات جديدة على غرار اللغة الأذربيجانية واللغة الجاوية، ليصل مجموع اللغات إلى 199 لغة. أما بالنسبة لتقنية آي بي أم واطسون، فقد أصبحت معروفة على صعيد عالمي بتفاعلها مع البشر. ومما لا شك فيه أنك قد شاهدت إعلان آي بي أم الذي يتحدث خلاله بوب ديلان مع تقنية آي بي أم للتعرف على الكلام. وعلى الرغم من أنه مجرد إعلان، إلا أن إدراك مدى إمكانية فهم الجهاز لما يقوله ديلان، يعتبر سابقة من نوعها وأمرا رائدا في مجال التكنولوجيا.
من هذا المنطلق، تتنافس الشركات بين بعضها البعض حتى تتهيأ لتدفق التجارة الإلكترونية المدمجة مع خاصية تكنولوجيا التعرف على الكلام. وفي هذا الصدد، تعمل شركة أمازون على أن تتمكن من إدخال تطبيق أليكسا إلى بيتك، وذلك حتى تعتاد على التسوق بمجرد مخاطبة التطبيق. وفي أغسطس/آب، أعلنت كلا من وول مارت وغوغل عن الدخول في شراكة ستسمح لمستخدمي جهاز غوغل هوم من توظيف الصوت للتسوق مباشرة من أكبر متاجر التجزئة في العالم.
في هذا الصدد، أفاد مارك لور، المدير التنفيذي لشركة وول مارت للتجارة الإلكترونية في الولايات المتحدة الأمريكية، قائلا: “نحن نحاول مساعدة مستخدمي المتاجر الإلكترونية على التسوق بطرق لم يتخيلوها قط”. وفي كل متاجر التجزئة، أصبح التسوق عبر تطبيقات روبوت الدردشة على غرار وي تشات وكيك وهيبمونك بمثابة صيحة متداولة. ووفقا لشركة كومسكور، ستعتمد نصف عمليات البحث على استخدام الصوت بحلول سنة 2020، حيث تعد عملية البحث الخطوة الأولى للمستهلك نحو القيام بعملية الشراء.
قام جهاز البحث التابع للجيش الأمريكي، وكالة مشاريع البحوث المتطورة الدفاعية، بتمويل برنامج ضخم في مجال التعرف على الكلام، الذي بلغت قدرة استيعابه حوالي 1000 كلمة
منذ أن قامت شركة آبل بطرح “سيري” سنة 2011، توقعنا أن هواتفنا ومختلف التطبيقات ستفهم الاستفسارات التي ننطق بها، وهو ما يعتبر إنجازا ضخما بعد عقود عديدة من المحاولة. ويذكرنا هذا الأمر بنقطة التحول التي وقعت في بداية سنة 1910، عندما أخذ الأشخاص يؤمنون حقا بإمكانية طيران الطائرات فعليا.
من جانبها، قامت شركة آي بي أم بعرض أول جهاز للتعرف على الصوت، الذي يعرف “بشو بوكس”، في المعرض العالمي لسنة 1962 في مدينة سياتل. وفي الأثناء، كان هذا الجهاز قادرا على فهم 16 لغة فضلا عن الأعداد من 1 إلى 9 والتعليمات مثل “زائد” “وناقص”، علاوة على القيام بعمليات رياضية بسيطة وطباعة النتيجة.
خلال سبعينات القرن الماضي، قام جهاز البحث التابع للجيش الأمريكي، وكالة مشاريع البحوث المتطورة الدفاعية، بتمويل برنامج ضخم في مجال التعرف على الكلام، الذي بلغت قدرة استيعابه حوالي 1000 كلمة. وخلال الثمانينات، شارك جيمس بيكر، أستاذ في جامعة كارنيغي ميلون، في تأسيس أنظمة دراغون بالاستناد إلى أبحاثه حول تقنية التعرف على الصوت.
في سنة 1990، بلغت تكلفة أول منتج لتلقي خاصية الإملاء ضمن أنظمة دراغون 9.000 دولار أمريكي، إلا أن هذا المنتج سبب الإحباط لمعظم المستخدمين. في سنة 1998، عمدت إلى الاطلاع على أبحاث شركة آي بي أم للتحقق من التقدم الذي تم إحرازه في هذا المجال، واكتشفت أن تقنية التعرف على الكلام لم تكن جيدة بما يكفي للاستخدام اليومي.
وفي هذا السياق، لسائل أن يسأل: لماذا تحسنت التكنولوجيا بشكل كبير فجأة؟ منذ سنة 2007، سمحت موجة الأجهزة النقالة والحوسبة السحابية لمراكز البيانات الضخمة التي تديرها عمالقة التكنولوجيا على غرار غوغل وأمازون بتعلم لغة من بين مئات المليارات من المحادثات حول العالم.
وفي كل مرة تخاطب فيها تطبيق أليكسا أو واتسون، يتعلم النظام المدرج في هذه التطبيقات أكثر كيفية قول الأشخاص للعديد من الأمور، وذلك نظرا لأن مثل هذه البرامج يمكنها التعلم. وبالتالي، لا حاجة لأي شخص لإدخال البيانات في صلب هذه البرامج حول كل كلمة عامية أو لهجة معينة. وعلى هذا المنوال، سوف تستمر البرامج في التحسن، وسرعان ما ستكون قادرة على فهم خطاباتنا حتى أفضل من الإنسان العادي.
تقوم غوغل بشكل كبير بإضافة لغات الدول النامية، حيث تعتبر ذلك سبيلا للوصول إلى المستهلكين
من هذا المنطلق، يمكن لهذا الأمر أن يساهم في تغيير العالم بشكل جذري. وفي الأثناء، قد يكون التسوق من أول المجالات التي سيشملها هذا التطور. في المقابل، تتمتع هذه التكنولوجيا بالقدرة على تغيير طريقة تفكيرنا أيضا. ففي الواقع، انحصر تفكير العديد من الأجيال بشأن تجربة اللمس على لوحة المفاتيح والفأرة.
“لكنه سيتعين علينا التفكير بأفواهنا، إذ أن العملية الإبداعية بصدد التحول”، وذلك وفقا للنظرة الاستباقية التي أمدني بها جويل جولد، أحد المسؤولين عن أنظمة دراغون، سنة 1998. وبشكل ما، يعيدنا هذا الأمر إلى الطريقة التي كان من المفترض أن تعمل بها أدمغتنا، أي الطريقة التي فكر بها البشر وأنتج بها العديد من الأمور وذلك لآلاف السنين، قبل اختراع الأقلام والآلات الكاتبة والمعالجة للنصوص.
في عالم صناعة الخطاب، لم تعد الأمية تشكل عائقا أمام الحصول على حياة كريمة. وفي هذا السياق، تقوم غوغل بشكل كبير بإضافة لغات الدول النامية، حيث تعتبر ذلك سبيلا للوصول إلى المستهلكين، أي 781 شخصا أميا، الذين لم تتح لها الفرصة للتعامل معهم. فبمجرد التحدث إلى هاتف من نوع رخيص، يمكن لهذه الفئة من الأشخاص الاشتراك في الخدمات الاجتماعية والحصول على حساب في البنك أو على الأقل مشاهدة مقطع فيديو.
على ضوء هذه المعطيات، سوف تؤثر التكنولوجيا على الأمور بطرق غريبة وبصفة تدريجية أيضا. فعلى سبيل المثال، استمعت مؤخرا، خلال مؤتمر، إلى رئيس أمازون ميوزيك، ستيف بوم، وهو يتحدث عن التأثير الذي ستحدثه أليكسا على الصناعة. ومن هذا المنطلق، أخذت المجموعات الغنائية تدرك أنه ينبغي عليها اختيار أسماء يمكن للأشخاص نطقها بسهولة.
في الواقع، على الرغم من المستوى المتقدم الذي وصلت إليه التكنولوجيا في الوقت الراهن، لا يزال الكثير لتتعلمه عن طريقة وأسلوب البشر في الحديث. في الحقيقة، عندما سئلت أليكسا عن “قرصين دائرين وميكروفون”، أجابتني قائلة: “امم، لست متأكدة من ذلك”. لكن على الأقل، لم تتحدث عن مخروط المثلجات.
المصدر: نيوزويك الأمريكية