روبوت يُطابق حركة الشفاه يقترب من عبور «الوادي المخيف»

نشر في 04-07-2021

عندما صادفت الخوارزمية «صوتاً مألوفاً لها» كانت قادرة على تحريك نظام الفم الروبوتي لمطابقة الوضعيات

ضمن مقابلة نشرتها مجلة مدار، ذكر د. كارل ستراذرن، أن الباحثين استخدموا مزيجاً من تركيب الكلام وتعلّم الآلة وتقنيات الطباعة الثلاثية الأبعاد لتصميم روبوت يحاكي بدقة الحركات الطبيعية للفك البشري والشفتين واللسان.
وإلى التفاصيل:

• ما الذي تعنيه عبارة الوادي المخيف؟

- الفجوة المخيفة، أو ما يصطلح على تسميته "الوادي المخيف" Uncanny valley، هي نقطة يطغی علينا عندها شعور مخيف عندما نرى أشياء مثل الروبوتات ذات البنية البشرية Humanoid robots والصور أو الشخصيات المنشأة باستخدام الحاسوب Computer-Generated Imagery (اختصاره: برمجية CGI). ويعود السبب في ذلك إلى أنها ليست نسخا مثالية عن البشر، فهي لا تصل تماما إلى ذاك الحد، لذا فإنها تشعرنا بمزيج من الرعب وعدم الارتياح والاشمئزاز.

منذ ولادتنا لدينا القدرة على التعرف إلى الوجوه وتحليلها. فالوجوه تؤدي دورا مهما جدا في التواصل فيما بيننا. عندما نبدأ في رؤية أشياء ينبغي ألا تكون موجودة، أشياء في غير محلّها، يغمرنا ذاك الشعور بالنفور، والأمر لا يقتصر على مظهرها الخارجي، بل على الوظائف التي تؤديها. إنها على سبيل المثال الطريقة التي تتحرك بها الروبوتات. إذا لم يتحرك الروبوت بالطريقة التي نتوقعها منه، فإنّ هذا يثير فينا مجددا ذاك الشعور بأن الأمر غير طبيعي ويبعث على عدم الارتياح.

• يركز عملك على مطابقة حركات الوجه مع الحديث. لماذا يؤدي ذاك دورا مهما في هذا الأمر؟

- المجالان الرئيسان في نظرية "الوادي المخيف" هما العينان والفم. عندما تتواصل، يتنقل انتباهنا بين العينين والفم. ننظر إلى العينين لجذب الانتباه، وننظر إلى الفم لقراءة الكلام وفهمه. ومع الروبوتات على وجه الخصوص، أي شيء خارج نطاق حركات الشفاه الطبيعية يمكن أن يكون مربكا لنا ومحيرا، خاصة إذا كنا نتفاعل معها على مدى فترة زمنية طويلة.

• كيف بدأ المشروع؟

- عندما بدأت بالعمل على هذا المشروع، كنت أساعد في التدريس بقسم الرسوم المتحركة بالجامعة السابقة التي كنت فيها، لأنّه لم يكن فيها قسم الروبوتيات. ذاك هو المكان الذي بدأت فيه هذه الأفكار تتشكّل. يستخدمون برامج يسمى أحدها أوكولوس Oculus، وهو أساسأ يأخذ الكلام ويحوّله إلى صورة فم منشأة باستخدام برمجية CGI مع وضعيات الشفاه. لذلك يتولى البرنامج تلقائيا قراءة الكلام واستخراج الصور الصوتية، أو ما يسمى "الفيزيم" Viseme (الشكل الذي تتخذه الشفاه عند نطق صوت ما) لوضعيات الفم، وأردف: أنا أفعل ذلك باستخدام الروبوت. لذلك صممت فما آليا له هيئة الفم البشري.

لكن قبل أن أفعل ذلك، نظرت إلى أنظمة الفم الروبوتية السابقة لأرى ما ينقصها. وكان ذلك مهمة حقا لمعرفة ما العضلات الرئيسة، والعضلات التي تعمل معا، وما يمكن الاستغناء عنه في هذا الفم.

من الواضح أنه حيّز صغير جدا وأنت مقيد بما عمّا يمكنك وضعه في فم روبوتي. أحد الأشياء الرئيسة الناقصة كان شيئا يسمّى العضلات المبوقة

Buccinator muscles، وهي العضلات الموجودة في زوايا الفم وتستخدم في زمّ الشفاه ومطّها عند لفظ حروف العلة أو الحروف الساكنة. لذلك عمدت إلى تقليد هذه العضلات وصممت نموذج أولية روبوتية للفم.

• من أين جاءت البرمجية؟

- قلت لنفسي: "حسنا، المرحلة التالية هي إنشاء تطبيق يمكنه أن يأخذ أشكال الشفاه هذه ويضعها في هذا الفم الروبوتي". لذا استخدمنا شيئا يسمى الرسم البياني للصور الصوتية Viseme chart. إنه شيء يستخدم كثيرا في الصور المنشأة بواسطة الحاسوب أو برمجية CGI لدى تصميم الألعاب، إنها في الأساس قائمة من الأصوات وأشكال الفم المطابقة لها - وجعلت النموذج الروبوتي يقلّد هذه الأشكال. لكل صوت - Ahs, Rs, Oos - حصلت على وضعيات الفم الروبوتية هذه. وجمعتها وحفظتها في ملف إعدادات حتى أتمكن من تمثيلها لاحقا واستخدامها.

كان الجزء التالي هو إنشاء نظام يمكنه إنتاج الكلام (ليس فقط الأصوات البسيطة البحتة). لكنني أردت أن أجعله يفعل ذلك في الوقت الفعلي، لذلك لم يكن هناك مجال لإعطائه وقتا للمعالجة Processing. إذا كنت تستخدم وقتا للمعالجة فسيكون الناتج حديثا غير طبيعي، نظرا إلى وجود كثير من فترات التوقف في المحادثة. لذلك أنشأت خوارزمية لتعلّم الآلة Machine-learning algorithm لتحويل توليف الكلام، وهو كلام روبوتي كما هي الحال مع سيري Siri، من الحاسوب المحمول إلى معالج دقيق Microprocessor حوّل البيانات الصوتية من جديد إلى بيانات رقمية. كما حولت الخوارزمية جزءا منه أيضا إلى نظام معالجة، حيث يمكنني بالفعل رؤية الموجة الصوتية كما نراها في استديو التسجيل.

• هل يمكنك إخباري بمزيد عن عمل النظام؟

- لقد أنشأت خوارزمية للتعلم الآلي يمكنها التعرف على الأنماط في الكلام الوارد. لم يحدث ذلك بمراقبة الكلام نفسه، ولكن الأنماط في شكل الموجة. إذن أنت تنظر إلى حجم البكسل Pixel size، وطول كل كلمة وكل صوت، ثم تغذي النظام بمجموعة من العيّنات. بهذه الطريقة عرف النظام نوعا ما كان يبحث عنه. وعندما وجد صوتا مألوفاً له، كان قادراً على تحويل نظام الفم الروبوتي ليتوافق مع الوضعيات التي طابقتها معه على الرسم البياني. نجح ذلك جيدا وبنحو مدهش.

الشيء التالي كان ما أسميه نظام تنميط الصوت Voice -patterning system الذي يعمل مع المقاطع الصوتية، من الواضح أنك عندما تتحدث، يتحرك فكك إلى الأعلى وإلى الأسفل في وقت متناسب مع المقاطع الصوتية. لذلك كانت تلك هي المرحلة التالية لإنشاء نظام تنميط الصوت هذا، والذي يعني أنه إذا لم يكن هناك صوت فسيغلق الفم، وكلما زاد ارتفاع الصوت، اتّسع الفم.

• كيف اخترت مظهر الروبوت؟

- حسنا، يوجد بالفعل روبوتان في التجربة، أحدهما يبدو أكبر سنا والآخر یبدو أصغر سنا. لا يحظى الروبوت الأصغر بالقدر نفسه من الاهتمام، لأنني أعتقد أن الروبوت الأكبر سنا یبدو واقعيا أكثر. لكنني أنتجتهما على أساس أن يكون أحدهما نسخة أصغر سنا من الآخر. لذا فالروبوتان متشابهان تقريبا.

أردت أن أقارن كيف يتفاعل الناس مع روبوت يبدو أكبر سنا وآخر أصغر سنا. ما وجدته هو أن الشباب فضّلوا التفاعل مع الروبوت الأصغر سنّا، في حين فضل كبار السن التفاعل مع الآخر.

كما أنني أسبغت على كل منها شخصية. فقلت لنفسي، حسنا، ما زلت شابة، لذا سأبني شخصية الأصغر سنا لتكون مشابهة لشخصيتي. وأنا أعرف والدي جيدا، وهو أكبر سنا، لذلك صممت الآخر ليشبهه. جعلت الروبوت الأصغر يهتم بما أهتم به، والروبوت الأكبر سنا يهتم بالسنوکر.

• ما التطبيقات المحتملة لهذا النوع من العمل؟

- أنا دائما أستخدم شخصية داتا Data من مسلسل استارتريك Star Trek كنموذج مثالي له، لأنّه يتصرف وكأنه واجهة شبه إنسانية تماما بين عديد من الأشياء المختلفة: بشر وكائنات فضائية - بديهي كائنات فضائية لا تتحدث الإنكليزية، لذا فهو يعمل مترجما. لكنه يعمل أيضأ حلقة وصل بين حاسوب السفينة والبشر.

لذلك، الأشياء التي قد تكون صعبة جدا على البشر، على سبيل المثال الحسابات، يمكنه ترجمة تلك المعلومات وتفسيرها بطريقة مبسطة - طريقة بشرية، مع إظهار بعض العاطفة في تعبيرات الوجه. وهذا ما أعتقد أن هذه التكنولوجيا ستتجه نحوه في النهاية.

علينا أن نتذكر أنه لا يمكن للجميع التفاعل مع التكنولوجيا بنحو فعال. نحن محظوظون جدا، على ما أعتقد، لأننا نشأنا مع التكنولوجيا وقادرون على استخدامها. لكنّ هناك كثيرين في العالم ممن لا يتاح لهم ذلك، لذا فإنّ إنشاء شيء مثل روبوت شبيه بالإنسان سيسمح لهم بالتعامل مع التكنولوجيا بنحو طبيعي أكثر بكثير.

- د. كارل ستراذرن هو زميل باحث في كلية الحوسبة بجامعة إدنبرة نابير.

حاوره جیسون غوديير أصغر، وهو أحد المحررين في .BBC Science Focus

• المصدر: مجلة مدار

** سلسلة مقالات تنشر بالتنسيق مع التقدم العلمي للنشر.

تابع قراءة الموضوع عبر الموقع الإلكتروني:

www.aspdkw.com

الأجهزة والبرمجيات الجديدة تمكّن الروبوت من تقليد حركات الفم البشرية على نحو أفضل