كشفت غوغل في مارس/آذار الماضي النقاب عن ميزة "لايف كابشنز" (Live Captions) على متصفحات "كروم"، وهي الأداة التي تستخدم التعلم الآلي لإنشاء ترجمة فورية على أي مقطع فيديو أو مقطع صوتي، مما يوفر للأشخاص الصم وضعاف السمع إمكانية وصول أكبر إلى محتوى الإنترنت.

في الماضي، كانت الترجمة المكتوبة إما مبرمجة مسبقًا لتنسيقات الفيديو، أو كان هناك كاتب يكتب تعليقًا فوريًّا يتم بثه على التلفزيون، أما حاليا فستغير ميزة "لايف كابشنز" هذا الوضع من خلال بضع نقرات على الشاشة، حيث سيكون من الممكن لأي مستخدم الحصول على ترجمات فورية ودقيقة للصوت والفيديو.

تعد "لايف كابشنز" من غوغل نوعًا من تقنيات معالجة اللغات الطبيعية أو البرمجة اللغوية العصبية، وهي شكل من أشكال الذكاء الاصطناعي الذي يستخدم الخوارزميات لتسهيل "تفاعل" من نوع ما بين الأشخاص والآلات، وتساعدنا البرمجة اللغوية العصبية على فك تشفير اللغات البشرية إلى لغات الآلة.

تاريخ الحوسبة الذكية

لفهم تاريخ البرمجة اللغوية العصبية، علينا أن نعود إلى أحد أكثر العلماء إبداعًا في العصر الحديث؛ آلان تورينج. ففي عام 1950، نشر تورينج "آلات الحوسبة والذكاء"، التي ناقشت فكرة أجهزة الحاسوب الواعية والمفكرة، وادعى أنه لا توجد حجج مقنعة ضد فكرة أن الآلات يمكن أن تفكر مثل البشر، واقترح "لعبة التقليد"، المعروفة الآن باسم "اختبار تورينج"، واقترح طريقة لقياس إذا كان بإمكان الذكاء الاصطناعي التفكير بمفرده أو لا، وإذا كان بإمكانه خداع الإنسان بشكل صحيح للاعتقاد بأنه إنسان لديه احتمالية معينة، فيمكن اعتباره ذكيًّا.

وكتب العالم الألماني جوزيف وايزنباوم بين عامي 1964 و1966 خوارزمية البرمجة اللغوية العصبية، المعروفة باسم إليزا (ELIZA)، التي استخدمت تقنيات مطابقة الأنماط لإنشاء محادثة. على سبيل المثال، في النص البرمجي لمحادثة مع حاسوب "طبيب"، إذا قال مريض للحاسوب "رأسي تؤلمني" فسيستجيب الحاسوب الطبيب بعبارة مشابهة مثل "لماذا تؤلمك رأسك؟" وتعط "إليزا" الآن واحدة من أقدم روبوتات المحادثة.

كانت الثمانينيات نقطة تحول رئيسية في إنتاج البرمجة اللغوية العصبية؛ ففي الماضي شكلت أنظمة البرمجة اللغوية العصبية -مثل إليزا- محادثات بالاعتماد على مجموعة معقدة من القواعد، ولم يكن بإمكان الذكاء الاصطناعي "التفكير" بنفسه، وبدل ذلك كان يشبه إلى حد ما روبوت المحادثة، واستخدم ردودًا "معلبة" لتناسب السياق.

 

كيف تعمل الترجمة الذكية؟

تتضمن تقنية البرمجة اللغوية العصبية الحديثة للتعرف على الكلام بعض المبادئ المشتركة، مثل التعرف على الكلام، والتعرف على الصوت، وتحديد اللغة، والتسجيل اليومي، مما يمكن أن يميز بين المتحدثين.

ويستخدم نظام "لايف كابشنز" 3 نماذج تعليمية عميقة لتشكيل الترجمة الفورية: شبكتين عصبيتين متكررتين تعرفان اختصارا بـ"آر إن إن" (RNN)؛ واحدة للتعرف على الكلام، وأخرى للتعرف على علامات الترقيم، بالإضافة إلى شبكة عصبية تلافيفية، أو ما تعرف بـ "سي إن إن" (CNN) لتصنيف الأحداث الصوتية. وترسل هذه النماذج الثلاثة إشارات تحدد شكل ومسار الترجمة كاملة حتى بوجود الأصوات الموسيقية.

عند التعرف على الكلام بتنسيق صوتي أو فيديو، يتم تشغيل نظام التعرف التلقائي على الكلام، مما يسمح للجهاز ببدء تحويل الكلمات إلى نص. عندما يتوقف هذا الكلام -على سبيل المثال- عند تشغيل الموسيقى، يتوقف النظام عن العمل للحفاظ على بطارية الهاتف وتظهر كلمة "الموسيقى" في الترجمة التي تظهر على الشاشة.

عندما تتم صياغة نص الكلام، يتم تشكيل علامات الترقيم على الجملة الكاملة السابقة، ويتم ضبط علامات الترقيم باستمرار حتى لا تتداخل نتائج النظام مع معنى الجملة الكاملة.

في الوقت الحالي، لا يمكن "للايف كابشنز" سوى إنشاء ترجمات توضيحية للنص الإنجليزي، ويتم تحسينها باستمرار، وستتوسع يومًا ما إلى لغات أخرى. ولكن تتوفر الإصدارات القديمة من الترجمات التوضيحية باللغات الإسبانية والألمانية والبرتغالية حاليًا على نظام "غوغل ميت" (Google Meet).

تمثل اللغة فجوة كبيرة بين الشعوب، وتتمتع التكنولوجيا بإمكانات مذهلة في جمْع الناس معًا، ويمكن عبر هذه التقنية وبفضل معالجة اللغة الطبيعية سدّ هذه الفجوات بين الأشخاص لبناء مستقبل مشرق.