تكنلوجياأخبار

جوجل تكشف عن نموذج الذكاء الاصطناعي الجديد AudioPaLM للكلام والترجمة

جوجل تكشف عن نموذج الذكاء الاصطناعي الجديد AudioPaLM للكلام والترجمة الذي يمكنه الاستماع والتحدث والترجمة بدقة عالية وسرعة كبيرة.

وكما يُشير الاسم، فإن هذا النموذج الجديد يعتمد بالأساس على نقاط القوة في نموذجين آخرين موجودين بالفعل وهما PaLM-2 و AudioLM.

وينتمي نموذج PaLM-2 إلى نماذج اللغة الكبيرة LLMs التي تستطيع فهم ومحاكاة وتوليد النصوص بشكل يشبه اللغات البشرية، بينما يُعنى نموذج AudioLM بأشياء مثل الحفاظ على هوية المتحدث ونبرة الصوت (الصوتيات).

وقدم الباحثون في جوجل نموذج AudioPaLM عبر الجمع بين كلا النموذجين السابق الإشارة إليهما من أجل توليد النصوص والكلام بكفاءة عالية.

ويستطيع نموذج AudioPaLM الجديد القيام بالعديد من الوظائف المختلفة مثل الترجمة الصوتية من لغة إلى أخرى مع الحفاظ على نبرة الصوت نفسها، كما يمكنه التقاط الأصوات أو الأوامر المنطوقة، ثم إعادة إنتاج الصوت بلغات أخرى مختلفة.

ويعمل النموذج أيضًا على تعرّف الأصوات وترجمتها إلى نصوص، حتى إنه يمكنه ترجمة التراكيب اللغوية التي لم يتعرض لها من قبل بدقة كبيرة، وفقًا للباحثين العاملين على النموذج.

ولا يزال نموذج جوجل قيد البحث والتطوير، ولا يُعرف حتى الآن موعد توفره للجمهور.

ومن جهة أخرى، أعلنت شركة ميتا في وقت سابق عن نموذج ذكاء اصطناعي أطلقت عليه اسم Voicebox، وهو نموذج حديث يمكنه أداء مهام إنشاء الكلام، مثل: تحرير المقاطع الصوتية بكفاءة، وأخذ العينات الصوتية لتوليد كلام بلغات مختلفة، وغير ذلك.

كان هناك العديد من التطورات والتطورات الجديدة في نماذج اللغات الكبيرة (LLM) مؤخرًا. هذه النماذج هي نوع من الشبكات العصبية الاصطناعية التي تحتوي على العديد من المعلمات ويتم تدريبها على كمية كبيرة من البيانات النصية باستخدام التعلم تحت الإشراف الذاتي أو التعلم شبه الخاضع للإشراف. اقرأ أيضًا – اختراق Android: كيفية نقل جهات الاتصال من هاتف إلى آخر

تعمل نماذج اللغات الكبيرة هذه على تشغيل أدوات إنشاء الذكاء الاصطناعي الجديدة مثل Google Bard و ChatGPT من OpenAI. كشف باحثو Google مؤخرًا عن نموذج لغة جديد يسمى AudioPaLM ، والذي يمكن أن يؤدي أداءً جيدًا في الاستماع والتحدث والترجمة. اقرأ أيضًا – يخطط YouTube للتوسع في الألعاب عبر الإنترنت باستخدام “Playables”: Report

AudioPaLM هي بنية متعددة الوسائط تجمع مزايا نموذجين حاليين: PaLM-2 و AudioLM. يمكن للنظام معالجة النصوص والكلام وإنتاجها ويمكن تطبيقه على التعرف على الكلام أو لإنشاء ترجمات بأصوات أصلية. اقرأ أيضًا – يحصل بحث Google على عامل تصفية المنظور لمزيد من النتائج الشخصية

PaLM-2 هو نموذج لغة قائم على النص ماهر في فهم المعرفة اللغوية الخاصة بالنص. AudioLM بارع في الاحتفاظ بالمعلومات غير اللغوية مثل هوية المتحدث ونبرة الصوت.

من خلال الجمع بين هذين النموذجين ، يستخدم AudioPaLM القدرة اللغوية لـ PaLM-2 والحفاظ على المعلومات شبه اللغوية لـ AudioLM ، مما يؤدي إلى فهم وتوليد أكثر عمقًا لكل من النص والكلام.

يمكن للنموذج أيضًا إجراء ترجمات من الكلام إلى نص بدون لقطة للعديد من اللغات ، حتى بالنسبة لتركيبات الكلام التي لم يراها أثناء التدريب. يمكن أن تكون هذه الإمكانية مفيدة لتطبيقات العالم الحقيقي مثل الاتصال متعدد اللغات في الوقت الحقيقي.

يمكن لـ AudioPaLM أيضًا نقل الأصوات عبر اللغات بناءً على المطالبات المنطوقة القصيرة ، ويمكنه التقاط أصوات متميزة في لغات مختلفة وإعادة إنتاجها.

حققت AudioPaLM أعلى النتائج في معايير ترجمة الكلام وأظهرت أداءً تنافسيًا في مهام التعرف على الكلام.

مرشح منظور بحث Google
أعلنت Google عن مرشح جديد لبحث Google يُعرف باسم “Perspectives” في مؤتمرها السنوي للمطورين ، Google I / O 2023 ، الشهر الماضي. الآن ، بعد شهر ونصف تقريبًا ، بدأت الشركة في طرح عامل تصفية المنظور الجديد لجميع مستخدمي بحث Google على مستوى العالم.

أصدرت Google هذا الإعلان عبر منشور على مقابض وسائل التواصل الاجتماعي الخاصة بها. “في الشهر الماضي في #GoogleIO ، شاركنا التحديثات التي نجريها على البحث لمساعدتك في العثور على وجهات نظر متنوعة واستكشافها من الخبراء والأشخاص العاديين. اليوم ستتمكن من تجربتها “، كتبت الشركة في منشور على حسابها الرسمي على Twitter.

يوفر عامل تصفية وجهات النظر الجديد من بحث Google جانبًا بشريًا لنتائج البحث. في الوقت الحالي ، تتأثر نتائج البحث التي يراها المستخدمون على المنصة بخوارزمية الشركة بناءً على عدة عوامل مثل التواريخ والمؤلفين والتقييمات والقرب من بين أمور أخرى. الآن ، تغير ميزة المنظور الجديد ذلك من خلال جلب وجهات النظر والاقتراحات من البشر الحقيقيين.

 

 

مقالات ذات صلة

زر الذهاب إلى الأعلى