قد أسرت الذكاء الاصطناعي التوليدي خيال الجمهور بالانتقال إلى إنشاء نصوص وصور معقدة وواقعية تعتمد على الاقتراحات اللفظية. ولكن العقبة - وغالبًا ما توجد عقبة - هي أن النتائج غالبًا ما تكون بعيدة كل البعد عن الكمال عندما تلقى نظرة أقرب قليلاً.
يشير الناس إلى أصابع غريبة، وبلاط الأرضية ينزلق بعيدًا والمشكلة كما هي: بعض الأحيان لا تتناسب.
الآن، تحاول Synthesia - وهي إحدى الشركات الناشئة الطموحة التي تعمل في مجال الفيديو، وتحديداً الأفاتار المخصصة لمستخدمي الأعمال لإنشاء محتوى فيديو ترويجي وتدريبي ومؤسسي آخر - إصدار تحديث يأمل أن يساعدها على التفوق فوق بعض التحديات في ميدانها الخاص. آخر نسختها تتميز بالأفاتار - التي تم إنشاؤها استنادًا إلى بشر حقيقيين تم التقاطهم في استوديوهاتهم - والتي توفر مزيدًا من العواطف، تتبع شفتين أفضل وما تقوله علم النفس عن حركات الإنسان الطبيعية والأكثر تعبيرًا عندما يتم تغذية النصوص إليها لتوليد مقاطع الفيديو.
يأتي الإصدار عقب بعض التقدم الملحوظ للشركة حتى الآن. على عكس شركات الذكاء الاصطناعي التوليدي الأخرى مثل OpenAI، التي وضعت استراتيجية ثنائية الرؤية - رفع الوعي العام بأدوات الاستهلاك مثل ChatGPT بينما تقوم أيضًا ببناء عرض B2B، حيث يستخدم APIs التابعة لها من قبل المطورين المستقلين فضلاً عن الشركات العملاقة - تتجه Synthesia نحو النهج الذي تتبعه بعض الشركات الناشئة بارزة أخرى.
شبيهًا بتركيز Perplexity على تحقيق البحث في الذكاء الاصطناعي بشكل صحيح، يركز Synthesia فعليًا على تحقيق كيفية بناء أفضل أفاتارات فيديو توليدي الشبه البشرية الممكنة. وبصورة أكثر تحديدًا، يسعى هذا الأخير إلى القيام بذلك فقط للسوق التجارية وحالات الاستخدام مثل التدريب والتسويق.
ساعد هذا التركيز Synthesia في التميز في سوق الذكاء الاصطناعي المزدحم الذي يتعرض لخطر التمييز عندما يستقر الاهتمام في المدى الطويل في مخاوف أكثر تعقيدًا مثل الإيرادات السنوية المتكررة والاقتصاديات الوحدوية والتكاليف التشغيلية المرتبطة بتنفيذ الذكاء الاصطناعي.
يصف Synthesia الأفاتارات التعبيرية الجديدة، الإصدار الذي ستتم إطلاقه يوم الخميس، بأنها من النوع الأول من نوعها: “أول أفاتارات في العالم تم إنشاؤها بالكامل بالذكاء الاصطناعي.” من بناء نماذج محددة مسبقًا بشكل كبير، يقول Synthesia إن اختراقها كان في كيفية الجمع بينها لتحقيق توزيعات متعددة الأوجه تعكس بشكل أوثق كيفية تحدث البشر الفعليين.
يُنتج هذه على الطاير، وفقًا لما يقوله Synthesia، مما يهدف إلى أن يكون أقرب إلى التجربة التي نمر بها عندما نتحدث أو نرد في الحياة. يتعارض هذا مع كيفية عمل العديد من أدوات الفيديو الذكي ذات الأصوات الرقمية اليوم: عادةً ما تكون هذه في الواقع العديد من قطع الفيديو التي يتم تجميعها بسرعة لإنشاء استجابات وجهية تتناسب، إلى حد ما، مع النصوص التي يتم إدخالها إليها. الهدف هو أن تبدو أقل روبوتية وأكثر حيوية.
النسخة السابقة:
النسخة الجديدة:
كما يمكنك رؤية الأمثلة الاثنتين هنا، واحدة من النسخة القديمة لـ Synthesia والأخرى التي ستتم إطلاقها يوم الخميس، لا تزال هناك طريق طويلة للسير عليها، شيء اعترف به الرئيس التنفيذي فيكتور ريباربيلي نفسه.
“بالطبع لم ينته الأمر بنسبة 100٪ بعد، لكنه سيكون كذلك قريبًا جدًا، بحلول نهاية العام. سيكون مدهشًا للغاية،” قال لتكنولوجيا التش على قوله. “أعتقد أنكم يمكنكم أيضًا رؤية أن جزء الذكاء الاصطناعي من هذا أمر دقيق. مع البشر، هناك الكثير من المعلومات في أدق التفاصيل، أدقها، مثل حركات عضلات وجهنا. أعتقد أننا لن نستطيع أبدًا الجلوس ووصف، 'نعم تبتسم بهذه الطريقة عندما تكون سعيدًا، ولكن هذا كاذب، صحيح؟' هذا أمر معقد جدًا للغاية لوصفه للبشر، ولكن يمكن (التقاطه) في الشبكات العميقة للتعلم. إنها قادرة فعليًا على اكتشاف النمط ثم تكراره بطريقة قابلة للتوقع.” ثم أضاف أن الشيء التالي الذي يعملون عليه هو اليدين.
“اليدين، مثلًا، صعبة جدًا،” قال.
تساعد التركيز على B2B أيضًا Synthesia في ربط رسائلها ومنتجها أكثر على استخدام الذكاء الاصطناعي بشكل “آمن”. وهذا أمر أساسي، خاصة مع القلق الهائل اليوم بشأن deepfakes واستخدام الذكاء الاصطناعي لأغراض خبيثة مثل نشر معلومات خاطئة والاحتيال. على الرغم من ذلك، لم تتمكن Synthesia من تجنب الجدل تمامًا في هذا الصدد. استُخدمت تكنولوجيا Synthesia مسبقًا لإنتاج دعاية في فنزويلا وتقارير أخبارية كاذبة تروج لها حسابات وسائل التواصل الاجتماعي الموالية للصين.
ذكرت الشركة أنها اتخذت خطوات إضافية لمحاولة قفل تلك الاستخدامات. في الشهر الماضي، قامت بتحديث سياساتها، وقالت، “لتقييد نوع المحتوى الذي يمكن للناس إنشاؤه، باستثمار في اكتشاف المؤثرين بسوء نية في وقت مبكر، وزيادة الفرق الذين يعملون على سلامة الذكاء الاصطناعي والتجربة مع تكنولوجيات التحقق من أوراق العمل مثل C2PA.”
على الرغم من تلك التحديات، استمرت الشركة في النمو.
قدرت قيمة Synthesia الأخيرة بمليار دولار عندما جمعت 90 مليون دولار. يجدر بm الذكر أن الجمعية العامة كانت قبل ما يقرب من سنة، في يونيو 2023.
قال ريباربيلي في مقابلة في وقت سابق من هذا الشهر إنه لا توجد خطط حاليًا لجمع المزيد، على الرغم من أن هذا لا يجيب حقًا عن السؤال ما إذا كانت Synthesia تُقدم بنشاط. (ملاحظة: نحن متحمسون جدًا لأن يكون الإنسان الفعلي ريباربيلي يتحدث في حدث لنا في لندن في مايو، حيث سأسأل عن هذا مرة أخرى. تفضل إذا كنت في المدينة.)
ما نعرفه على وجه اليقين هو أن بناء وتشغيل الذكاء الاصطناعي يكلف الكثير من المال، وقد قامت Synthesia ببناء وتشغيل الكثير.
قبل إطلاق النسخة يوم الخميس، أنشأ أكثر من 200،000 شخص أكثر من 18 مليون عرض فيديو عبر نحو 130 لغة باستخدام 225 أفاتارًا تقليدية لشركة Synthesia، وفقًا لما ذكرته الشركة. (لم تفصل في كم عدد المستخدمين على مستوياتها المدفوعة، ولكن هناك الكثير من العملاء ذوي الأسماء الكبرى بما في ذلك Zoom وBBC وDuPont وغيرهم، وتدفع الشركات.) أمل الشركة، بطبيعة الحال، في أن ترتفع تلك الأرقام حتى أكثر مع إطلاق النسخة الجديدة.