لماذا تحظى قواعد البيانات الناقلة بشهرة وهجتها على أوج دورة الإثارة للذكاء الاصطناعي

تحظى قواعد البيانات الناقلة بشعبية كبيرة، من خلال عدد الشركات الناشئة التي تدخل المجال والمستثمرين الذين يستثمرون في قطعة من الكعكة. إن تفشي النماذج اللغوية الكبيرة (LLMs) وحركة الذكاء الاصطناعي الانتاجي (GenAI) قد خلق أرضاً خصبة لتفتح تكنولوجيا قواعد البيانات الناقلة.

بينما تناسب قواعد البيانات العلاقية التقليدية مثل بوستغريس أو ماي إس كيو إل البيانات المهيكلة جيداً - وهي أنواع البيانات المحددة مسبقًا التي يمكن تصنيفها بدقة في صفوف وأعمدة - إلا أن هذا لا يعمل بشكل جيد لبيانات غير المُهيكلة مثل الصور والفيديوهات والبريد الإلكتروني ومشاركات وسائل التواصل الاجتماعي وأي بيانات لا تلتزم بنموذج بيانات محدد مسبقًا.

قواعد البيانات الناقلة، بدلاً من ذلك، تخزن وتعالج البيانات في شكل تضمينات الناقلات، والتي تحوّل النصوص والمستندات والصور والبيانات الأخرى إلى تمثيلات عددية تلتقط المعنى والعلاقات بين نقاط البيانات المختلفة. هذا مثالي لتعلم الآلة، حيث تخزن قاعدة البيانات البيانات مكانياً حسب مدى ارتباط كل عنصر بالآخر، مما يجعل من السهل استرجاع البيانات ذات المعنى المماثل.

هذا مفيد بشكل خاص للنماذج اللغوية الكبيرة مثل GPT-4 من OpenAI، حيث يتيح لبرنامج الدردشة الذكي فهم سياق الحديث بشكل أفضل من خلال تحليل الحوارات المشابهة السابقة. إن البحث الناقل أيضًا مفيد لكل أنواع التطبيقات في الوقت الحقيقي، مثل التوصيات المحتوى في شبكات التواصل الاجتماعي أو تطبيقات التجارة الإلكترونية، حيث يمكنه النظر في ما قام المستخدم بالبحث عنه واسترداد عناصر مشابهة في لمح البصر.

البحث الناقل أيضًا يساعد في تقليل \"الهلوسات\" في تطبيقات LLM، من خلال تقديم معلومات إضافية قد لا تكون متاحة في مجموعة البيانات التدريبية الأصلية.

\"بدون استخدام بحث التشابه الناقل يمكنك لا يزال تطوير تطبيقات الذكاء الاصطناعي والتعلم الآلي، ولكن ستحتاج إلى المزيد من إعادة التدريب والضبط الدقيق،\" أوضح أندريه زايارني، الرئيس التنفيذي والمؤسس المشارك لشركة بحث التشابه الناقل Qdrant، لـ TechCrunch. \"تأتي قواعد البيانات الناقلة في اللعب عندما يكون هناك مجموعة بيانات كبيرة، وتحتاج إلى أداة للعمل مع تضمينات الناقلات بطريقة كفءة ومريحة.\"

في يناير، حصلت Qdrant على 28 مليون دولار في تمويل للاستفادة من النمو الذي جعلها واحدة من أسرع عشر شركات ناشئة مفتوحة المصدر تنمو العام الماضي. وهي بمثابة إحدى شركات قواعد البيانات الناقلة التي لم تكن الشركة الوحيدة التي جمعت النقد النقدي مؤخرًا - والتي شملت Vespa وWeaviate وPinecone وChroma $200 مليون العام الماضي لتقديم مجموعة متنوعة من العروض الناقلة.

فريق تأسيس Qdrant. رصد الصورة: Qdrant

منذ بداية العام، شاهدنا أيضًا Index Ventures تقود جولة استثمار بقيمة 9.5 مليون دولار في Superlinked، وهي منصة تحول البيانات المعقدة إلى تضمينات ناقلة. وقبل بضعة أسابيع، كشفت Y Combinator (YC) عن فوج الشتاء '24 الخاص بها، الذي شمل Lantern، وهي شركة ناشئة تبيع محرك بحث ناقل مستضاف لبوستغرس.

في مكان آخر، رفعت شركة Marqo جولة تمويل بقيمة 4.4 مليون دولار في الربع الأخير من العام الماضي، تلتها بسرعة جولة تمويل سلسلة A بقيمة 12.5 مليون دولار في فبراير. توفر منصة مارقو مجموعة كاملة من الأدوات الناقلة في خانة، تغطي توليد الناقلات وتخزينها واسترجاعها، مما يتيح للمستخدمين تجنب الأدوات الطرفية من أمثال OpenAI أو Hugging Face، وتقدم كل شيء عبر واجهة برمجة التطبيقات الواحدة.

عمل مؤسسا Marqo توم هامر وجيسي إن. كلارك مسبقًا في الأدوار الهندسية في أمازون، حيث أدركوا "الحاجة الكبيرة غير الملباة" للبحث الدلالي والمرن عبر مختلف وسائط مثل النصوص والصور. وها هم يقفزون من السفينة لتشكيل Marqo في عام 2021.

\"كان العمل مع بحث الصور البصرية والروبوتات في أمازون هو عندما نظرت حقًا إلى بحث الناقلات - كنت أفكر في طرق جديدة لاكتشاف المنتجات، واندمجت بسرعة كبيرة في بحث الناقلات،\" صرح كلارك لـ TechCrunch. \"في الروبوتات، كنت استخدم البحث المتعدد الوسائط للبحث في الصور الكثير من صورنا لتحديد ما إذا كانت هناك أمور غير صحيحة مثل خراطيم وحزم. كان ذلك من المرجح أن يكون من الصعب حله.\"

مؤسسي Marqo جيسي كلارك وتوم هامر. رصد الصورة: Marqo

ادخل المشروع

بينما تعيش قواعد البيانات الناقلة لحظات منتصف جنون شات جي بي تي وحركة جن أي، إلا أنها ليست العلاج السحري لكل سيناريو بحث للمؤسسات.

\"تميل قواعد البيانات المخصصة إلى أن تكون متمركزة تمامًا على حالات الاستخدام الخاصة وبالتالي يمكن تصميم هندستها للأداء في المهام المطلوبة، وكذلك تجربة المستخدم، مقارنة بقواعد البيانات العامة التي تحتاج إلى تناسبها في التصميم الحالي\"، أوضح بيتر زايتسيف، مؤسس شركة دعم وخدمات قواعد البيانات Percona، لـ TechCrunch.

بينما قد تتفوق قواعد البيانات المتخصصة في شيء واحد على حساب الآخرين، وهذا هو السبب في أننا بدأنا نرى شركات قواعد البيانات الحالية مثل Elastic, Redis, OpenSearch, Cassandra, Oracle, و MongoDB يضيفون قدرات البحث في قواعد البيانات الناقلة إلى الخليط، وكذلك مقدمو خدمات السحابة مثل Microsoft's Azure, Amazon's AWS, و Cloudflare.

يقارن زايتسيف هذا الاتجاه الأخير بما حدث مع JSON قبل أكثر من عقد من الزمان، عندما أصبحت تطبيقات الويب أكثر انتشارًا واحتاج المطورون إلى تنسيق بيانات غير معتمد على لغة يمكن للبشر قراءتها وكتابتها بسهولة. في هذه الحالة، ظهرت فئة قاعدة بيانات جديدة على شكل قواعد بيانات الوثيقة مثل MongoDB، بينما قدمت قواعد البيانات العلاقية الحالية أيضًا دعم JSON.

\"أعتقد أن الأمر سيحدث نفسه مع قواعد البيانات الناقلة\"، أوضح زايتسيف لـ TechCrunch. \"سيستخدم المستخدمون الذين يقومون ببناء تطبيقات ذكاء اصطناعي معقدة وكبيرة الحجم قواعد بيانات بحث الناقلات المخصصة، بينما من المرجح أن يستخدم الأشخاص الذين يحتاجون إلى بناء بعض وظائف الذكاء الاصطناعي لتطبيقاتهم الحالية بحث الناقلات في القواعد التي يستخدمونها بالفعل.\"

لكن يراهن زايارني وزملاؤه في Qdrant أن الحلول الأصلية المبنية بالكامل حول النواتج ستوفر \"السرعة والأمان الذاكري والمقياس\" اللازمة مع انفجار البيانات الناقلة، مقارنة بالشركات التي تضيف بحث الناقلات على الطريقة التي لاحقًا.

\"طريقتهم هي، 'نستطيع أيضًا القيام ببحث بالناقلات، إذا لزم الأمر'،\" قال زايارني. \"عرضنا هو، 'نقوم ببحث متقدم بالناقلات بأفضل طريقة ممكنة.' الأمر كله يتعلق بالتخصص. نوصي فعلاً بالبدء مع أي قاعدة بيانات تمتلكها بالفعل في تكنولوجيا الشركة الخاصة بك. في نقطة ما، سيواجه المستخدمو