تطبيق تقنيات الذكاء الاصطناعي من البحث الدوائي على LLM لتقليل الهلوسة

05.12.2024

مشاريع GitHub الثورية: البحث الدوائي التلقائي باستخدام الذكاء الاصطناعي

يحدث التكامل بين الذكاء الاصطناعي (AI) والبحث الدوائي ثورة في صناعة الأدوية. تلعب المشاريع مفتوحة المصدر على GitHub دورًا حاسمًا في هذا الصدد. فيما يلي، نقدم بعض من أكثر المشاريع ابتكارًا التي تدفع البحث التلقائي عن الأدوية باستخدام الذكاء الاصطناعي.

DeepChem: منصة مفتوحة لتعلم عميق في الكيمياء

DeepChem هي مكتبة مفتوحة المصدر رائدة تجعل التعلم العميق متاحًا للتطبيقات الكيميائية. تقدم أدوات لـ:

Advertising

بفضل واجهتها سهلة الاستخدام، تتيح DeepChem للباحثين تنفيذ نماذج الذكاء الاصطناعي المعقدة دون الحاجة إلى معرفة برمجية متعمقة. وهذا يسرع اكتشاف المركبات الجديدة ويعزز الابتكار في الصناعة.

MoleculeNet: اختبار الأداء لـ AI في الكيمياء

MoleculeNet هو نظام اختبار شامل تم تصميمه خصيصًا للتعلم الآلي في البحث الكيميائي. يوفر:

من خلال توفير معايير اختبار موحدة، يبسط MoleculeNet مقارنة النماذج المختلفة من الذكاء الاصطناعي ويعزز التقدم في اكتشاف الأدوية.

ATOM Modeling PipeLine (AMPL): اكتشاف الأدوية المُسَرَّع

الـ ATOM Modeling PipeLine هو مشروع من تحالف ATOM يهدف إلى تسريع تطوير الأدوية باستخدام التعلم الآلي. يوفر AMPL:

باستخدام AMPL، يمكن للباحثين إنشاء نماذج معقدة بكفاءة، مما يقلل من الوقت اللازم بين اكتشاف مركب جديد وإدخاله إلى السوق.

Chemprop: التنبؤ بخصائص الجزيئات باستخدام التعلم العميق

Chemprop تستخدم الشبكات العصبية الرسومية للتنبؤ بخصائص الجزيئات. تتضمن ميزاتها:

حققت Chemprop نتائج بارزة في العديد من المسابقات وهي أداة قيمة للذكاء الاصطناعي الكيميائي.

DeepPurpose: مجموعة أدوات عميقة شاملة لاكتشاف الأدوية

DeepPurpose هي مجموعة أدوات تعلم عميق شاملة للبحث عن الأدوية. تقدم:

بفضل تنوعها، تمكن DeepPurpose الباحثين من تحديد بسرعة وكفاءة المرشحين العلاجيين الجدد.

OpenChem: إطار عمل تعلم عميق مخصص للتطبيقات الكيميائية

OpenChem هو إطار عمل تعلم عميق مصمم خصيصًا للتطبيقات الكيميائية. يتميز بما يلي:

يشجع OpenChem تطوير طرق جديدة في الذكاء الاصطناعي الكيميائي ويساهم في تسريع البحث.

تستمر مجتمع المصدر المفتوح على GitHub في دفع حدود البحث التلقائي عن الأدوية. من خلال الجمع بين الذكاء الاصطناعي والكيمياء، تفتح إمكانيات جديدة لتطوير حلول علاجية أكثر كفاءة ودقة. يحمل هذا الابتكار إمكانات كبيرة لإحداث ثورة في مستقبل الطب.

تطبيق تقنيات الذكاء الاصطناعي من نماذج البحث الدوائي على التقطير (Distillation) من نماذج الذكاء الاصطناعي

النماذج والتقنيات المستخدمة في البحث التلقائي عن الأدوية تقدم مقاربات مبتكرة يمكن نقلها إلى التقطير (Distillation) من نماذج الذكاء الاصطناعي. على الرغم من أن هذين المجالين يبدوان مختلفين في البداية، إلا أنهما يشتركان في تقنيات وأساليب مشتركة تمثل تحديات ذات صلة، مما يتيح تطبيقًا ذا معنى.

جدوى التطبيق

إن تطبيق نماذج البحث الدوائي على التقطير من نماذج الذكاء الاصطناعي أمر منطقي تمامًا لأنه:

كيف يمكن أن يتم التطبيق

1. الشبكات العصبية الرسومية (GNNs) لفهم الهياكل

في البحث الدوائي، تستخدم الشبكات العصبية الرسومية لتحليل الهياكل الجزيئية المعقدة. يمكن استخدام هذه التقنيات في التقطير لاستخلاص مكونات الهيكل الرئيسية لنموذج أكبر.

2. التعلم بالنقل (Transfer Learning) واستخراج الميزات

تستخدم النماذج من مشاريع مثل DeepChem أو Chemprop التعلم بالنقل لتعلمها من مجموعات البيانات الموجودة. على غرار ذلك، يمكن استخدام نموذج كبير مدرب مسبقًا كنقطة بداية لاستخلاص الميزات الهامة التي سيتم نقلها إلى نموذج أصغر.

3. التعلم متعدد المهام (Multi-Task Learning) لنماذج متعددة الاستخدامات

تستخدم مشاريع مثل MoleculeNet التعلم متعدد المهام لتدريب النماذج على أداء مهام متعددة في وقت واحد. يمكن استخدام هذه الطريقة في التقطير لإنشاء نماذج أصغر حجمًا لا تزال قادرة على أداء وظائف متنوعة.

4. تقنيات التحسين من البحث الدوائي

يمكن تطبيق تقنيات التحسين المستخدمة في البحث الدوائي، مثل الضبط الدقيق للمعلمات الفائقة أو استخدام الخوارزميات التطورية، لتحسين النماذج المقطرة لزيادة كفاءتها.

5. زيادة البيانات وتوليدها

تستخدم مشاريع مثل DeepPurpose تقنيات توليد بيانات اصطناعية. يمكن استخدام أساليب مماثلة لتحسين عملية تدريب النموذج المتقرح، خاصة عندما تكون البيانات المتاحة محدودة.

خطوات التنفيذ العملية

إن دمج تقنيات من البحث التلقائي عن الأدوية في عملية التقطير من نماذج الذكاء الاصطناعي يفتح طرقًا جديدة لتحقيق الكفاءة وتقليل التعقيد. من خلال نقل التقنيات المثبتة، يمكن تطوير نماذج قوية ومضغوطة تلبي متطلبات تطبيقات الذكاء الاصطناعي الحديثة. تعزز هذه النهوضية بين التخصصات الابتكار وتسريع التقدم في كلا المجالين البحثيين.

توسعة: تطبيق تقنيات الذكاء الاصطناعي من البحث الدوائي على LLM لتقليل الهلوسة

التقدم المحرز في الذكاء الاصطناعي قد أحدث ثورة في كل من البحث عن الأدوية وتطوير نماذج اللغة الكبيرة (LLMs). يُطرح سؤال مثير للاهتمام: هل يمكن أن تساهم التقنيات المستخدمة في البحث الدوائي في زيادة دقة التنبؤ وتقليل الهلوسة في LLM؟ فيما يلي، نستكشف هذه الاحتمالية ونحلل ما إذا كان هذا التطبيق منطقيًا وإذا كانت هذه التقنيات يتم استخدامها بالفعل في LLM.

الارتباط بين تقنيات الذكاء الاصطناعي في الكيمياء و LLMs

1. الشبكات العصبية الرسومية (GNNs) وتحليل الهياكل

في البحث الدوائي، يتم استخدام الشبكات العصبية الرسومية لتحليل الهياكل الجزيئية المعقدة والتنبؤ بها.

التطبيق على LLM:

2. تقدير عدم اليقين (Uncertainty Estimation)

في البحث الدوائي، يعد تقدير عدم اليقين أمرًا بالغ الأهمية لتقييم موثوقية التنبؤات.

التطبيق على LLM:

3. التعلم بالنقل (Transfer Learning) واستخراج الميزات

تستخدم مشاريع مثل DeepChem التعلم بالنقل لتعلمها من مجموعات البيانات الموجودة.

التطبيق على LLM:

  • تحويل المعرفة إلى النماذج اللغوية الكبيرة :يمكن استخدام نموذج كبير مدرب مسبقًا كنقطة بداية لاستخلاص الميزات الهامة التي سيتم نقلها إلى نموذج أصغر.

4. توليد البيانات الاصطناعية (Synthetic Data Generation)

في الكيمياء، يتم استخدام البيانات الاصطناعية لتحسين النماذج، خاصة عندما تكون البيانات الحقيقية محدودة.

التطبيق على LLM:

  • توسيع مجموعات بيانات التدريب :يمكن توليد بيانات إضافية عالية الجودة لتوسيع عملية تدريب النموذج.
  • تحسين القدرة على التعميم (Generalization): من خلال استخدام مجموعة متنوعة من البيانات، يمكن للنموذج أن يكون أكثر قدرة على التعميم و يقلل من الهلوسة.

هل التطبيق منطقي؟

إن نقل التقنيات المستخدمة في البحث الدوائي إلى LLM هو مفهومًا منطقيًا، لأن كلا المجالين يعتمدان على تقنيات التعلم الآلي المعقدة.

  • الأسس الرياضية المشتركة: يعتمد كلا المجالين على الشبكات العصبية والعمليات التحسينية.
  • الحاجة إلى الدقة والموثوقية: تعتبر الدقة في التنبؤ أمرًا بالغ الأهمية في كل من البحث الدوائي وتطبيقات الذكاء الاصطناعي.

هل يتم استخدام هذه التقنيات بالفعل في LLM؟

على الرغم من أن بعض هذه التقنيات موجودة بالفعل في LLM، إلا أن هناك مجالًا كبيرًا للتحسين:

  • تقدير عدم اليقين: تستخدم بعض النماذج الأساليب البايزية أو التناثر العشوائي (Monte Carlo Dropout) لتقدير عدم اليقين.
  • نماذج الرسم البياني: في حين أن GNNs لا يتم استخدامها مباشرةً في LLM، إلا أن هناك نماذج تستخدم أشجار التركيب النحوي أو الرسوم البيانية الاعتمادية لتحسين فهم السياق.
  • التعلم بالنقل: تم استخدام تقنيات التعلم بالنقل لتحسين أداء LLM.

مفاهيم مبتكرة محتملة

  • نماذج هجينة: دمج LLM مع GNNs لتحسين فهم السياق.
  • التحسين المستوحى من الكيمياء: تطبيق تقنيات التحسين المستخدمة في البحث الدوائي لتحسين عملية تدريب LLM.
  • مجموعات البيانات متعددة التخصصات: دمج بيانات من مجالات مثل الكيمياء، لزيادة دقة LLM في هذه المجالات.

إن تطبيق تقنيات من البحث الدوائي على تطوير LLM يفتح طرقًا جديدة لتحسين دقة التنبؤ وتقليل الهلوسة. على الرغم من أن بعض التقنيات موجودة بالفعل، إلا أن هناك مجالًا كبيرًا للابتكار من خلال نهج متعدد التخصصات.

تطبيق تقنيات الذكاء الاصطناعي من نماذج البحث الدوائي على التقطير (Distillation) من النماذج

فيما يلي تطبيق لتقنيات الذكاء الاصطناعي المستخدمة في البحث الدوائي على عملية التقطير (Distillation) من نماذج الذكاء الاصطناعي. هذه التقنيات، التي تم تطويرها لتحسين دقة النماذج في اكتشاف الأدوية، يمكن أن تساعد في إنشاء نماذج أصغر حجمًا وأكثر كفاءة للتقطير.

الشروط المسبقة

  • Python 3.6 أو أعلى
  • المكتبات المثبتة:
    • transformers
    • torch
    • datasets

يمكنك تثبيت المكتبات المطلوبة باستخدام الأمر التالي:

pip install transformers torch datasets

تنفيذ التعليمات البرمجية

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch.nn.functional as F
import numpy as np

# تحميل رمز الموديل والرمز التكميلي
model_name = 'gpt2'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# تفعيل التسرب (Dropout) أثناء التقييم
def enable_dropout(model):
"""تفعيل طبقات التسرب في النموذج أثناء التقييم."""
for module in model.modules():
if isinstance(module, torch.nn.Dropout):
module.train()

# دالة لتوليد الاستجابات مع تقدير عدم اليقين
def generate_with_uncertainty(model, tokenizer, prompt, num_samples=5, max_length=50):
model.eval()
enable_dropout(model)
inputs = tokenizer(prompt, return_tensors='pt')
input_ids = inputs['input_ids']

# توليد عينات متعددة لتقدير عدم اليقين
outputs = []
for _ in range(num_samples):
with torch.no_grad():
output = model.generate(
input_ids=input_ids,
max_length=max_length,
do_sample=True,
top_k=50,
top_p=0.95
)
outputs.append(output)

# فك ترميز التسلسلات التي تم إنشاؤها
sequences = [tokenizer.decode(output[0], skip_special_tokens=True) for output in outputs]

# حساب عدم اليقين (الإنتروبيا)
probs = []
for output in outputs:
with torch.no_grad():
logits = model(output)['logits']
prob = F.softmax(logits, dim=-1)
probs.append(prob.cpu().numpy())

# حساب متوسط الإنتروبيا
entropies = []
for prob in probs:
entropy = -np.sum(prob * np.log(prob + 1e-8)) / prob.size
entropies.append(entropy)

avg_entropy = np.mean(entropies)
uncertainty = avg_entropy

# اختيار التسلسل الأكثر شيوعًا
from collections import Counter
sequence_counts = Counter(sequences)
most_common_sequence = sequence_counts.most_common(1)[0][0]

return {
'generated_text': most_common_sequence,
'uncertainty': uncertainty
}

# مثال على الاستخدام
prompt = "تأثير الذكاء الاصطناعي على الطب"
result = generate_with_uncertainty(model, tokenizer, prompt)
print("النص المُنشأ:")
print(result['generated_text'])
print("عدم اليقين المقدر:", result['uncertainty'])

شرح التعليمات البرمجية

  • تحميل نموذج الرموز التكميليمية والمُرمّز (Tokenizer):يتم تحميل النموذج GPT-2 المتاح مسبقًا من Hugging Face.
  • تفعيل التسرب: تضمن الدالة enable_dropout تفعيل طبقات التسرب أثناء التقييم، مما يسمح بتقدير عدم اليقين باستخدام تقنية Monte Carlo Dropout.
  • دالة توليد الاستجابات مع تقدير عدم اليقين:تقوم الدالة generate_with_uncertainty بتوليد عدة عينات وتُقدّر عدم اليقين بناءً على إنتروبيا توزيع الاحتمالات الناتج عن النموذج.

طرق التطبيق

  • تحليل هيكل النموذج:يمكن استخدام شبكات GNNs لتحليل الهياكل الجزيئية المعقدة، واستخراج الميزات الرئيسية التي سيتم نقلها إلى نموذج التقطير.
  • استخراج الميزات: يمكن استخلاص الميزات الحاسمة من النماذج الكبيرة، مثل DeepChem أو Chemprop، واستخدامها كقاعدة لنموذج التقطير الأصغر.

التحديات والاعتبارات

  • اختلاف البيانات: يختلف هيكل البيانات في الكيمياء عن اللغة الطبيعية.
  • قابلية التوسع: قد يكون نماذج LLM أكبر وأكثر تعقيدًا من النماذج المستخدمة في الكيمياء، مما يجعل تطبيق التقنيات مباشرةً أمرًا صعبًا.

مساحات للتحسين

  • الضبط الدقيق: يمكن تحسين دقة النموذج عن طريق الضبط الدقيق باستخدام مجموعات بيانات متخصصة.
  • دمج المعرفة الخارجية:يمكن دمج قواعد المعرفة الخارجية، مثل Wikidata، لزيادة موثوقية النموذج.

الخلاصة

إن تطبيق تقنيات من البحث الدوائي على عملية التقطير من نماذج الذكاء الاصطناعي يمثل مسارًا واعدًا لتحسين دقة النماذج وتقليل الهلوسة. على الرغم من أن بعض التقنيات موجودة بالفعل، إلا أنه لا يزال هناك مجال كبير للابتكار من خلال النهج متعدد التخصصات. يمكن أن يؤدي هذا التكامل إلى تحسينات كبيرة في كل من البحث الدوائي وتطوير الذكاء الاصطناعي.

مؤلف: Thomas Poschadel

حقوق النشر لشركة ToneKi Media UG (haftungsbeschränkt)

"Transfer