• על RLHF ומודלי שפה גדולים

  • Apr 19 2025
  • Length: 55 mins
  • Podcast

על RLHF ומודלי שפה גדולים

  • Summary

  • בפרק זה החליפו מייק ותמיר את התובנות החידודים והשאלות הפתוחות שלהם בניסיון להבין איך מתחברים עולם ה RL ועולם ה LLM (קרי RLHF). ב 2024 השתנתה הפרדיגמה - בתחילה יצירת מודל reward כדי לעשות אימון נוסף ל LLM אחרי ה pretraining שלו באמצעות PPO. ולאחר מכן הוחלף ה PPO בRLHF.

    בעוד רוב מודלי ה reasoning של החברות הגדולות (chatgpt, claude, gemini) עדיין באפילה - נדבר על איך לדעתנו RLHF יכול לשמש בתהליך.

    Show more Show less
adbl_web_global_use_to_activate_webcro768_stickypopup

What listeners say about על RLHF ומודלי שפה גדולים

Average customer ratings

Reviews - Please select the tabs below to change the source of reviews.