מחקר שפורסם בכתב העת British Journal of Dermatology בחן האם מודלי שפה גדולים (LLMs) כמו ChatGPT וג'מיני מספקים מידע איכותי יותר למטופלים, בהשוואה למקורות מידע מבוססים בנושא מלנומה.
עוד בעניין דומה
החוקרים ביקשו להשוות את איכות התשובות של מודלי שפה גדולים עם מקורות מידע למטופלים (PIRs) מבוססים בהולנד במענה לשאלות מטופלים בנושא מלנומה.
המחקר בחן תשובות מ-ChatGPT גרסאות 3.5 ו-4.0, ג'מיני ושלושה מקורות מידע הולנדיים מובילים בנושא מלנומה ל-50 שאלות ספציפיות על מלנומה. התשובות נבדקו בנקודת הבסיס, ועבור מודלי השפה הגדולים נבדקו שוב לאחר שמונה חודשים.
המדדים שנבחנו כללו דיוק (רפואי), שלמות, התאמה אישית, קריאות ובנוסף עבור מודלי השפה הגדולים - יכולת שחזור. ניתוחים השוואתיים בוצעו בין מודלי השפה השונים לבין מקורות המידע למטופלים באמצעות מבחן אנובה של פרידמן, ובין מודלי השפה הגדולים המובילים למקורות המידע למטופלים המהווים סטנדרט זהב באמצעות מבחן וילקוקסון.
התוצאים מראים כי בין מודלי השפה הגדולים, ChatGPT-3.5 הפגין את הדיוק הגבוה ביותר (P=0.009). ג'מיני הציג ביצועים טובים יותר בשלמות (P<0.001), התאמה אישית (P=0.007) וקריאות (P<0.001). מקורות המידע למטופלים היו עקביים בדיוק ובשלמות, כאשר אתר רופאי המשפחה הצטיין בהתאמה אישית (P=0.013) וקריאות (P<0.001).
מודלי השפה הגדולים המובילים עלו על מקורות המידע למטופלים המהווים סטנדרט זהב בשלמות ובהתאמה אישית, אך היו פחות מדויקים ופחות קריאים. לאורך זמן, יכולת השחזור של התשובות ירדה עבור כל מודלי השפה הגדולים והראתה שונות בין המדדים השונים.
מסקנת החוקרים היא שאף על פי שלמודלי שפה גדולים יש פוטנציאל לספק תשובות מותאמות אישית ושלמות לשאלות מטופלים בנושא מלנומה, שיפור ואבטחת הדיוק, יכולת השחזור והנגישות הם קריטיים לפני שהם יוכלו להחליף או להשלים את מקורות המידע המסורתיים למטופלים.
מקור: