هشدار به کاربران: نیمی از پاسخ‌های پزشکی هوش مصنوعی اشتباه است

یک تحلیل تازه نشان می‌دهد حدود نیمی از پاسخ‌های پزشکی هوش مصنوعی مشکل‌دار است؛ خطاهایی که بیش از همه در سوال‌های باز و موضوعات خاکستریِ سلامت بروز می‌کند و می‌تواند کاربران را به تصمیم‌های نادرست بکشاند.

به گزارش چندثانیه آنلاین به نقل از وب‌سایت mindbodygreen، پرسش‌هایی مثل «چرا هر شب ساعت ۳ صبح بیدار می‌شوم؟» یا «چرا هر بار غذا می‌خورم دچار نفخ می‌شوم؟» تا چند سال پیش روی کاغذ یا در ذهن‌مان می‌ماند تا وقت ویزیت دکتر برسد، اما حالا مستقیماً در چت‌بات‌های هوش مصنوعی تایپ می‌شوند.

بسیاری از کاربران، هوش مصنوعی را نه به‌عنوان یک «ابزار کمکی» بلکه به‌عنوان «منبع اصلی اطلاعات سلامت» به کار می‌گیرند، چون سریع، در دسترس و ظاهراً بسیار مطمئن حرف می‌زند.

با این حال، یک تحلیل جدید که در مجله BMJ Open منتشر شده نشان می‌دهد آنچه «مطمئن» به نظر می‌رسد، لزوماً دقیق نیست و در برخی موارد می‌تواند کاربران را به سمت تصمیم‌های اشتباه سوق دهد.

در این مطالعه، پژوهشگران تصمیم گرفتند ببینند چت‌بات‌های محبوب هوش مصنوعی تا چه حد در پاسخ‌گویی به سوالات رایج سلامت قابل اتکاست، به‌ویژه در حوزه‌هایی که از قبل مملو از اطلاعات غلط هستند.

آن‌ها پنج مدل پرکاربرد را انتخاب کردند و برای هر مدل ۵۰ سوال طراحی شد که موضوعاتی مثل سرطان، واکسن‌ها، سلول‌های بنیادی، تغذیه و عملکرد ورزشی را پوشش می‌داد.

سوال‌ها تصادفی نبودند؛ بخشی از آن‌ها پاسخ‌های علمی روشن و مبتنی بر شواهد قوی داشت و بخش دیگر عمداً مبهم‌تر طراحی شده بود تا مدل‌ها را به سمت «منطقه‌های خاکستری» و محل تجمع شبه‌علم و شایعات سوق دهد.

هدف این بود که وضعیت واقعیِ استفاده کاربران را شبیه‌سازی کنند؛ یعنی نوع سوال‌هایی که مردم در زندگی روزمره از هوش مصنوعی می‌پرسند، نه صرفاً سوال‌های امتحانی با یک جواب مشخص.

هر پاسخ توسط گروهی از متخصصان و با یک سیستم امتیازدهی ساختارمند ارزیابی شد تا مشخص شود اطلاعات ارائه‌شده دقیق، ناقص، گمراه‌کننده یا بالقوه خطرناک است.

تیم داوری علاوه بر دقت علمی، کیفیت استنادها و میزان قابل‌فهم بودن پاسخ‌ها را هم بررسی کرد.

هدف مطالعه فقط پیدا کردن چند اشتباه واضح نبود، بلکه نوع خطاها و الگوی رفتاری چت‌بات‌ها در شرایط «واقعی» سنجیده شد.

نتیجه کلی قابل تأمل است: حدود نیمی از پاسخ‌های هوش مصنوعی «اشکال‌دار» تشخیص داده شد.

تقریباً ۳۰ درصد پاسخ‌ها دچار کمبود زمینه، ساده‌سازی افراطی یا بزرگ‌نمایی شواهد ضعیف به‌عنوان شواهد قوی بودند.

نزدیک به ۲۰ درصد پاسخ‌ها در دسته «بسیار مشکل‌دار» قرار گرفتند؛ یعنی اگر کاربر بدون مشورت تخصصی بر اساس آن‌ها تصمیم می‌گرفت، احتمالاً به گزینه‌های بی‌اثر یا حتی بالقوه خطرناک هدایت می‌شد.

نویسنده تأکید می‌کند بخش جالب ماجرا فقط نرخ خطا نیست، بلکه این است که این خطاها کجا و چگونه بروز می‌کنند.

پرسش‌های باز و کلی، مشکل‌سازترین حوزه بودند؛ هرچه دست چت‌بات برای تولید پاسخ بلندتر و آزادتر بازتر بود، احتمال گمراه‌کننده بودن جواب بالاتر می‌رفت.

در مقابل، سوال‌های بسته با پاسخ‌های روشن درست/نادرست، عملکرد نسبتاً بهتری داشتند، اما مشکل اینجاست که اغلب مردم پرسش‌های پزشکی خود را به این شکل فرمول‌بندی نمی‌کنند.

موضوع سوال هم مهم بود؛ مدل‌ها در حوزه‌هایی مثل واکسن و سرطان – که حجم زیادی از داده‌های ساختارمند و یک‌دست وجود دارد – عملکرد قابل قبولی داشتند.

اما در تغذیه، تناسب اندام و درمان‌های نوظهوری مثل سلول‌های بنیادی – جایی که توصیه‌ها پر از ظرایف، در حال تغییر و متاثر از مدها و روندهاست – بیشتر به خطا می‌رفتند.

مسئله دیگر «لحن اعتمادبه‌نفس» است؛ چت‌بات‌ها به ندرت‌عدم قطعیت را بیان می‌کردند و خیلی کم پیش می‌آمد که بگویند «این موضوع هنوز در حال بررسی است» یا «برای این مورد باید به متخصص مراجعه کنید».

در عوض، پاسخ‌ها اغلب با قطعیت و اطمینان ارائه می‌شد؛ لحنی که برای کاربر عادی به‌راحتی با «تخصص واقعی» اشتباه گرفته می‌شود.

حتی بخش استنادها که قرار است تکیه‌گاه علمی پاسخ باشد، قابل اعتماد نبود؛ شماری از ارجاعات ناقص، مبهم یا کاملاً ساختگی بودند.

زبان پاسخ‌ها نیز معمولاً پیچیده و در سطحی نوشته شده بود که انگار خواننده حتماً تحصیلات دانشگاهی دارد؛ همین پیچیدگی، به‌طور تناقض‌آمیز، متن را برای بسیاری از مخاطبان «قابل‌اعتمادتر» و علمی‌تر جلوه می‌داد، حتی وقتی دقیق نبود.

نویسنده در بخش راهکارها تأکید می‌کند این نتایج به معنی کنار گذاشتن کامل هوش مصنوعی در حوزه سلامت نیست؛ بلکه باید شیوه استفاده‌مان را تغییر دهیم.

نخستین توصیه، دقت در نحوه پرسیدن سوال است؛ هرچه پرسش مشخص‌تر و محدودتر باشد، احتمال دریافت پاسخ درست بیشتر است.

به جای سوال‌های کلی از جنس «بهترین رژیم برای تعادل هورمونی چیست؟»، بهتر است درباره «ریسک‌ها، مزایا و سطح شواهد» در مورد یک رویکرد مشخص سوال شود.

توصیه دوم، توجه به لحن پاسخ است؛ اگر در موضوعی پیچیده، جواب بیش از حد قطعی و بدون هیچ قید و شرطی ارائه می‌شود، باید زنگ خطر را جدی گرفت.

در علم پزشکی، قطعیت مطلق تقریباً وجود ندارد و نبود هرگونه اشاره به محدودیت‌ها اغلب نشانه ساده‌سازی افراطی است، نه شفافیت بیشتر.

توصیه سوم، بدبینی سازنده نسبت به استنادهاست؛ اگر چت‌بات به مطالعه‌ای ارجاع می‌دهد، کاربر باید دست‌کم تلاش کند وجود و محتوای آن منبع را با یک جست‌وجوی ساده چک کند.

نویسنده یادآور می‌شود که ارجاع‌های ساختگی همیشه به‌راحتی قابل تشخیص نیست، به‌خصوص برای کسی که عادت به خواندن مقالات علمی ندارد.

مهم‌تر از همه، باید مرزی روشن برای توانایی‌های هوش مصنوعی در نظر گرفت؛ این ابزار می‌تواند برای فهم مفاهیم، ساختن سوال برای دکتر یا ترجمه اطلاعات پیچیده به زبان ساده کمک‌کننده باشد.

اما هوش مصنوعی قادر نیست وضعیت اختصاصی بدن فرد، تناقض‌های شواهد یا ملاحظات بالینی را مثل یک پزشک ارزیابی کند و تصمیم نهایی بگیرد.

در جمع‌بندی، مقاله می‌گوید مشکل فقط «دقت» نیست، بلکه «انتظاری» است که کاربر از این فناوری دارد؛ بسیاری از ما با هوش مصنوعی مثل «منبع حقیقت» برخورد می‌کنیم، در حالی که در اصل، این سیستم برای تولید پاسخی طراحی شده که «خوب به نظر برسد».

نویسنده نتیجه می‌گیرد اگر هوش مصنوعی را نقطه شروع بدانیم، می‌تواند درک ما را از موضوعات سلامت افزایش دهد و مسیر پرسش‌گری را هموار کند؛ اما اگر آن را تنها منبع تصمیم‌گیری قرار دهیم، خطر آنجاست که به حرف‌هایی تکیه کنیم که فقط قانع‌کننده به نظر می‌رسند، نه لزوماً علمی و دقیق.