هشدار به کاربران: نیمی از پاسخهای پزشکی هوش مصنوعی اشتباه است
یک تحلیل تازه نشان میدهد حدود نیمی از پاسخهای پزشکی هوش مصنوعی مشکلدار است؛ خطاهایی که بیش از همه در سوالهای باز و موضوعات خاکستریِ سلامت بروز میکند و میتواند کاربران را به تصمیمهای نادرست بکشاند.
به گزارش چندثانیه آنلاین به نقل از وبسایت mindbodygreen، پرسشهایی مثل «چرا هر شب ساعت ۳ صبح بیدار میشوم؟» یا «چرا هر بار غذا میخورم دچار نفخ میشوم؟» تا چند سال پیش روی کاغذ یا در ذهنمان میماند تا وقت ویزیت دکتر برسد، اما حالا مستقیماً در چتباتهای هوش مصنوعی تایپ میشوند.
بسیاری از کاربران، هوش مصنوعی را نه بهعنوان یک «ابزار کمکی» بلکه بهعنوان «منبع اصلی اطلاعات سلامت» به کار میگیرند، چون سریع، در دسترس و ظاهراً بسیار مطمئن حرف میزند.
با این حال، یک تحلیل جدید که در مجله BMJ Open منتشر شده نشان میدهد آنچه «مطمئن» به نظر میرسد، لزوماً دقیق نیست و در برخی موارد میتواند کاربران را به سمت تصمیمهای اشتباه سوق دهد.
در این مطالعه، پژوهشگران تصمیم گرفتند ببینند چتباتهای محبوب هوش مصنوعی تا چه حد در پاسخگویی به سوالات رایج سلامت قابل اتکاست، بهویژه در حوزههایی که از قبل مملو از اطلاعات غلط هستند.
آنها پنج مدل پرکاربرد را انتخاب کردند و برای هر مدل ۵۰ سوال طراحی شد که موضوعاتی مثل سرطان، واکسنها، سلولهای بنیادی، تغذیه و عملکرد ورزشی را پوشش میداد.
سوالها تصادفی نبودند؛ بخشی از آنها پاسخهای علمی روشن و مبتنی بر شواهد قوی داشت و بخش دیگر عمداً مبهمتر طراحی شده بود تا مدلها را به سمت «منطقههای خاکستری» و محل تجمع شبهعلم و شایعات سوق دهد.
هدف این بود که وضعیت واقعیِ استفاده کاربران را شبیهسازی کنند؛ یعنی نوع سوالهایی که مردم در زندگی روزمره از هوش مصنوعی میپرسند، نه صرفاً سوالهای امتحانی با یک جواب مشخص.
هر پاسخ توسط گروهی از متخصصان و با یک سیستم امتیازدهی ساختارمند ارزیابی شد تا مشخص شود اطلاعات ارائهشده دقیق، ناقص، گمراهکننده یا بالقوه خطرناک است.
تیم داوری علاوه بر دقت علمی، کیفیت استنادها و میزان قابلفهم بودن پاسخها را هم بررسی کرد.
هدف مطالعه فقط پیدا کردن چند اشتباه واضح نبود، بلکه نوع خطاها و الگوی رفتاری چتباتها در شرایط «واقعی» سنجیده شد.
نتیجه کلی قابل تأمل است: حدود نیمی از پاسخهای هوش مصنوعی «اشکالدار» تشخیص داده شد.
تقریباً ۳۰ درصد پاسخها دچار کمبود زمینه، سادهسازی افراطی یا بزرگنمایی شواهد ضعیف بهعنوان شواهد قوی بودند.
نزدیک به ۲۰ درصد پاسخها در دسته «بسیار مشکلدار» قرار گرفتند؛ یعنی اگر کاربر بدون مشورت تخصصی بر اساس آنها تصمیم میگرفت، احتمالاً به گزینههای بیاثر یا حتی بالقوه خطرناک هدایت میشد.
نویسنده تأکید میکند بخش جالب ماجرا فقط نرخ خطا نیست، بلکه این است که این خطاها کجا و چگونه بروز میکنند.
پرسشهای باز و کلی، مشکلسازترین حوزه بودند؛ هرچه دست چتبات برای تولید پاسخ بلندتر و آزادتر بازتر بود، احتمال گمراهکننده بودن جواب بالاتر میرفت.
در مقابل، سوالهای بسته با پاسخهای روشن درست/نادرست، عملکرد نسبتاً بهتری داشتند، اما مشکل اینجاست که اغلب مردم پرسشهای پزشکی خود را به این شکل فرمولبندی نمیکنند.
موضوع سوال هم مهم بود؛ مدلها در حوزههایی مثل واکسن و سرطان – که حجم زیادی از دادههای ساختارمند و یکدست وجود دارد – عملکرد قابل قبولی داشتند.
اما در تغذیه، تناسب اندام و درمانهای نوظهوری مثل سلولهای بنیادی – جایی که توصیهها پر از ظرایف، در حال تغییر و متاثر از مدها و روندهاست – بیشتر به خطا میرفتند.
مسئله دیگر «لحن اعتمادبهنفس» است؛ چتباتها به ندرتعدم قطعیت را بیان میکردند و خیلی کم پیش میآمد که بگویند «این موضوع هنوز در حال بررسی است» یا «برای این مورد باید به متخصص مراجعه کنید».
در عوض، پاسخها اغلب با قطعیت و اطمینان ارائه میشد؛ لحنی که برای کاربر عادی بهراحتی با «تخصص واقعی» اشتباه گرفته میشود.
حتی بخش استنادها که قرار است تکیهگاه علمی پاسخ باشد، قابل اعتماد نبود؛ شماری از ارجاعات ناقص، مبهم یا کاملاً ساختگی بودند.
زبان پاسخها نیز معمولاً پیچیده و در سطحی نوشته شده بود که انگار خواننده حتماً تحصیلات دانشگاهی دارد؛ همین پیچیدگی، بهطور تناقضآمیز، متن را برای بسیاری از مخاطبان «قابلاعتمادتر» و علمیتر جلوه میداد، حتی وقتی دقیق نبود.
نویسنده در بخش راهکارها تأکید میکند این نتایج به معنی کنار گذاشتن کامل هوش مصنوعی در حوزه سلامت نیست؛ بلکه باید شیوه استفادهمان را تغییر دهیم.
نخستین توصیه، دقت در نحوه پرسیدن سوال است؛ هرچه پرسش مشخصتر و محدودتر باشد، احتمال دریافت پاسخ درست بیشتر است.
به جای سوالهای کلی از جنس «بهترین رژیم برای تعادل هورمونی چیست؟»، بهتر است درباره «ریسکها، مزایا و سطح شواهد» در مورد یک رویکرد مشخص سوال شود.
توصیه دوم، توجه به لحن پاسخ است؛ اگر در موضوعی پیچیده، جواب بیش از حد قطعی و بدون هیچ قید و شرطی ارائه میشود، باید زنگ خطر را جدی گرفت.
در علم پزشکی، قطعیت مطلق تقریباً وجود ندارد و نبود هرگونه اشاره به محدودیتها اغلب نشانه سادهسازی افراطی است، نه شفافیت بیشتر.
توصیه سوم، بدبینی سازنده نسبت به استنادهاست؛ اگر چتبات به مطالعهای ارجاع میدهد، کاربر باید دستکم تلاش کند وجود و محتوای آن منبع را با یک جستوجوی ساده چک کند.
نویسنده یادآور میشود که ارجاعهای ساختگی همیشه بهراحتی قابل تشخیص نیست، بهخصوص برای کسی که عادت به خواندن مقالات علمی ندارد.
مهمتر از همه، باید مرزی روشن برای تواناییهای هوش مصنوعی در نظر گرفت؛ این ابزار میتواند برای فهم مفاهیم، ساختن سوال برای دکتر یا ترجمه اطلاعات پیچیده به زبان ساده کمککننده باشد.
اما هوش مصنوعی قادر نیست وضعیت اختصاصی بدن فرد، تناقضهای شواهد یا ملاحظات بالینی را مثل یک پزشک ارزیابی کند و تصمیم نهایی بگیرد.
در جمعبندی، مقاله میگوید مشکل فقط «دقت» نیست، بلکه «انتظاری» است که کاربر از این فناوری دارد؛ بسیاری از ما با هوش مصنوعی مثل «منبع حقیقت» برخورد میکنیم، در حالی که در اصل، این سیستم برای تولید پاسخی طراحی شده که «خوب به نظر برسد».
نویسنده نتیجه میگیرد اگر هوش مصنوعی را نقطه شروع بدانیم، میتواند درک ما را از موضوعات سلامت افزایش دهد و مسیر پرسشگری را هموار کند؛ اما اگر آن را تنها منبع تصمیمگیری قرار دهیم، خطر آنجاست که به حرفهایی تکیه کنیم که فقط قانعکننده به نظر میرسند، نه لزوماً علمی و دقیق.