Сгенерированные рентгенограммы неотличимы от настоящих даже для специалистов

Фото: Video_Stock _Production/FOTODOM/Shutterstock

В рамках нового исследования 17 рентгенологов из 12 больниц шести стран выполнили анализ 264 рентгенограмм, половина из которых была сгенерирована с помощью инструментов искусственного интеллекта ChatGPT и RoentGen.

В условиях, когда рентгенологи не были осведомлены о подлинной цели эксперимента, лишь 41% участников смогли распознать, какие рентгеновские снимки были созданы искусственным интеллектом.

После того как специалистов предупредили о наличии сгенерированных изображений, средняя точность распознавания сгенерированных снимков выросла до 75%.

Как отметил руководитель исследования Микаэль Торджман из нью-йоркской больницы Mount Sinai, возможность генерации рентгеновских изображений, способных ввести в заблуждение специалистов, «создает высокую вероятность мошенничества при судебных разбирательствах, когда ложный перелом может быть неотличим от настоящего».

Точность четырех больших языковых моделей (LLM) — GPT-4o, GPT-5, Gemini 2.5 Pro и Llama 4 Maverick— при обнаружении сгенерированных изображений варьировала в пределах 57–85%.

Даже ChatGPT-4o, сгенерировавший самые реалистичные рентгенограммы, оказался не способен обнаружить все созданные им же изображения, хотя показал лучший результат по сравнению с другими LLM.

Авторы исследования указывают на необходимость внедрения цифровых средств защиты, позволяющих различать реальные и сгенерированные изображения. К числу перспективных решений относятся невидимые водяные знаки, обеспечивающие подтверждение подлинности и предотвращающие фальсификацию.