AI cũng giỏi chẩn đoán bệnh tật như con người

Đánh giá có hệ thống và phân tích tổng hợp đầu tiên của loại hình này cho thấy trí tuệ nhân tạo (AI) cũng tốt trong việc chẩn đoán bệnh dựa trên hình ảnh y tế như các chuyên gia chăm sóc sức khỏe. Tuy nhiên, các nghiên cứu chất lượng cao hơn là cần thiết.

Nghiên cứu mới cho thấy các chuyên gia chăm sóc sức khỏe và AI đều có hiệu quả như nhau trong việc chẩn đoán bệnh tật dựa trên hình ảnh y tế.

Một bài báo mới xem xét các bằng chứng hiện có trong nỗ lực xác định xem liệu AI có thể chẩn đoán bệnh tật hiệu quả như các chuyên gia chăm sóc sức khỏe hay không.

Theo hiểu biết của các tác giả - tức là một nhóm lớn các nhà nghiên cứu do Giáo sư Alastair Denniston dẫn đầu từ Bệnh viện Đại học Birmingham NHS Foundation Trust ở Vương quốc Anh - đây là bài đánh giá có hệ thống đầu tiên so sánh hiệu suất của AI với các chuyên gia y tế về tất cả các bệnh.

Giáo sư Denniston và nhóm nghiên cứu đã tìm kiếm một số cơ sở dữ liệu y tế cho tất cả các nghiên cứu được công bố từ ngày 1 tháng 1 năm 2012 đến ngày 6 tháng 6 năm 2019. Nhóm đã công bố kết quả phân tích của họ trên tạp chí Sức khỏe kỹ thuật số Lancet.

AI ngang hàng với các chuyên gia chăm sóc sức khỏe

Các nhà nghiên cứu đã tìm kiếm các nghiên cứu so sánh hiệu quả chẩn đoán của các thuật toán học sâu với hiệu quả chẩn đoán của các chuyên gia chăm sóc sức khỏe khi họ chẩn đoán dựa trên hình ảnh y tế.

Họ đã kiểm tra chất lượng của báo cáo trong các nghiên cứu nói trên, giá trị lâm sàng của chúng và thiết kế của nghiên cứu.

Hơn nữa, khi đánh giá hiệu suất chẩn đoán của AI so với hiệu suất chẩn đoán của các chuyên gia chăm sóc sức khỏe, các nhà nghiên cứu đã xem xét hai kết quả: độ đặc hiệu và độ nhạy.

“Độ nhạy” xác định xác suất mà một công cụ chẩn đoán nhận được kết quả dương tính ở những người mắc bệnh. Độ đặc hiệu đề cập đến độ chính xác của xét nghiệm chẩn đoán, bổ sung cho phép đo độ nhạy.

Quá trình lựa chọn chỉ mang lại 14 nghiên cứu có chất lượng đủ cao để đưa vào phân tích. Giáo sư Denniston giải thích, "Chúng tôi đã xem xét hơn 20.500 bài báo, nhưng chưa đến 1% trong số này đủ mạnh mẽ trong thiết kế và báo cáo rằng những người đánh giá độc lập có độ tin tưởng cao vào tuyên bố của họ."

“Hơn nữa, chỉ có 25 nghiên cứu xác thực các mô hình AI bên ngoài (sử dụng hình ảnh y tế từ một nhóm dân số khác) và chỉ 14 nghiên cứu so sánh hiệu suất của AI và các chuyên gia y tế sử dụng cùng một mẫu thử nghiệm.”

“Trong số ít các nghiên cứu chất lượng cao đó, chúng tôi nhận thấy rằng học sâu thực sự có thể phát hiện các bệnh từ ung thư đến các bệnh về mắt một cách chính xác như các chuyên gia y tế. Nhưng điều quan trọng cần lưu ý là AI về cơ bản không vượt trội hơn nhiều so với chẩn đoán của con người. "

Giáo sư Alastair Denniston

Cụ thể hơn, phân tích cho thấy AI có thể chẩn đoán chính xác bệnh trong 87% trường hợp, trong khi phát hiện bởi các chuyên gia y tế mang lại tỷ lệ chính xác 86%. Độ chuyên biệt cho các thuật toán học sâu là 93%, so với con người là 91%.

Những thành kiến ​​có thể phóng đại hiệu suất AI

Giáo sư Denniston và các đồng nghiệp cũng thu hút sự chú ý đến một số hạn chế mà họ tìm thấy trong các nghiên cứu kiểm tra hiệu suất chẩn đoán AI.

Thứ nhất, hầu hết các nghiên cứu kiểm tra độ chính xác chẩn đoán của AI và các chuyên gia chăm sóc sức khỏe trong một môi trường biệt lập không bắt chước thực hành lâm sàng thông thường - ví dụ: tước bỏ thông tin lâm sàng bổ sung của bác sĩ mà họ thường cần để chẩn đoán.

Thứ hai, các nhà nghiên cứu nói, hầu hết các nghiên cứu chỉ so sánh các bộ dữ liệu, trong khi nghiên cứu chất lượng cao về hiệu suất chẩn đoán sẽ yêu cầu thực hiện các so sánh như vậy ở người.

Hơn nữa, tất cả các nghiên cứu đều bị báo cáo kém, các tác giả cho biết, với phân tích không tính đến thông tin bị thiếu từ các bộ dữ liệu nói trên. Các tác giả viết: “Hầu hết [các nghiên cứu] không báo cáo liệu có bất kỳ dữ liệu nào bị thiếu hay không, tỷ lệ này đại diện như thế nào và dữ liệu bị thiếu được xử lý như thế nào trong phân tích.

Các hạn chế bổ sung bao gồm thuật ngữ không nhất quán, không đặt ra ngưỡng rõ ràng cho phân tích độ nhạy và độ đặc hiệu, và thiếu xác nhận ngoài mẫu.

“Có một sự căng thẳng cố hữu giữa mong muốn sử dụng các chẩn đoán mới, có khả năng cứu sống và sự bắt buộc phải phát triển bằng chứng chất lượng cao theo cách có thể mang lại lợi ích cho bệnh nhân và hệ thống y tế trong thực hành lâm sàng,” tác giả đầu tiên, Tiến sĩ Xiaoxuan Liu từ trang Đại học Birmingham.

“Một bài học quan trọng từ công việc của chúng tôi là trong AI - cũng như bất kỳ phần nào khác của chăm sóc sức khỏe - thiết kế nghiên cứu tốt rất quan trọng. Nếu không có nó, bạn có thể dễ dàng đưa ra sự thiên vị làm sai lệch kết quả của bạn. Những thành kiến ​​này có thể dẫn đến những tuyên bố phóng đại về hiệu suất tốt cho các công cụ AI không chuyển sang thế giới thực ”.

Tiến sĩ Xiaoxuan Liu

Đồng tác giả, Tiến sĩ Livia Faes từ Bệnh viện Mắt Moorfields, London, Vương quốc Anh cho biết thêm: “Bằng chứng về cách các thuật toán AI sẽ thay đổi kết quả của bệnh nhân cần đến từ việc so sánh với các xét nghiệm chẩn đoán thay thế trong các thử nghiệm đối chứng ngẫu nhiên.

“Cho đến nay, hầu như không có bất kỳ thử nghiệm nào như vậy mà các quyết định chẩn đoán do thuật toán AI đưa ra được thực hiện để xem điều gì sẽ xảy ra với các kết quả thực sự quan trọng đối với bệnh nhân, như điều trị kịp thời, thời gian xuất viện hoặc thậm chí là tỷ lệ sống sót”.

none:  thuốc bổ sung - thuốc thay thế thuốc khẩn cấp sự phá thai