Polacy przeegzaminowali ChatGPT. Będzie z niego internista?

Paula Drechsler

Sztuczna inteligencja

Piątek, 12 kwietnia (21:25)

Polscy naukowcy jako pierwsi na świecie postanowili przetestować ChatGPT z zakresu interny. Zbadali, czy ChatGPT będzie w stanie zdać polski egzamin, który jest wymagany do uzyskania tytułu specjalisty chorób wewnętrznych. Jak sobie poradziła sztuczna inteligencja z tym zadaniem?

ChatGPT szturmem podbił internet, masowo korzystają z niego nie tylko hobbyści, ale i rozmaite firmy, gdzie AI wspiera w pracy między innymi osoby zajmujące się na co dzień takimi dziedzinami, jak programowanie, czy tłumaczenia.

Rozwój AI doprowadził nawet do tego, że wykorzystuje się ją jako wsparcie naukowe w wielu dziedzinach. Sam tylko ChatGPT był już poddawany wielu testom z zakresu różnych gałęzi medycyny - między innymi zdał już amerykański egzamin licencjonowania medycznego USMLE oraz europejski egzamin z podstawowej kardiologii. A jak mu poszło w polskich testach?

Reklama

ChatGPT podszedł do polskiego egzaminu z interny. Jak sobie poradziła sztuczna inteligencja?

Niedawno naukowcy z Collegium Medicum im. Ludwika Rydygiera w Bydgoszczy jako pierwsi na świecie postanowili sprawdzić, jak ChatGPT poradzi sobie podczas egzaminu z interny.

- Interna nazywana jest królową nauk medycznych. Od lekarzy specjalizujących się w chorobach wewnętrznych wymagana jest rozległa wiedza, a także duża koncentracja i samodyscyplina - napisali autorzy omawianego badania na łamach "Polish Archives of Internal Medicine".

Jak wypadła sztuczna inteligencja w tym teście? Jak się okazuje, nie najlepiej! Internistą ChatGPT zostać jeszcze nie może. Naukowcy pokazali, jakie osiągnął wyniki w polskim egzaminie.

ChatGPT poddany testom. Jak poszedł mu egzamin na specjalistę chorób wewnętrznych?

Badacze zaprezentowali AI łącznie 1191 pytań, które pojawiły się na egzaminach certyfikacyjnych w latach 2013-2017. Okazało się, że uzyskany przez ChatGPT wskaźnik prawidłowych odpowiedzi wahał się od 47,5 proc. do 53,33 proc. (mediana 49,37 proc.), podaje PAP. Jest to zdecydowanie za mało, aby sztuczna inteligencja zaliczyła polski egzamin konieczny do uzyskania tytułu specjalisty chorób wewnętrznych. Próg to 60 proc. poprawnych odpowiedzi.

- We wszystkich sesjach wyniki ChatGPT były znacznie gorsze od wyników egzaminowanych ludzi, których wyniki wahały się między 65,21 proc. a 71,95 proc. - zaznaczyli naukowcy z Bydgoszczy.

Naukowcy z Bydgoszczy zaznaczyli jednak, że ich eksperyment miał pewne ograniczenia. Przede wszystkim egzamin prowadzony był w języku polskim, a ChatGPT zaprojektowany jest po angielsku. Poza tym model jest regularnie aktualizowany, więc wersja zastosowana w badaniu w momencie publikacji nie była tą najnowszą.

Wzloty i upadki sztucznej inteligencji. Z czym ChatGPT miał problem na egzaminie?

Wyniki modelu językowego były różne w zależności od tego, jaka była długości pytania, podaje PAP. Chat najlepiej radził sobie z pytaniami, które były najkrótsze. Pytania stosunkowo krótkie nie szły mu już jednak tak dobrze. Po tych najkrótszych, najlepiej radził sobie kolejno z pytaniami długimi, bardzo długimi, a dopiero na końcu dość krótkimi i tymi o średniej długości. Ciekawą obserwacją naukowców w przypadku tej analizy jest fakt, że u ludzi wyglądało to bardzo podobnie.

Jeśli chodzi o trudność pytań, polscy badacze ustalili, że poprawność odpowiedzi ChatuGPT stopniowo spadała wraz ze wzrostem trudności zadania. Jest to w pełni zgodne z ludzkimi zachowaniami. W przypadku poszczególnych dziedzin medycyny wewnętrznej ChatGPT najlepiej radził sobie z odpowiedziami z zakresu alergologii, chorób zakaźnych i endokrynologii, a najgorzej wypadł w przypadku pulmonologii, diabetologii i kardiologii.

Choć w wielu badaniach na całym świecie udowodniono już skuteczność stosowania algorytmów jako wsparcia w różnych dziedzinach medycyny, to badacze podkreślają, że z pewnością w najbliższej przyszłości AI nie zastąpi całkiem pracy człowieka w tym obszarze.

- Jest mało prawdopodobne, aby sztuczna inteligencja była w stanie w najbliższej przyszłości zastąpić pracowników ochrony zdrowia, szczególnie w dziedzinie chorób wewnętrznych; nawet najbardziej wyrafinowane algorytmy i technologie wspomagane przez sztuczną inteligencję nie są w stanie diagnozować i leczyć chorób bez udziału człowieka - podsumowali naukowcy.