Polacy przeegzaminowali ChatGPT. Będzie z niego internista?
Polscy naukowcy jako pierwsi na świecie postanowili przetestować ChatGPT z zakresu interny. Zbadali, czy ChatGPT będzie w stanie zdać polski egzamin, który jest wymagany do uzyskania tytułu specjalisty chorób wewnętrznych. Jak sobie poradziła sztuczna inteligencja z tym zadaniem?
ChatGPT szturmem podbił internet, masowo korzystają z niego nie tylko hobbyści, ale i rozmaite firmy, gdzie AI wspiera w pracy między innymi osoby zajmujące się na co dzień takimi dziedzinami, jak programowanie, czy tłumaczenia.
Rozwój AI doprowadził nawet do tego, że wykorzystuje się ją jako wsparcie naukowe w wielu dziedzinach. Sam tylko ChatGPT był już poddawany wielu testom z zakresu różnych gałęzi medycyny - między innymi zdał już amerykański egzamin licencjonowania medycznego USMLE oraz europejski egzamin z podstawowej kardiologii. A jak mu poszło w polskich testach?
Niedawno naukowcy z Collegium Medicum im. Ludwika Rydygiera w Bydgoszczy jako pierwsi na świecie postanowili sprawdzić, jak ChatGPT poradzi sobie podczas egzaminu z interny.
- Interna nazywana jest królową nauk medycznych. Od lekarzy specjalizujących się w chorobach wewnętrznych wymagana jest rozległa wiedza, a także duża koncentracja i samodyscyplina - napisali autorzy omawianego badania na łamach "Polish Archives of Internal Medicine".
Jak wypadła sztuczna inteligencja w tym teście? Jak się okazuje, nie najlepiej! Internistą ChatGPT zostać jeszcze nie może. Naukowcy pokazali, jakie osiągnął wyniki w polskim egzaminie.
Badacze zaprezentowali AI łącznie 1191 pytań, które pojawiły się na egzaminach certyfikacyjnych w latach 2013-2017. Okazało się, że uzyskany przez ChatGPT wskaźnik prawidłowych odpowiedzi wahał się od 47,5 proc. do 53,33 proc. (mediana 49,37 proc.), podaje PAP. Jest to zdecydowanie za mało, aby sztuczna inteligencja zaliczyła polski egzamin konieczny do uzyskania tytułu specjalisty chorób wewnętrznych. Próg to 60 proc. poprawnych odpowiedzi.
- We wszystkich sesjach wyniki ChatGPT były znacznie gorsze od wyników egzaminowanych ludzi, których wyniki wahały się między 65,21 proc. a 71,95 proc. - zaznaczyli naukowcy z Bydgoszczy.
Naukowcy z Bydgoszczy zaznaczyli jednak, że ich eksperyment miał pewne ograniczenia. Przede wszystkim egzamin prowadzony był w języku polskim, a ChatGPT zaprojektowany jest po angielsku. Poza tym model jest regularnie aktualizowany, więc wersja zastosowana w badaniu w momencie publikacji nie była tą najnowszą.