표 6. ChatGPT-5, Gemini 2.5 및 의학사서 검색식의 성능 비교

구분 ChatGPT 5 Gemini 2.5 의학사서 검색식
TPa 65건 69건 76건
FNb 74건 70건 63건
FPc 7,787건 33,102건 50,160건
민감도(Recall)d 46.8% 49.6% 54.7%
정밀도(Precision)e 0.83% 0.21% 0.15%
True Positives: 골드 스탠다드에 포함되며 검색 결과로 회수된 관련 문헌.
False Negatives: 골드 스탠다드에는 포함되었으나 검색 결과에서 회수되지 않은 관련 문헌.
False Positives: 검색 결과에는 포함되었으나 골드 스탠다드에는 포함되지 않은 비관련 문헌.
골드 스탠다드 문헌 중 검색식으로 회수된 문헌의 비율(TP / (TP + FN)).
검색 결과 중 골드 스탠다드에 해당하는 문헌의 비율(TP / (TP + FP)).