표 6. ChatGPT-5, Gemini 2.5 및 의학사서 검색식의 성능 비교
| 구분 | ChatGPT 5 | Gemini 2.5 | 의학사서 검색식 |
| TPa | 65건 | 69건 | 76건 |
| FNb | 74건 | 70건 | 63건 |
| FPc | 7,787건 | 33,102건 | 50,160건 |
| 민감도(Recall)d | 46.8% | 49.6% | 54.7% |
| 정밀도(Precision)e | 0.83% | 0.21% | 0.15% |
True Positives: 골드 스탠다드에 포함되며 검색 결과로 회수된 관련 문헌.
False Negatives: 골드 스탠다드에는 포함되었으나 검색 결과에서 회수되지 않은 관련 문헌.
False Positives: 검색 결과에는 포함되었으나 골드 스탠다드에는 포함되지 않은 비관련 문헌.
골드 스탠다드 문헌 중 검색식으로 회수된 문헌의 비율(TP / (TP + FN)).
검색 결과 중 골드 스탠다드에 해당하는 문헌의 비율(TP / (TP + FP)).