표 6. ChatGPT-5, Gemini 2.5 및 의학사서 검색식의 성능 비교

구분	ChatGPT 5	Gemini 2.5	의학사서 검색식
TP^a	65건	69건	76건
FN^b	74건	70건	63건
FP^c	7,787건	33,102건	50,160건
민감도(Recall)^d	46.8%	49.6%	54.7%
정밀도(Precision)^e	0.83%	0.21%	0.15%

True Positives: 골드 스탠다드에 포함되며 검색 결과로 회수된 관련 문헌.
False Negatives: 골드 스탠다드에는 포함되었으나 검색 결과에서 회수되지 않은 관련 문헌.
False Positives: 검색 결과에는 포함되었으나 골드 스탠다드에는 포함되지 않은 비관련 문헌.
골드 스탠다드 문헌 중 검색식으로 회수된 문헌의 비율(TP / (TP + FN)).
검색 결과 중 골드 스탠다드에 해당하는 문헌의 비율(TP / (TP + FP)).