BMC Medical Informatics and Decision Making

Table 5 Significance testing of different models on simple questions

From: Effectiveness of various general large language models in clinical consensus and case analysis in dental implantology: a comparative study

Group comparison		p-value
ChatGPT-4 vs. Qwen 2.0 72B		0.035
ChatGPT-4 vs. Claude 3 Opus		0.752
ChatGPT-4 vs. Gemini Pro 1.5(0801)		0.316
Qwen 2.0 72B vs. Claude 3 Opus		0.074
Qwen 2.0 72B vs. Gemini Pro 1.5(0801)		0.002
Claude 3 Opus vs. Gemini Pro 1.5(0801)		0.187

Back to article page

ISSN: 1472-6947

Contact us

General enquiries: journalsubmissions@springernature.com