目的 评价国内5种中文大语言模型(large language models, LLMs)在乳腺癌相关淋巴水肿常见问题问答中的综合表现,为其应用及优化提供依据。方法 基于LLMs、小组讨论和专家意见确定100个乳腺癌相关淋巴水肿的常见问题,分别由3名护理硕士生将问题输入5种LLMs模拟咨询,邀请5位专家从整体质量、准确性、全面性方面评估模型表现,以字符数评价应答的简洁性,分析模型的性能表现。采用组内相关系数(intraclass correlation coefficient, ICC)评价专家间一致性。结果 5位专家评价者间一致性中等(ICC=0.594)。5种LLMs综合表现均较好,“豆包”的整体质量和准确性评分均高于其他模型,差异有统计学意义(均P<0.05);“豆包”与“通义千问”的全面性评分差异无统计学意义(P>0.05);二者评分均高于其他模型,差异有统计学意义(均P<0.05);“DeepSeek”和“文心一言”的字符数低于其他模型,差异均有统计学意义(均P<0.05)。结论 以“豆包”为代表的LLMs在乳腺癌患者淋巴水肿相关护理问答的模拟咨询场景中显示出应用潜力,可进一步评价其在乳腺癌相关淋巴水肿预防管理中的应用效果。