让DeepSeek考《混凝土结构》，它能得多少分？

原创课题组陆新征课题组

2025年02月08日 11:15

两年多以前，在ChatGPT等大语言模型刚刚上线的时候，我就给组里的研究生出了一个考题：如果让AI来考《混凝土结构》等专业课，它能得多少分？

组里覃思中等同学完成了这个任务，他们研究发现，配合上专业资料库后，当时的大语言模型已经可以正确回答《混凝土结构（上册）》的很多专业问题，AI最好的考试成绩得分62分（超过及格线）。我们觉得这是一个非常有前途的研究动向，所以和同学们一起撰写了论文，并有幸发表在《工业建筑》期刊上，详见：编委特刊 | 陆新征教授团队：大语言模型在建筑工程中的应用测试与讨论。

图1 2023年不同大语言模型《混凝土结构（上册）》判断题的测试结果

图2 2023年不同大语言模型《混凝土结构（上册）》填空题的测试结果

近期DeepSeek模型火热，那如果现在的DeepSeek完成上述测试，结果会怎样呢？我本有心再测试一下，但是由于之前要完成上述测试，需要搭建环境、调试程序，工程量太大，所以一直没有动手。

昨天看到网上资料介绍Cherry Studio程序，提供了大语言模型+知识库的“傻瓜化”操作功能。我看后觉得这也太方便了，便忍不住测试了一下。测试是在我去年6000元买的一台家用台式机上进行的。测试过程一共分成3步，耗时仅仅10分钟。

第一步：安装Cherry Studio程序，配置DeepSeek的API。这个过程网络上到处都是教学视频，非常简单（大概三四分钟吧）。

第二步：进入Cherry Studio的“知识库”页面，把当初覃思中等收集到的混凝土结构有关资料引入Cherry Studio（大概两三分钟吧）。

图3 把混凝土教材、规范等资料放置在一个目录下，然后加入Cherry Studio的知识库

第三步：编写提示词“你是一名大学教授，请检索知识库，提交你的答复，并对你的答复进行检查，不应有虚构或不可靠的内容。”，然后把判断题、填空题一股脑输入给AI（大概两三分钟）。

图4 输入填空题和判断题的问题

好了，到此所有操作过程完成，10分钟绰绰有余。

下面就开始欣赏DeepSeek的回答：

图5 DeepSeek的思考过程和答案

最后DeepSeek的得分是多少分呢？大家猜猜看？

填空题得分98分！判断题得分92分。我也复核了一下DeepSeek回答和标准答案不一致的题目，比如DeepSeek唯一和标准答案不一致的填空题题目：当增加钢筋混凝土超筋梁纵向受拉钢筋数量时，其正截面受弯承载力将__

标准答案是：保持不变，而DeepSeek的答案是：不显著提高。DeepSeek的思考过程如下：

图6 DeepSeek的思考过程

这题DeepSeek到底错了多少，大家可以讨论。

小结：两年多以前，当我们第一次尝试用大语言模型+知识库回答专业问题时，虽然当时的大语言模型和本地知识库模型还比较孱弱，但是已经让人看到了非常令人欣喜的研究和应用前景。而短短两年以后，AI不仅实现了巨大的性能提升（考核成绩已经远超一般大学生的水平），而且整个智能系统的构建仅仅需要10分钟的时间，外加一台6000元的电脑。

一个新的时代已经到来，各个专业将来该如何应对？我们的专业教学该如何应对？这是一个值得深思的问题。

---End---

智能设计平台网站：

建筑结构生成式智能设计软件操作全流程

相关研究

学术报告视频

专著

人工智能与机器学习

---结构智能设计

---其他土木工程领域人工智能研究

城市灾害模拟与韧性城市

高性能结构与防倒塌

长按识别二维码，关注我们的科研动态