两年多以前,在ChatGPT等大语言模型刚刚上线的时候,我就给组里的研究生出了一个考题:如果让AI来考《混凝土结构》等专业课,它能得多少分?组里覃思中等同学完成了这个任务,他们研究发现,配合上专业资料库后,当时的大语言模型已经可以正确回答《混凝土结构(上册)》的很多专业问题,AI最好的考试成绩得分62分(超过及格线)。我们觉得这是一个非常有前途的研究动向,所以和同学们一起撰写了论文,并有幸发表在《工业建筑》期刊上,详见:编委特刊 | 陆新征教授团队:大语言模型在建筑工程中的应用测试与讨论。图1 2023年不同大语言模型《混凝土结构(上册)》判断题的测试结果
图2 2023年不同大语言模型《混凝土结构(上册)》填空题的测试结果近期DeepSeek模型火热,那如果现在的DeepSeek完成上述测试,结果会怎样呢?我本有心再测试一下,但是由于之前要完成上述测试,需要搭建环境、调试程序,工程量太大,所以一直没有动手。昨天看到网上资料介绍Cherry Studio程序,提供了大语言模型+知识库的“傻瓜化”操作功能。我看后觉得这也太方便了,便忍不住测试了一下。测试是在我去年6000元买的一台家用台式机上进行的。测试过程一共分成3步,耗时仅仅10分钟。第一步:安装Cherry Studio程序,配置DeepSeek的API。这个过程网络上到处都是教学视频,非常简单(大概三四分钟吧)。第二步:进入Cherry Studio的“知识库”页面,把当初覃思中等收集到的混凝土结构有关资料引入Cherry Studio(大概两三分钟吧)。

图3 把混凝土教材、规范等资料放置在一个目录下,然后加入Cherry Studio的知识库
第三步:编写提示词“你是一名大学教授,请检索知识库,提交你的答复,并对你的答复进行检查,不应有虚构或不可靠的内容。”,然后把判断题、填空题一股脑输入给AI(大概两三分钟)。


图4 输入填空题和判断题的问题
好了,到此所有操作过程完成,10分钟绰绰有余。
下面就开始欣赏DeepSeek的回答:




图5 DeepSeek的思考过程和答案
最后DeepSeek的得分是多少分呢?大家猜猜看?填空题得分98分!判断题得分92分。我也复核了一下DeepSeek回答和标准答案不一致的题目,比如DeepSeek唯一和标准答案不一致的填空题题目:当增加钢筋混凝土超筋梁纵向受拉钢筋数量时,其正截面受弯承载力将__标准答案是:保持不变,而DeepSeek的答案是:不显著提高。DeepSeek的思考过程如下:
图6 DeepSeek的思考过程
小结:两年多以前,当我们第一次尝试用大语言模型+知识库回答专业问题时,虽然当时的大语言模型和本地知识库模型还比较孱弱,但是已经让人看到了非常令人欣喜的研究和应用前景。而短短两年以后,AI不仅实现了巨大的性能提升(考核成绩已经远超一般大学生的水平),而且整个智能系统的构建仅仅需要10分钟的时间,外加一台6000元的电脑。一个新的时代已经到来,各个专业将来该如何应对?我们的专业教学该如何应对?这是一个值得深思的问题。