利用设计文本指导AI建筑结构设计 | 新论文及发明专利：融合文本和图像数据的建筑结构AI设计方法

原创廖文杰等陆新征课题组

2022年08月19日 15:51

3分钟小视频，简介新论文和专利：融合文本和图像数据的建筑结构AI设计方法

论文：Intelligent Generative Structural Design Method for Shear Wall Building Based on “Fused-Text-Image-to-Image” Generative Adversarial Networks. Expert System with Application. 2022. https://doi.org/10.1016/j.eswa.2022.118530.

发明专利：融合文本和图像数据的神经网络及其建筑结构的设计方法. ZL 202110274380.8.

研究概述

建筑结构智能设计中，通常需要结合工程师的设计需求文本，引导AI生成符合要求的结构设计。本研究便提出了基于“文本-图像融合生成图像”生成对抗网络的剪力墙结构智能设计方法（图1）。

构建了融合文本和图像数据以合成图像的生成对抗网络（txtimg2img），包含文本标签编码、特征提取、文本-图像特征融合的关键架构，开展针对小样本数据的模型训练与测试评估。基于训练的txtimg2img开展建筑结构智能设计，输入建筑图像+设计标签文本，生成满足设计需求的结构设计图。

图1 基于txtimg2img的建筑结构智能设计方法StructGAN-TXT

系列案例研究表明，该方法不仅能有效设计建筑结构，对于小样本的文本-图像合成图像任务也有较好的适用性。部分代码已开源（https://github.com/wenjie-liao/StructGAN-TXT-TxtImg2Img）。

研究背景

面向建筑结构设计数字化与智能化转型的需求，课题组在剪力墙结构智能设计方面开展了系列研究，实现了从“图到图（揭秘人工智能设计剪力墙结构的科学原理 | 新论文：基于生成对抗网络的剪力墙结构设计方法 + 新论文及发明专利 | 基于深度学习的楼盖结构智能化设计方法）”到“力学原理增强生成图（AI想做结构设计？它得先学结构力学！| 新论文及发明专利：物理增强的剪力墙结构智能化设计方法）”。

但是，结构设计还面临需要满足工程师提出的设计条件需求，比如我们希望一个8度100m的结构设计，更改为7度50m高度的结构设计，目前尚难以实现（图2）。而这种需求通常是以文本标签的形式存在，与建筑设计图数据异构，如何能让文本-图像共同指导AI生成对应的结构设计图，这便是本研究需要解决的关键难题。

图2 结构设计的文本数据如何学习？

研究方法

2.1 网络架构

本研究的核心工作便是提出“文本-图像特征融合”生成对抗网络（图3），包括两个关键点：1）文本编码-特征提取模块（图3b）；2）文本-图像特征的等尺寸融合，采用Hadamard product（图3a）。其余模块则主要沿用StructGAN中采用的pix2pixHD算法。虽然图3显得很复杂，但实际的操作并不复杂，详见开源代码。

1）文本编码-特征提取模块。该模块的主要作用是将文本进行编码，变成神经网络可以处理的数据格式，并且进一步提取文本高维特征，同时还要为后续的文本-图像特征融合做准备，因为需要统一文本高维特征和图像高维特征的张量尺寸；

2）文本-图像特征等尺寸融合。采用Hadamard product进行特征融合的优势在于，能有效保证融合特征映射为结构设计图时尽量避免畸变。

图3 “文本-图像特征融合”生成对抗网络（txtimg2img）

2.2 数据集构建

本研究在StructGAN公开的建筑-结构设计数据集基础上增加了设计条件的标签，同时也基于其他图像数据集构建了带有文本标签的数据集，用来测试本方法的泛化性和有效性（图4）。

图4 数据集构建

2.3 评估方法

经过数据集的训练，需要对网络模型性能进行测试与评价，本研究采用了两种评价方法，一种是基于图像高维特征分布一致性的评价方法（图5a所示，适用于几乎所有图像），一种是基于像素和构件轮廓一致性的评价方法（图5b、5c所示，面向建筑结构设计）。

图5 评价方法

分析结果

3.1 特征融合方法对比

我们将本方法提出的等尺寸张量加权特征融合方法，与计算机视觉相关研究中常用的张量拼接方法进行了对比（例如ManiGAN）。可以看到，ManiGAN在本研究中容易出现生成设计图畸变的情况，主要原因在于建筑结构智能设计是典型的专业领域小样本问题，通用智能算法难以直接在本研究中应用。而txtimg2img的特征融合方法则有效保证了设计生成的图像质量稳定性。

图6 特征融合方法对比

3.2 建筑结构设计性能对比

开展不同方法设计效果的对比，如图7所示。左边是多个案例测试的平均量化结果，右边则是典型的设计结果对比，表明txtimg2img具备较好的性能。

图7 结构设计性能对比

3.3 文本条件改变对设计结果的影响

采用txtimg2img模型，输入不同的文本条件，便可生成具备不同特征的剪力墙结构设计，如图8所示。

图8 文本指导结构设计

进一步，开展简单的结构力学性能分析，图9分析结果所示，不同的结构设计均能满足规范的层间位移角限定，且不过于保守。

图9 结构力学性能分析结果

3.4 不同文本指导鞋、包设计

本研究同样开展了不同类型的设计研究，结果表明，对于常规的鞋、包外观设计，本方法仍旧具有一定的推广性。在小样本训练集上，本方法效果优于其他方法。

图10 不同文本指导鞋、包外观设计

研究总结

本研究针对文本-图像数据融合生成设计图像开展了探索性的研究。可以看到，例如ManiGAN等优秀的通用人工智能算法在面对专业领域的小样本学习问题时，难以展现出其强大的能力；面对具体领域需求开展针对性的研究，则更有希望实现较好的小样本学习。本研究通过对文本编码-深度特征提取，以及采用等尺寸Hadamard product实现文本-图像特征融合，较有效解决了文本-图像异构数据同时学习以及图像生成畸变消除的问题。

基于txtimg2img的智能设计方法为StructGAN-TXT，是StructGAN研究的一部分，目前建筑结构智能设计方法仍旧具备很大的研究和提升空间。

联络邮箱:

[email protected]

---End---

相关研究

特刊征稿

Earthquake Engineering Structural Dynamics特刊征稿《地震工程中的AI与数据驱动方法》

专著

人工智能与机器学习

城市灾害模拟与韧性城市

高性能结构与防倒塌

长按识别二维码，关注我们的科研动态

阅读原文