
键词:Stable Diffusion, Conceptual Design, AI Generated Art, Architectural Design, Modern Residential Design, Single Family House, Modern Dwell, 建筑设计/概念设计/独立式住宅设计/独立式住宅/现代独立式住宅/人工智能
前期准备
项目背景
- 几个月前我的一位客户(私人房产设计公司)邀请我同他们公司合作,做一些现代独立式住宅设计初稿(美国西部),提交的文件要求主要是以手绘或者相关的渲染风格图片格式。他们为我提供一些基本的设计要求,包括一些宅地基照片、参考建筑风格照片、业主对于建筑形式偏好、面积大小、基本的材料、业主的一些喜好等等,需要我提供一些概念方案供他们公司的设计小组与客户参考讨论,从而进行下一步的设计工作。我决定使用AI介入方案生成过程,这是个很好的机会来展示AI图片生成技术在建筑概念生成工作流的应用。毕竟当时的AI图像生成技术已经得到了突破性进展,尤其是OpenAI的DALLE-E-2和stable Diffusion完全颠覆了人们以往的认知,有网站甚至发布了详细的DALL-E-2非官方操作手册。大体上,有两种AI方案生成方法。一种是纯粹的赋予AI平台prompt(提示词),重复这个过程多次,反复多次迭代得到输出结果。另一种是人工输入参考图片,并在迭代的过程中进行单词或多次人工修改,最后得到输出结果。前者更像是运用语言让AI检索图片,后者将AI作为设计工具的一部分系统性的参与到设计工作中来,是切切实实的参与到设计中,因此我选择了后者作为概念方案设计工作的流程方法。同时,选择Stable Diffusion作为AI辅助设计平台,主要是因为该平台的可调参数较多,人机交互与交流操作更加流畅。
设计草图
- 是让AI全程参与到初步概念设计,那么就应该让机器做最主要的设计方案生成工作,我只需要根据客户的要求赋予提示词与非常概念化的草图作为提示图片。这张原始的草图需要尽可能的概念化,但又不至于让AI看不懂或产生很多误解,可以让AI基本上识别出建筑的空间范围、基本的材质如玻璃/木制/石材等,同时可以识别出建筑所处的远近环境。如下图中远处的山峦和右边远处的峡谷,近处附着在建筑物周边的灌木,左侧为自家庭院并延伸到小溪与池塘,再远处就是一片山坡草甸,有些云雾遮盖了部分左后方的山坡,右侧整个远处山峦在落日余晖当中,浅橘红色的山顶岩石依稀可见(这一点其实我后来才发现很重要,因为这就是类似于渲染器中的HDRI,为背景环境定基调,指导AI图片渲染必要的光影要素)。整个自然环境是我根据客户提供的照片进行了一定的艺术处理。建筑围合空间不大,楼地面为近似朱砂色质石材,由一个覆盖轻质材料的屋顶长廊径直通向建筑入口。建筑主体与屋顶均为轻质木材或轻质钢构,以通透玻璃墙面或短墙作为围护构造。建筑草图构图为单点透视。

AI操作流程
- 由于每轮输入/输出过程需要做大量的调试、探索与实验,因此很容易生成大多数不符合预期的输出,本文仅选取小部分符合预期的输入/输出图片作为流程的节点而加以讨论其中的迭代规律。
- 调试依据:所有偏离度明显较大的输出方案应当排除掉,不进入下一轮输入/输出方案生成工作流程,如果客户需要的话,也仅仅是作为下阶段设计参考资料。
- 逐渐减小每轮当中的每次输入/输出工作流程的参数调整范围,从而锁定目标方案。
- 考虑到AI强大的计算能力和运算逻辑的复杂性,以及客户的特定的方案需求,建立一个方案生成流程图表非常有助于厘清方案生成的逻辑思路和操作依据。这份操作流程也就是这份图表的详解。
- 随时人机交互,每次运算前,按需要随时编辑提示词与输入图片(本案例由于当时时间紧迫,我没有更多的时间去深入编辑提示与输入图片,尚未去研究每次的人工编辑对于方案输出的影响大小)。
- 判定依据:主要考察输出方案的同输入方案的整体连贯性(允许一定程度范围的变化)、AI对提示词与输入图片的理解力、某些要素在一定范围内的变化与创造/创新/移植、材质和要素的渲染质量、细节与内容丰富程度/深度等方面、力求生成开放的方案而不是生成一个既定的方案。
- 为了指导AI向不同的方向迭代,应当及时调整并输入合适的提示词以及seeds数组,强烈建议使用chatGPT辅助生成提示词。本案例没有使用chatGPT。
第一轮输入/输出
- 主要是做一些试探性地调试工作。图片强度(image strength,即控制图像生成过程遵循图片提示的程度的参数,数值越高,生成的图片越接近提示图片)设置在50至65这样的较高值,同样的将指导强度(guidance strength/scale,即控制图像生成过程遵循文本提示的程度的参数,数值越高,生成的图片越遵循文本提示的程度)控制在7-9这么一个非常低的水准,因为初始阶段不需要太多的AI介入,同时可以初步了解AI计算的特性。
- Output-A:此输出与输入图像非常相似。 最初草图中的建筑和景观特征得到了很好的渲染。 与初始输入图像相比,细节得到加深,质量得到提高。尤其是楼地面的材质甚至有些反光与材质间不规则缝隙的细节,左侧的玻璃产生了通透感,左侧的景观硬质铺地与右侧的灌木显得更加生动真实。不足的是右侧远处的山峦被AI视作建筑的一部分(貌似看作是屋顶的一部分),以及近处的长廊上方轻质屋顶结构消失了。该输出符合我的预期方向,可以作为下一轮的输入图像。

- Output-B和Output-C:仅在提示词中添加“增添室内家具”,随机seeds(每一组seeds号码对应的是特定的输出方案,改变这组数字,输出方案会有较大变化),其他的一概不变。此输出与输入图像非常相似,由于seeds随机改变,输出结果建筑样式与Output-1有明显的不同。该输出尽可能地保留了输入图像中建筑与环境特征,尤其是室内细节得到了强化与再创造。这两个输出都符合我的预期方向,可以作为下一轮的输入图像。


- Output-D/E/F/G:我尝试稍微降低图像强度,也就是提高了一点AI创造自由度,从而对设计方案生成结果产生非常大的影响。 比如这几组输出,显示了一座位于荒野中的两层现代风格错落有致的玻璃住宅以及建筑前方与后方典雅的景观园林,或金色夕阳下的背景山变成了建筑的人字形屋顶,设计构图变成了两点透视图。这两个输出暂且不符合我的概念设计预期方向,虽然这组输出结果是非常好的概念设计方案,我个人特别喜欢,但目前我将它们暂搁一边,稍晚的时候可作为客户参考,如果客户或业主喜欢,可以随时重新将这组方案作为输入组进行迭代调试。




第二轮输入/输出
使用第一轮的输出作为第二轮输入图像。适当的降低图像强度并增加10-18左右的指导强度,赋予特殊的seeds数值,因为我需要缩小这一步输出的变化。同时我决定暂且不对此轮输入图片进行人工加工(比如使用徒手手绘或数字手绘修改,PS,Stable Diffusion平台自带的修改器进行修改),而完全使用第一轮AI输出结果作为输入图片。
- Output-A1:更多的细节在这里都呈现出来,AI增添了室内外轻质隔墙和家具陈设,如廊道、室内外楼地面材质、玻璃墙光线反射、和天花板的纹理,两边的自然与人工景观以及自然背景的细节更加丰富,尤其是背景天气氛围渲染同初始原始输入图片与提示词完全一致,只是将建筑楼地面材质识别为木制,而且将建筑右侧后方的山峦识别为树木。我对此次输出非常满意。

- Output-B1a/B1b:将调整图像强度和指导强度在10-18左右,并在有意在提示中添加”Mid Century Style”即北美颇受欢迎的20世纪中期风格,想实验一下Stable Diffusion风格融合的能力。输出表达了另一种带插图风格的建筑风格概念图,视角更侧重于带户外家具的前景露台区域,不过这一次输出背景山和湖则消失了,左后方变成了带围墙的私家园林。考虑到此次输出侧重点是室外Patio,可作为后几轮方案产生的一个重要输入图片组。


- Output-C1:相对于Output-C,一个美丽的后院现代花园展现在建筑左侧,在建筑结构、室内空间和家具陈设以及山水和背景山和日落等方面增加了更多细节,甚至在建筑中增加了一个错层或是两层空间,使得空间变得更加丰富。整个输出方案最大保留了原始概念方案的设计要素,尤其是建筑与景观要素深化方面表现非常好。这个输出符合我的预期方向,可以作为下一轮的输入图像。

第三轮输入/输出
保持与上一轮相似的图像强度和指导强度,单独为每次输入定义不同的seeds,因为我需要进一步缩小这一步输出的变化并强化细节。
- Output-A2:添加了更多内部元素,这是Output-A1的另一个版本,seeds同上一轮保持不变,因此相对于输入,这一次输出基本上没有太大的变化。

- Output-B2a和B3b:添加了更多建筑内部元素,这是Output-A1的另一个版本,seeds同上一轮保持不变,因此相对于输入,这一次输出基本上没有太大的变化。由于Output-B3b有些偏离原始构思,比如室内垂直空间过大而且家具陈设太小,家具与空间比例有些失真,看起来像是一处展厅而非住宅,因此不太符合预期,而且不作为下一轮设计的输入图片。


- Output-C2a/C2b:上一轮设计的另外两个变体,对建筑元素和景观的渲染更逼真,建筑内部、周边的景观尤其是左侧现代花园呈现出很多精彩的细节。 这组输出基本上延续了草图方案特征,很好地保留了原始概念的建筑形式和空间特征。


第四轮输入/输出
对第三轮的进一步探索,以从草图生成预设计(建筑概念设计)提案。
- Output-A3:上一轮的另一个版本,保留相同的seeds,但稍微改变了图像强度和指导强度。不过输出结果相对于上一轮基本上没有什么改变。

- Output-B3a/B3b:这一次生成了更多建筑细节而且渲染得到了很大的加强与改进,建筑空间与布局有一定的创造性,比如在左侧增添了一段带有玻璃的矮墙,而且室内空间围合度更高,不想之前的输出那样建筑处于半围合状态。室内空间较前面的输出而言扩大了很多,家具与室内陈设以及植物渲染也更加生动与真实。建筑的空间布局合理,AI一贯将这个右前方空间视为拥有良好景观以及大面积玻璃的起居室,不仅保留了廊道,而且动静合理分隔开来,如左侧为私人花园并且连接着服务空间、卧室等空间。餐厅和厨房顶前端,并拥有很好的视野与光照条件。不过建筑左侧上方出现了多余的结构与空间,尤其是在Output-B3b当中显得非常明显,而且远方的山峦尤其是太阳输出过程出现了较大的失真,不过可以非常容易通过手工修改结合后面的几轮输入/输出过程进行改进。因此我将使用Output-B3a作为下一轮运算的输入图片,在输入图片之前,我将该建筑的屋顶和远处的山峦太阳进行了一些人工编辑工作,尝试在下一轮运算中输出不同的结果。


- Output-B3c调整图像强度和指导强度,还原背景中的湖泊和山脉,探索更多的可能性。楼地面和室外台面材质似乎消失了,前方左侧的室外Patio家具陈设非常引人注目,成为了视觉中心。建筑形态产生了丰富有趣的变化,空间布局较为合理。

- Output-B3d/B3e:上一轮设计的另外两种可能性,尝试降低初始图像强度。其结果是呈现出一处坐落于某处私宅后院的Mid Century Style非常别致的建筑小品和具有风格化的室外庭院和景观,左侧可以看到部分独立式住宅玻璃窗和廊道。视图再次换到两点透视构图。很显然,这一次AI将视角放到了住宅后院的景观建筑,人造景观很好的同自然景观融为一体。如果客户需要的话,这两个提案可以作为一个很好的景观参考。


- Output-C3a/C3b:上一轮设计的另外两个变体,得到了更接近真实场景的效果图,而且对建筑结构细节和外玻璃墙布置进行了精细调整。比如建筑物玻璃外墙的反光、室内外微妙的光线变化、人造景观和周边树木植物获得了较为充分的展现。


第五轮输入/输出(附加)
先前的几轮方案生成侧重点主要是建筑主体,基本上在第四轮就告一段落。而这一轮主要侧重于入口处的Patio及周边的景观建筑,因为我想去考察一下AI建筑景观方案生成的一些可能性。方案主要展现了更多的建筑尤其是附属景观方面的细节与设计提案,其他主要因素例如景观材料的位置和细节、庭院和光照条件保持不变。
- Output-B4a:Output-B3a 的第五轮进化的一个版本,基本上保持提示词不变。前面提到过进行手工编辑建筑左上方屋顶部分构造以及右侧远方的背景,从输出结果来看,建筑左侧空间进行了再创造,庭院、廊道、植物、建筑室内外墙体的质感与色彩、室内家具、玻璃的颜色与反光都能很精彩的呈现,甚至创造性的将屋顶变成了种植屋面。但是远处的山峦与夕阳没有能正确的渲染出来。

- Output-B4b: Output-B3a 的第五轮进化的另外一个版本,视角侧重点在入口处的Patio庭院和景观空间,展现了景观地面的材质丰富而有规律的变化,正前方的建筑主体显得较为抽象。

结论
根据方案生成的时间与顺序轴/逻辑性,一共分为了A至I共9条方案差异较大的主线,经过了四轮的刷选,只剩下A,B,C三条主线,作为客户的概念设计参考。同时我制作了一份AI方案生成流程图表,交付给客户作为方案生成的参考依据与时间线。客户对这三组结果是非常满意的,而且他们非常关心的是整个AI方案生成过程以及每组方案和每条主线的逻辑关系,为后面的建筑方案深化工作增加了一些推导依据。
附表(AI方案生成流程图)

原文链接:https://zhuanlan.zhihu.com/p/598980534