发布日期:2026-02-09 20:12 点击次数:77

对于软件开发者而言,AI 及通用大讲话模子(LLM)自然可在创意写稿和基础编程任务上“搭把手”。商酌词,靠近图形用户界面(UI)这一占据当代应用门径半壁山河的限度时,它们时时显过劲不从心。
UI 开发是一项触及多任务处理的紊乱责任,一个约略重新盘算推算 UI 的大模子,必须具备像素级的视觉知道智商、约略生成逻辑严谨的可编译代码,还要领有合适东说念主类审好意思与交互直观的盘算推算判断力。
苹果(Apple)公司的筹备团队觉得,作念好 UI 盘算推算的环节在于盘算推算师的“隐性限度学问”(tacit domain knowledge)。这种对于好意思学、交互和量度的直观,无法通过简略的爬取网页数据赢得,毕竟,UI 代码在通用代码数据聚合的占比以致不及 1%。
为填补这一界限,近期,苹果公司的机器学习筹备团队勾通卡内基梅隆大学、阿尔托大学等多家顶尖科研机构,通过一系列层层递进的筹备,让 AI 学会了“看懂”复杂的挪动端屏幕,并结合特有的自动化响应机制让模子“自学”编写 UI 代码,以致将其引入专科盘算推算师的责任流,由东说念主类众人引导 AI,提高其审好意思与交互盘算推算的智商。
(开端:Apple)
伸开剩余83%登程点,要让 AI 生成 UI,必须让它约略像东说念主类相同精确地舆解屏幕上的每一个像素。商酌词,通用的多模态模子在处理挪动 UI 时存在自然的瑕疵:挪动开垦屏幕频繁具有细长的纵横比,充满了极其轻细却功能环节的图标和文本,这些细节在传统模子的图像压缩处理中时时会丢失。
为了搞定这一感知瓶颈,筹备团队率先于 2024 年 4 月推出了 Ferret-UI 模子。该模子引入了一种翻新的“下苟且区分率”技术,它不再狠毒地缩放图像,而是凭据屏幕的原始纵横比(如手机的竖屏或平板的横屏),将画面天暴露割为多个子图像,在对此进行独处编码。这种处理形貌如同给了 AI 一把了了的“放大镜”,使其约略捕捉到轻细的 UI 元素。
(开端:Apple)
通过在涵盖图标识别、文本查找、组件列表等基础任务,包含功能推测、交互对话等高等任务的精选数据集上进行检修,Ferret-UI 展现出了异常的指代(Referring)与定位(Grounding)智商,其能描写屏幕内容,处理点、框、线条等空间提醒齐不在话下,还能对具体内容进行精确的坐标区域定位,在知道挪动 UI 的基础任务方面以致超越了那时占据率先地位的 GPT-4V 模子。
此外,针对 UI 限度稀缺高质地检修数据的痛点,团队也早在 2023 年发布的另一项名为 ILuvUI 的筹备中,提议一种无需东说念主工介入的数据生成决策,讲解了合成数据在提高模子视觉知道力方面的浩繁后劲。
筹备者期骗现存的 UI 检测技术索要屏幕元数据,再结合 GPT-3.5,生成传神的问答与描写,造成一套包含 33.5 万个样本的丰富数据集。期骗这一高质地数据集,筹备东说念主员初步检修出了一个既能知道界面,也能进行多步交互筹备的大模子。
在搞定“看懂”的问题后,下一个挑战是怎样让模子写出高质地的 UI 代码。在 UI 开发中,代码不仅要语法正确,还必须能被编译器摄取,同期渲染出合适预期的视觉效果。商酌词,现存的开源代码数据集(如 TheStack)中,SwiftUI 等特定 UI 框架的代码占比极低,这就让通用模子难以掌合手其编程范式。
2024 年 6 月,苹果的筹备团队再次优化了他们的 UI 模子,提议一种奥妙的“自动化响应闭环”检修门径。他们登程点使用一个简直莫得斗殴过 SwiftUI 数据的开源基础模子(StarChat-Beta),条目其凭据文本描写强行生成大批代码。
随后,系统引入了两个冷情的“判官”:一个是 Swift 编译器,厚爱剔除无法开动的垃圾代码;另一个是视觉-讲话模子(CLIP),厚爱对比生成的界面截图与原始描写的匹配度。独一同期通过编译查验且视觉评分高的代码,才会被用于微调模子。
过程五轮“代码生成-编译器考据-视觉匹配度评分(CLIP)-筛选去重”的迭代,这个名为 UICoder、参数仅有 15.5B 的模子最终“系风捕影”地掌合手了 SwiftUI 编程,不仅在代码的可编译性上大幅超越基准模子,还在编译见效力上打败了 GPT-4。
这项技术见效搞定了“知道需求”和“写出能跑的代码”之间的 UI 工程界限,树立了期骗自动化器具响应来提高代码生成质地的技术范式。
(开端:Apple)
苹果团队并不思停步于此。尽人皆知,在苹果玄学中,“盘算推算”从来不单是意味着外不雅,它是功能的灵魂,更是其软硬件生态难以被突出的护城河。通用 AI 最多能写出逻辑正确的代码,却穷乏对东说念主类交互直观的深化知道,简而言之,AI“没回味”,也不知说念什么是竟然的“好盘算推算”。
为了让 AI 也能作念出苹果级别的优质盘算推算,筹备东说念主员将目力投向了东说念主类盘算推算师的专科学问。传统的强化学习(RLHF)频繁条目东说念主类在两个选项中进行简略名次(Ranking),但在主不雅性极强的盘算推算限度,这种二元选择会导致数据噪声极大,难以传达具体的盘算推算意图。
{jz:field.toptypename/}时分来到 2025 年 9 月,筹备团队在一项最新筹备中展示了他们的最终恶果,他们推出了一款贴合 UI 盘算推算师广泛责任流的响应器具,允许盘算推算师“谈判”(Commenting)、“绘制标注”(Sketching)以致径直“修改”(Revising)AI 生成的界面,对其提供响应。盘算推算师的修改萍踪也将滚动为检修数据,用于对模子进行奖励型微调。
(开端:Apple)
现实数据标明,比拟于简略的比较名次,东说念主类盘算推算师径直上手修改的补救数据具有极高的一致性,大模子由此得以精确捕捉到盘算推算师在布局、层级和好意思学方面的隐性学问。
令东说念主讶异的是,仅需使用 181 个高质地的绘制响应样本,对开源模子 Qwen2.5-Coder 进行微调,其与其变体系列生成的 UI 质地就能在盲测中打败包括 GPT-5 在内的顶尖专有模子。筹备还强调,在 UI 生成的高阶阶段,默契相应限度众人的具体修改意图远比海量的璷黫评分更为环节。
最终,这项历时近三年的系列筹备责任共同组成了一个好意思满的技术进化链条:Ferret-UI 赋予了 AI 精确的视觉感知智商,UICoder 通过自动化响应搞定了代码完结的工程禁锢,而基于盘算推算师响应的筹备则注入了东说念主类的审好意思与盘算推算明智。
长久以来,软件开发的内容是一场耗时的“翻译”游戏:盘算推算师将意图翻译成图纸,工程师将图纸翻译成代码,机器将代码翻译成界面。未来,这种转译之间的损耗有望被澌灭:盘算推算师落笔的片刻,即是家具出身的时刻。
参考贵寓:
https://9to5mac.com/2026/02/05/designers-teach-ai-to-generate-better-ui-in-new-apple-study/
https://9to5mac.com/2025/08/14/apple-trained-an-llm-to-teach-itself-good-interface-design-in-swiftui/
https://arxiv.org/pdf/2310.04869
https://arxiv.org/pdf/2404.05719
https://arxiv.org/pdf/2406.07739
https://arxiv.org/pdf/2509.16779
排版:刘雅坤
发布于:河南省

备案号: 