WWDC23: Lift subjects from images in your app

♪ ♪ Lizzy：大家好！我是 Lizzy Apple VisionKit 团队的一名工程师很高兴今天能和大家谈谈如何在你的 App 中添加主题提取功能主题提取功能是在 iOS 16 中引入的允许用户选择、提取和共享图像主题首先我将回顾一下主题提取的基础知识然后我将向你介绍如何使用新的 VisionKit API 添加主题提取功能最后我的同事 Saumitro 将详细介绍新的底层 Vision API 那到底什么是主题呢？主题是指照片的前景对象或对象主题不总是一个人或一只宠物它可以是任何东西比如一座建筑、一盘食物或几双鞋子图像可以有多个主题就像这里的三杯咖啡一样重要的是要注意主题并不总是一个单独的对象在本例中这个男人和他的狗一起成为图像的焦点使其成为一个组合主题那么如何才能将此功能加入到一个 App 中呢？有两个可用的独立 API 可帮你将主题提取添加到你的 App 中 VisionKit 和 Vision VisionKit 让你能非常轻松地采用系统性主题提取行为开箱即用你只需几行代码即可轻松重建我们熟知和

喜爱的主题提取 UI VisionKit 还公开了一些关于这些主题的基本信息因此你可以为人们提供与图像主题交互的新方法所有这些都发生在进程外这具有性能优势但图像大小也因此受限 Vision 是一个底层框架没有开箱即用的 UI 这意味着其不与视图绑定赋予了你更多的灵活性图像分析发生在进程内而且不像 VisionKit 那样受到图像分辨率的限制最后这个 API 可以成为更高级的图像编辑管线的一部分比如那些使用 CoreImage 的管线首先让我们深入了解 VisionKit 中的主题提取 API 要使用 VisionKit 添加主题提取只需初始化一个 ImageAnalysisInteraction 并将其添加到包含图像的视图中这可以是 UIImageView 但不需要是就是这么简单现在你的图像将具有系统主题提取交互功能同样地在 macOS 上创建一个 ImageAnalysisOverlayView 并把它添加为包含你图像的 NSView 的一个子视图你可以设置 ImageAnalysisInteraction 或 ImageAnal

ysisOverlayView 的首选交互类型以选择支持哪种类型的 VisionKit 交互默认交互类型为 .automatic 它可以反映为系统行为如你想要主题提取、实时文本和数据检测器功能请使用此类型新的 imageSubject 类型仅包括主题提取功能适用于你不想要文本交互的情况除了这些 UI 交互之外 VisionKit 还允许你使用 ImageAnalysis 以编程方式访问图像主题要生成图像分析你只需创建一个 ImageAnalyzer 然后调用 analyze 函数传入所需的图像和分析器配置使用 ImageAnalysis 的 subjects 属性你可异步访问所有图像主题列表该属性使用新的 Subject 结构其中包含图像及其边界 highlightedSubjects 属性返回一组凸显的主题在本例中底部的两个主题已被凸显用户可长按图像来凸显某主题但你也可在代码中更新 highlightedSubjects 集合来更改选择状态你可使用异步 subject(at:) 方法按指向点查找某主题在本例中轻点这里会返回

中间的主题如果该指向点没有主题则此方法将返回 nil 最后你可以使用两种方式来生成主题图像对于单个主题只需访问主题的图像属性如你需要由多个主题组成的图像请使用异步 image(for:) 方法并传递你想要包括的主题在本例中如果我只想要底部的两个主题的图像我可以使用这个方法生成此图像让我们在演示中看看这一切如何组合在一起我正在开发一个拼图 App 我想将拼图碎片拖动到拼图中但却无法提起任何一块拼图碎片让我们来解决这个问题首先我需要在该图像中启用主题提取交互这样就可以和拼图碎片进行交互了为此我可以创建一个 ImageAnalysisInteraction 并简单地将其添加到我的视图中我在这里使用了 imageSubject 交互类型因为我不需要包含实时文本太棒了！现在我可以像这样选择拼图碎片并与之进行交互该图像没有经过任何预处理只需通过主题提取即可完成我添加了一些代码将拼图碎片拖入拼图中甚至可以将拼图碎片归位这看起来很酷但我想让我的 App 更有吸引力当我悬停在每个拼图碎片上方时我想在下面添加一个投影以呈现微弱的

3D 特效此处我已有一个悬停手势处理器我只需添加阴影我不能轻易地编辑图像所以我将用图像分层技巧来代替首先我会调用 imageAnalysis.subject(at point:) 检查我是否悬停在某个主题上我有一个 addShadow(for subject:) 方法该方法插入主题图像的副本将其变成灰色并将原主题位置略微进行偏移然后我在阴影上方添加主题图像的副本所以它看起来是三维的最后如果悬停点未与主题相交我会清除阴影让我们来试试吧太棒了现在当我悬停在拼图碎片上面时这些拼图碎片会产生阴影特效使用 VisionKit 我能在我的 App 中设置主题提取甚至只需用几行代码就能添加有趣的主题特效接下来的内容我将交给我的同事 Saumitro 他将介绍一些新的 Vision API 以及如何将其集成到你的 App 中 Saumitro：谢谢 Lizzy！大家好我是 Saumitro Vision 团队的一名工程师 VisionKit 的 API 是开始使用主题提取的最简单方法对于需要更高级功能的 App Vision 也可满足其需求

主题提取加入了 Vision 现有的图像分割 API 集合如显著性检测和人像分割让我们快速回顾一下其优点并看看主题提取如何进行显著性检测请求比如视线注视点和目标检测最适用于粗略的、基于区域的分析请注意生成的显著图分辨率相当低因此不适合进行分割相反你可使用显著区域来完成诸如自动裁剪图像之类的任务人像分割 API 在场景中为人像生成详细的分割遮罩如你特别想专注于分割人像请使用此功能新的人像实例分割 API 通过为场景中的每个人提供单独的遮罩来进一步提供服务想进一步了解请查看人像分割相关讲座与人像分割相反新引入的主题提取 API 是“不可知目标检测” 任何前景对象无论其语义类别如何都有可能被分割比如注意在这张图中除了人之外是如何拣选出汽车的现在让我们来看一下涉及的一些关键概念你开始输入图像主题提取请求处理此图像并生成相同分辨率的软分割遮罩将此遮罩应用于源图会生成遮罩图像每个不同的分割对象都是一个实例 Vision 还为你提供有关这些实例的像素级信息该实例遮罩将源图中的像素映射到其实例索引中 0 索引是为背景保留的

然后将每个前景实例按顺序标记从 1 开始实例被连续标记但不能保证这些 ID 的顺序你可以使用这些索引来分割源图中的前景对象子集如果你正在设计一个交互式 App 此实例遮罩对于点击测试也很有用稍后我将演示如何完成这两个任务让我们深入了解 API 主题提取采用 Vision 中熟悉的基于图像的请求模式你首先要实例化前景实例遮罩请求接着是一个图像请求处理器用于对你输入的图像进行请求处理然后执行请求 Vision 会在这时分析图像以找到主题虽然该过程已经过优化可利用 Apple 的硬件优势来提高效率但这仍是一项资源密集型任务最好将其延迟到一个后台线程以免阻塞 UI 一个常见的方法是在一个单独的 DispatchQueue 上异步执行该步骤如果在输入图像中检测到一个或多个主题结果数组将被一个单独观察填充从这里开始你可以查询观察结果以获取遮罩和分割图像让我们来仔细看下一两个参数这两个参数控制着哪些实例会被分割以及结果如何被裁剪实例参数是一个 IndexSet 用于控制哪些对象会被从最终分割图像或遮罩中提取比如此图像包

含两个前景实例不包括背景实例分割所有检测到的前景实例是很常见的操作因此 Vision 提供了一个方便的 allInstances 属性该属性返回包含所有前景实例索引的 IndexSet 针对此处的图像返回的索引中包括索引 1 和 2 但注意其中不包括背景实例索引 0 你也可只提供这些索引的一个子集此处只有实例 1 而此处只有实例 2 你还可控制最终遮罩图像的裁剪方式如果将此参数设置为 false 则输出图像分辨率与输入图像相匹配当你想保留分割对象的相对位置时这点很有用比如用于下游合成操作如果将其设置为 true 则你可得到所选实例的严格裁剪在这个例子中到目前为止我一直在使用完全遮罩的图像输出但是对于某些操作比如应用遮罩特效仅使用分割遮罩可能更为方便你可调用观察中的 createScaledMask 方法来生成这些遮罩参数的表现与之前相同输出是一个包含软分割遮罩的单通道浮点像素缓冲区我刚刚生成的遮罩非常适合与 CoreImage 一起使用 Vision 与 VisionKit 很像也会产生标准动态范围输出然而在 Cor

eImage 中执行遮罩操作可以保留输入的高动态范围想进一步了解请考虑查看讲座 “将高动态范围添加到你的 App 中” 执行此遮罩的一种方法是使用 CIBlendWithMask 滤镜我将从需要进行遮罩处理的源图开始通常这也就是你要传入 Vision 的图像调用 Vision 的 createScaledMask 获取遮罩最后是设置新背景图像主题将在该背景图像上合成给新背景图像设个空图像值可生成透明背景或者如果你计划将结果合成在新背景之上你可直接在此传参差不多就是这样输出将是保留高动态范围的遮罩和合成图像现在让我们将所有内容组合在一起构建一个很酷的主题提取视效 App 你可以删除背景并显示其下面的视图或将其替换为其他内容此外你还可以应用其中一个预设特效特效即与所选背景合成你甚至可以轻点前景实例以有选择性地提取它让我们来大概看一下我将如何创建这个 App 我们 App 的核心依赖于一个特效管线该管线接受来自 UI 的输入并执行生成最终输出所需的全部工作我将从对源图执行主题提取开始你可以通过可选轻点选择单个实例将

生成的遮罩应用于源图最后应用并合成所选的背景和视觉特效以生成最终输出图像最后这两个步骤将通过 CoreImage 来完成我们的顶层函数接收到输入图像、所选背景图像和特效、还有可能是用户选取其中一个实例的轻点位置这里的 Effect 类型只是我们预设的一个简单枚举其输出是准备在 UI 中显示的最终合成图像该任务可分解为两步首先为所选实例生成主题遮罩然后使用该遮罩应用所选特效让我们从第一步开始此阶段的输入是源图和可选的用户轻点位置我们已经见过这里的大部分代码这步只是执行 Vision 请求并返回遮罩有趣的是这一行它使用了标签遮罩将用户轻点位置映射到一组索引中让我们来仔细看一下如果用户没有轻点则我将默认使用所有实例我想将轻点位置映射为实例遮罩中的一个像素此处有两个相关信息首先 UI 将轻点位置参数值标准化为 0 和 1 然后传递该参数这样做的好处是我无需担心显示分辨率和缩放比例等细节问题其次它使用默认的 UIKit 坐标系统其原点位于左上角这与我们像素缓冲区的图像空间坐标对齐因此我可以使用现有的 Vis

ion 帮助函数来执行此转换我现在有了查找已轻点的实例标签所需的全部信息这涉及直接访问像素缓冲区的数据我将向你展示如何执行此操作一旦我有了标签就会检查其是否为 0 请记住 0 标签意味着用户轻点了背景像素在此情况下我将回退选择所有实例否则我将返回一个仅包含所选标签的单例集这段代码填充了如何执行实例标签查找的内容与任意像素缓冲区相同我首先要在访问其数据之前锁定该缓冲区就我们的目的而言只读访问就足够了像素缓冲区的行可被填充以进行对齐因此计算像素字节偏移量最可靠的方法就是使用其 bytesPerRow 值由于 instanceMask 是单通道 UInt8 缓冲区所以我不必担心任何进一步的缩放我已从实例遮罩中读取完毕因此我可以解锁缓冲区这样一来我就将所选实例和遮罩分离出来现在我可以继续应用特效这里的第一步是将所选特效用于背景完成后我会使用 CoreImage 将已遮罩主题合成到转换后的背景上前几个特效非常简单直接应用了现有的 CoreImage 滤镜比如为了凸显主题我会使用曝光调整滤镜来调暗背景我还稍用

了一些焦外成像效果除了模糊背景外我还希望有一个光晕凸显我们所选的主题只需裁出主题白底图再进行模糊处理即可实现快速完成此操作的方法是重用我们当前的函数并为主题传递一个纯白的图像参数这样我就有了合成的基底层最后我将放入之前的 CoreImage 合成片段这样即可将合成的提取主题放在新背景之上有了最后一步特效 App 现在就已完成了希望这能让你初步了解使用新的主题提取 API 可能实现的一些功能总之 VisionKit 是将主题提取功能集成到你的 App 中的最快方法对于更高级的 App 你可移步查看 Vision 的 API 最后 CoreImage 是使用主题提取执行高动态范围支持图像处理的完美工具 Lizzy 和我希望你喜欢本视频我们非常期待看到你的作品 ♪ ♪

WWDC23: Lift subjects from images in your app | Apple

Related articles

Comments