Intelligent Visual Production

智能视觉生产正式上线

以视觉AI能力为基础,结合平台能力及业务数据积累,面向传媒娱乐、工业制造、数字营销等行业提供视频、模型、图像等视觉内容的智能化生产服务,帮助客户提升生产效率,压缩生产周期,打通生态闭环。

识别精度高

海量训练数据与实战业务场景支撑,提供高精度的处理效果

处理速度快

结合定制优化的算法模型与工程方案,实现毫秒级处理响应与反馈。

适配数据全面

通用算法能力,适配不同场景、不同类型的业务数据输入与处理。

产品矩阵丰富

提供全面丰富的产品能力,帮助客户自定义搭配解决不同的业务问题。

产品功能

图像抠图/分割

对输入图中主体进行分割,输出对应的png格式透明结果图,支持包括人体、动物、物品等。

图像超分辨/清晰化

将输入图放大四倍,同时基于推断出的细节保持结果图像的清晰度。

图像裁剪

对输入图片进行指定尺寸变换,自动判断主体区域位置,使用最佳的裁剪方式。

图像色彩转换

将输入图自动或根据指定色板进行色彩转换,同时保证视觉热点区域避免不正常拓色。

图像风格转换

将输入图按照指定的风格图像进行风格的迁移,使得图像的色彩、笔触等视觉风格发生转化。

图像色板分析

对输入图的颜色信息进行分析,给出颜色值(RGB形式和HEX格式)与对应的占比信息。

图像风格分析

对输入图的风格类型进行分析,给出可能的风格标签。如:视觉风格:中国风,语义风格:典雅等。

图像元素识别

识别输入图中所包含的元素,用矩形框标注出其位置,并区分其对应的基本类型(人/物、修饰、文案)。

应用场景

电商产品上架

在电商平台进行新商品上架过程中,需要将商品图处理为白底图,可以用到图像抠图能力进行自动批量抠图。在详情页介绍信息中需要将图片处理为布局指定像素尺寸,可以使用图像裁剪服务进行处理。

图像素材管理

在图像素材平台中,需要将图像根据色彩、风格等维度进行打标分类并检索,可以使用图像分析能力完成以上结构化管理需求。

人像娱乐或证件照制作

在2C场景的基于人物照片美颜、娱乐、证件照制作等产品中,需要将人像从原始照片中抠出,并完成分辨率的提升,色彩或风格的调整等,可以使用图形处理能力完成。

整体框架

解决方案收益

识别视频中出现的关键政治人物和明星,以及其中出现的时间片段,供视频素材定位管理

识别视频所对应的节目名称,多用于综艺节目、电影等剧集类素材的分析

识别视频中出现的物体,如动物、植物和交通工具等

通过理解视频包含的场景、背景含义和人物信息对视频进行类目区分,多用于视频素材分类管理场景

通过理解视频主题含义,输出符合大众审美的视频封面图

精准模型

分类模型

评估模型

检测模型

分割融合模型

分割网络

融合网络

  • 分类模型

  • 评估模型

  • 检测模型

  • 分割融合模型

  • 分割网络

  • 融合网络

分类任务往往需要多轮的数据准备,模型优化,数据清洗才能够落地使用。据此,我们设计完成了一个自动分类工具,融合最新的优化技术,并借鉴autoML的思想,在有限GPU资源的情况下做参数和模型搜索,简化分类任务中人员的参与,加速分类任务落地。

直接使用回归做分数拟合,训练效果并不好。该场景下作为一个前序过滤任务,作为分类问题处理则比较合理。实际我们也采用一些传统算法,协助进行过暗、过曝等判断。

主要借鉴了FPN检测架构。1、对特征金字塔每一层featuremap都融合上下相邻层特征,这样输出的特征潜在表征能力更强;2、特征金字塔不同层特征分别预测,候选anchors可增加对尺度变化的鲁棒性,提升小尺度区域召回;3、对候选anchor的设定增加一些可预见的scale,在商品尺寸比例比较极端的情况下大幅提升普适性

与传统的只需要分别前景、背景的图像分割(segmentation)问题不同,高精度抠图算法需要求出某一像素具体的透明度是多少,将一个离散的0-1分类问题变成[0, 1]之间的回归问题。

我们使用了在图像分割任务中常用的编-解码器结构作为我们的基础结构,但与传统结构不同,我们的网络中使用了双解码器分别来预测前、背景概率。

由数个连续卷积层构成,它负责预测混合权重。