Textual Inversion vs. Dreambooth

发布时间:2023-03-01  栏目:AI应用领域, 人工智能, 元宇宙, 图像处理, 机器视觉  评论:0 Comments

Textual Inversion 从 SD 已知的内容中挖掘给定的输入。Dreambooth 将所需内容插入到输出中。那么在实践中有什么区别呢? Textual Inversion 不会在系统中插入“新数据”,它只提供更好的向导以便找到所需内容。Dreambooth 需要插入且只插入所需的...

AI videos

发布时间:2023-02-22  栏目:AI应用领域, 人工智能, 元宇宙, 图像处理, 机器视觉, 深度学习  评论:0 Comments

Gen-1 by Runway (runwayml.com)

小样本训练过拟合的一些处理方法

发布时间:2023-01-23  栏目:人工智能, 机器视觉, 深度学习  评论:0 Comments

正则化 选择一些单独的层或者部分进行调优训练    

视频质量客观评价指标

发布时间:2023-01-05  栏目:VideoConference, 元宇宙, 图像处理, 机器视觉, 深度学习  评论:0 Comments

PSNR SSIM VMAF

图像压缩

发布时间:2023-01-03  栏目:图像处理, 机器视觉, 深度学习  评论:0 Comments

JPEG( Joint Photographic Experts Group)即联合图像专家组,是用于连续色调静态图像压缩的一种标准,文件后缀名为.jpg或.jpeg,是最常用的图像文件格式。其主要是采用预测编码(DPCM)、离散余弦变换(DCT)以及熵编码的联合编码方式,以去除...

扩散模型

发布时间:2022-12-15  栏目:人工智能, 图像处理, 机器视觉  评论:0 Comments

GANs的一些主要瓶颈是: 图像生成缺乏多样性 模式崩溃 多模态分布问题学习 训练时间过长 由于问题表述的对抗性,不容易训练 模式崩溃(model collapse)原因 一般出现在GAN训练不稳定的时候,具体表现为生成出来的结果非常差,但是即使加长训练时...

Windows Imaging component

发布时间:2022-12-06  栏目:图像处理, 机器视觉, 软件、框架及系统, 软件接口  评论:0 Comments

Windows Imaging Component做图片的resize效率很高

一句话生成3D模型

发布时间:2022-11-27  栏目:AI应用领域, 人工智能, 元宇宙, 图像处理, 机器人, 机器视觉, 深度学习  评论:0 Comments

英伟达“一句话生成3D模型”碾压谷歌:分辨率清晰8倍,速度快2倍 (qq.com)

PNG格式与alpha通道

发布时间:2022-08-31  栏目:图像处理, 软件、框架及系统  评论:0 Comments

首先PNG作为无损压缩的图片文件,本质上对图片编码的方式和上文提到按照像素编码方式并没有太大的不同,但是他有多种不同的像素深度和像素格式可以选择。彩色的PNG像素格式就是标题中提到的三种:8,24,32。 PNG-32每个像素的深度为32bits,其...

Introducing AI-driven acoustic synthesis for AR and VR【转】

发布时间:2022-07-04  栏目:AI应用领域, 元宇宙, 图像处理, 机器视觉, 深度学习, 自然语言处理  评论:0 Comments

Introducing AI-driven acoustic synthesis for AR and VR (facebook.com)

Disco Diffusion

发布时间:2022-05-23  栏目:AI应用领域, 人工智能, 图像处理  评论:0 Comments

Google开发的一个名为Disco Diffusion的系统,目前是V5版本。 Disco Diffusion v5.2 [w/ VR Mode] – Colaboratory (google.com)

Event-aided Direct Sparse Odometry

发布时间:2022-05-07  栏目:ADAS, AI应用领域, 图像处理, 机器人, 机器视觉  评论:0 Comments

Event-aided Direct Sparse Odometry (uzh.ch)

ConvNeXt

发布时间:2022-03-15  栏目:图像处理, 机器视觉, 深度学习  评论:0 Comments

[2201.03545] A ConvNet for the 2020s (arxiv.org)   参考: ConvNeXt:手把手教你改模型 – 知乎 (zhihu.com) 如何评价FAIR提出的ConvNeXt:CNN匹敌Swin Transformer? – 知乎 (zhihu.com)

Dawn, a WebGPU implementation

发布时间:2021-11-16  栏目:AI应用领域, 人工智能, 图像处理, 机器学习, 机器视觉, 深度学习, 软件、框架及系统  评论:0 Comments

WebGPU exposes an API for performing operations, such as rendering and computation, on a Graphics Processing Unit.   Dawn is an open-source and cross-platform implementation of the work-in-progress WebGPU standard. More pr...

OpenGL (Open Graphics Library)

发布时间:2021-11-16  栏目:图像处理, 软件、框架及系统  评论:0 Comments

OpenGL(英语:Open Graphics Library,译名:开放图形库或者“开放式图形库”)是用于渲染2D、3D矢量图形的跨语言、跨平台的应用程序编程接口(API)。这个接口由近350个不同的函数调用组成,用来绘制从简单的图形比特到复杂的三维景象。而另一种...

Shader(着色器)

发布时间:2021-11-16  栏目:图像处理, 工程部署, 机器视觉, 深度学习  评论:0 Comments

Shader(着色器)应用于计算机图形学领域,指一组供计算机图形资源在执行渲染任务时使用的指令,用于计算图像的颜色或明暗。但近来,它也能用于处理一些特殊效果,或者视频后处理。通俗地说,着色器告诉电脑如何用特有的一种方法去绘制物体。 程...

相册集

pix pix pix pix pix pix

关于自己

杨文龙,微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位,热爱创新发明,专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域,目前发明有国际专利19篇,中国专利28篇。

联系我

个人技术笔记

290125097@qq.com

2015 in Shanghai