杨文龙的博客 » 图像处理 - 个人技术笔记 - 热爱创新发明，专注机器学习、算法、深度学习、自然语言处理及人工智能

stylegan Ubuntu env setup

发布时间：2024-03-02 栏目：AI应用领域, GPU, VideoConference, 人工智能, 元宇宙, 图像处理, 机器视觉评论：0 Comments

Check the python, pytorch and Ubuntu version in conda env: python –version conda list pytorch lsb_release -a gcc –version 看CUDA版本的方法有多种，通过命令行查看。打开命令提示符（CMD），输入`nvcc -V`或`nvcc –v...

处理时间与延迟时间

发布时间：2023-10-19 栏目：ADAS, AI应用领域, VideoConference, 元宇宙, 图像处理, 机器视觉, 模型加速或优化评论：0 Comments

在自动驾驶辅助驾驶的视觉感知，以及视频通讯特效领域都有碰到这两个概念的区分。在视频通讯的特效领域要区分处理时间与延迟时间： – 每一个视频处理模块的处理时间要达到实时，一般需要保持在30ms以内，如果大于这个值，就需要掉...

回忆玻尔兹曼机

发布时间：2023-06-14 栏目：人工智能, 图像处理评论：0 Comments

Hopfield网络用于解决模式识别问题，而玻尔兹曼机用于解决约束满足问题(CSP)。约束满足问题(CSP)可以用Hopfield网络来解决吗？Hopfield网络往往不能收敛到达全局能量最低的稳定态，而是陷入某个局部能量最低的稳定态不能自拔。对于模式...

Textual Inversion vs. Dreambooth

发布时间：2023-03-01 栏目：AI应用领域, 人工智能, 元宇宙, 图像处理, 机器视觉评论：0 Comments

Textual Inversion 从 SD 已知的内容中挖掘给定的输入。Dreambooth 将所需内容插入到输出中。那么在实践中有什么区别呢？ Textual Inversion 不会在系统中插入“新数据”，它只提供更好的向导以便找到所需内容。Dreambooth 需要插入且只插入所需的...

AI videos

发布时间：2023-02-22 栏目：AI应用领域, 人工智能, 元宇宙, 图像处理, 机器视觉, 深度学习评论：0 Comments

Gen-1 by Runway (runwayml.com)

视频质量客观评价指标

发布时间：2023-01-05 栏目：VideoConference, 元宇宙, 图像处理, 机器视觉, 深度学习评论：0 Comments

PSNR SSIM VMAF

图像压缩

发布时间：2023-01-03 栏目：图像处理, 机器视觉, 深度学习评论：0 Comments

JPEG（ Joint Photographic Experts Group）即联合图像专家组，是用于连续色调静态图像压缩的一种标准，文件后缀名为.jpg或.jpeg，是最常用的图像文件格式。其主要是采用预测编码（DPCM）、离散余弦变换（DCT）以及熵编码的联合编码方式，以去除...

扩散模型

发布时间：2022-12-15 栏目：人工智能, 图像处理, 机器视觉评论：0 Comments

GANs的一些主要瓶颈是: 图像生成缺乏多样性模式崩溃多模态分布问题学习训练时间过长由于问题表述的对抗性，不容易训练模式崩溃(model collapse)原因一般出现在GAN训练不稳定的时候，具体表现为生成出来的结果非常差，但是即使加长训练时...

Windows Imaging component

发布时间：2022-12-06 栏目：图像处理, 机器视觉, 软件、框架及系统, 软件接口评论：0 Comments

Windows Imaging Component做图片的resize效率很高

一句话生成3D模型

发布时间：2022-11-27 栏目：AI应用领域, 人工智能, 元宇宙, 图像处理, 机器人, 机器视觉, 深度学习评论：0 Comments

英伟达“一句话生成3D模型”碾压谷歌：分辨率清晰8倍，速度快2倍 (qq.com)

PNG格式与alpha通道

发布时间：2022-08-31 栏目：图像处理, 软件、框架及系统评论：0 Comments

首先PNG作为无损压缩的图片文件，本质上对图片编码的方式和上文提到按照像素编码方式并没有太大的不同，但是他有多种不同的像素深度和像素格式可以选择。彩色的PNG像素格式就是标题中提到的三种：8，24，32。 PNG-32每个像素的深度为32bits，其...

Introducing AI-driven acoustic synthesis for AR and VR【转】

发布时间：2022-07-04 栏目：AI应用领域, 元宇宙, 图像处理, 机器视觉, 深度学习, 自然语言处理评论：0 Comments

Introducing AI-driven acoustic synthesis for AR and VR (facebook.com)

Disco Diffusion

发布时间：2022-05-23 栏目：AI应用领域, 人工智能, 图像处理评论：0 Comments

Google开发的一个名为Disco Diffusion的系统，目前是V5版本。 Disco Diffusion v5.2 [w/ VR Mode] – Colaboratory (google.com)

Event-aided Direct Sparse Odometry

发布时间：2022-05-07 栏目：ADAS, AI应用领域, 图像处理, 机器人, 机器视觉评论：0 Comments

Event-aided Direct Sparse Odometry (uzh.ch)

ConvNeXt

发布时间：2022-03-15 栏目：图像处理, 机器视觉, 深度学习评论：0 Comments

[2201.03545] A ConvNet for the 2020s (arxiv.org) 参考： ConvNeXt：手把手教你改模型 – 知乎 (zhihu.com) 如何评价FAIR提出的ConvNeXt：CNN匹敌Swin Transformer? – 知乎 (zhihu.com)

Dawn, a WebGPU implementation

发布时间：2021-11-16 栏目：AI应用领域, 人工智能, 图像处理, 机器学习, 机器视觉, 深度学习, 软件、框架及系统评论：0 Comments

WebGPU exposes an API for performing operations, such as rendering and computation, on a Graphics Processing Unit. Dawn is an open-source and cross-platform implementation of the work-in-progress WebGPU standard. More pr...

相册集

关于自己

杨文龙，微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位，热爱创新发明，专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域，目前发明有国际专利19篇，中国专利28篇。

联系我

个人技术笔记

290125097@qq.com

2015 in Shanghai