Question 1002874: 图像处理中rgba是什么意思?

统计/机器学习 计算机视觉

图像处理中rgba是什么意思?


Answer

Answer 1:

rgba分布代表红色(Red),绿色(Green),蓝色(Blue)和透明度(Alpha)。

rgba的图片每个像素点是由上面四个数值表示的。

Answer 2:

一般rgb的图像被称为三通道,rgba是四通道,因为多了一个通道alpha,用来表征每个像素点的透明度。


Question 1003229: 有什么好的方法识别图片中的特殊点呢

统计/机器学习 计算机视觉


大概如图所示的图片。

我希望的是把上图中表格所有线条的交叉点的坐标提取出来。

实际是手机拍照出来的,表格的线条并不理想。用opencv去提取线条不合适。

用卷积能够识别出大概的交叉点。但是获取到的坐标并不精确。

想了很久,没找到思路。请问下大家有没有好的思路分享一下呢。欢迎大家一起讨论


Answer

Answer 1:

按你的描述,只要识别出“十字”的特征就可以找出交点坐标。训练图像来自于手机拍摄,主要问题是形变,比如缩放,旋转,位移和错切等(scale,rotation,translation,shear)。这就要求训练输入数据包含大部分的形变。你可以人造一些形变后的图案片作为训练数据。还需要注意kernel size要和“十字”的patch差不多大;因为不需要太多非线性,激活函数用relu;filter个数要多,越多能学到的形变就越多;问题简单,cnn深度不需要太大。

我感觉,不需要cnn,直接人造一些形变的filter bank,再做模式匹配,最后取输出最大值,也能做出来。

你最好把如何获得训练的输入数据,如何产生训练的输出坐标,“十字”线宽度有多少像素,噪音程度,拍摄角度范围,用彩色还是灰度这些细节都描述下,并给出你以前cnn结构,才能更深入讨论。

------------------------

还可以用2D cross-correlation。这里是Matlab里的例子。这个问题里template是“十字”。


Question 1004377: cifar-10数据集是有哪十类?

统计/机器学习 计算机视觉

cifar-10是做图像识别的数据集,据说是有十类,请问有哪十类?


Answer

Answer 1:

基本是动物和交通工具

airplanes(飞机), cars(轿车), birds(鸟), cats(猫), deer(鹿), dogs(狗), frogs(蛙), horses(马), ships(船), and trucks(卡车)


Question 1004683: coco数据集是什么?

统计/机器学习 计算机视觉

coco数据集是什么?


Answer

Answer 1:

就是做物体检测的数据集Common Objects in Context

数据集官网http://cocodataset.org/#home

Answer 2:

有80个分类,8万张训练图片,4万张验证图片的数据集


Question 1005907: 有没有拍商品各个角度(7-10张),就可以无限生成这个商品各个角度的数据集

统计/机器学习 计算机视觉 应用场景

大家好,最近公司在做一个项目,大致场景如下:

在摄像头范围内(摄像头离用户手还有点距离,可以认为是小物体),用户手上会拿着一个商品(例如可乐,零食,纸巾),算法可以实时检测到,现在算法已经弄好了,但是数据标注是大问题(现在是比较原始的录制一段视频标注一段视频),想问下有没更好的标注方式

我了解到有些办法拍商品的各个角度图片(大概7-10张,上下左右都有),然后就可以生成这个商品的各个角度图片,然后就可以直接用来训练了(效率快了N倍),但是不知道具体怎么弄,有朋友知道吗?

(付费告知也行)


Answer

Answer 1:

你说的就是根据照片进行三维重建吧,这个研究应该挺多的,如果你没接触过的话,得好好摸索摸索。

维基百科英文3D reconstruction from multiple images

百度百科三维重建

简书上得综述三维重建初探(整理的一些资料及论文分享)

数据集的话,你可以自己搜索datasets for 3d reconstruction,估计能搜出一些,符不符合你的需求就不知道了


Question 1022375: 模型加载

统计/机器学习 计算机视觉

请问怎么在测试时一次性加载好模型参数并初始化,防止后面在测试时每次都加载模型


Answer

Answer 1:

保存的代码:

torch.save(model.state_dict(), PATH)

加载的代码:

model = TheModelClass(*args, **kwargs)

model.load_state_dict(torch.load(PATH))



来自sofasofa(一个专业的机器学习社区),建议去sofa社区阅读,这里只是记录。防止网站在网络中走失。