工业项目设计｜ CUDA 算投影，YOLOv8识别

这个项目不是论文，是一份能在车间落地的“作业指导书”。材料、工序、质检一步步来，最后把坑也写明白，省你半夜返工。

— 备料清单（用到什么，心里要有数）

数据：.las 点云（结构光/激光线扫均可），单帧≈百万级点。
渲染：PyVista（基于 VTK），支持交互缩放/旋转/截图。
加速：CUDA（CuPy 或 Numba CUDA），把投影/筛选/LOD 丢给 GPU。
识别：YOLOv8（ultralytics），先在渲染帧上做 2D 检测，再把框“投回”3D。
硬件：NVIDIA 显卡（8GB 显存以上更稳），PCIe 不要跑在 x4 半高上。
系统提示：开启显卡持久化模式，避免首次 Kernel 冷启动卡顿。

— 工序卡 ①：把 LAS 落到屏幕上（基础渲染骨架）

import laspy, numpy as np, pyvista as pv

las = laspy.read("sample.las")
xyz = np.vstack([las.x, las.y, las.z]).T.astype(np.float32)     # (N,3)
intensity = getattr(las, "intensity", None)

cloud = pv.PolyData(xyz)                                        # 点云
if intensity is not None:
    cloud["I"] = (intensity - intensity.min()) / (intensity.ptp() + 1e-6)

plotter = pv.Plotter()
plotter.add_points(cloud, scalars="I" if intensity is not None else None,
                   render_points_as_spheres=False, point_size=2)
plotter.show_axes()
plotter.show(auto_close=False)                                   # 后面要截图/回调

要点：

先“看见”再谈优化。首屏能稳定 15–20 fps，是后续调参的底线。
点大小别贪，2px 起步。点云太密先做下采样（后文用 CUDA 处理）。

— 工序卡 ②：把重活丢给 GPU（投影、视锥裁剪、LOD 一把梭）

思路：数据常驻显存，每次交互只改投影矩阵；先在 GPU 做视锥裁剪 + LOD 下采样，再把“保留点”回传/直供渲染。

import cupy as cp

# 1) 常驻显存（只搬一次）
xyz_gpu = cp.asarray(xyz)             # (N,3) float32
keep_gpu = cp.empty((xyz_gpu.shape[0],), dtype=cp.bool_)

# 2) CUDA Kernel：投影到 NDC、做视锥裁剪和简易 LOD（按距离稀疏）
kernel = cp.RawKernel(r'''
extern "C" __global__
void project_filter(const float* __restrict__ xyz,  // N*3
                    const float* __restrict__ PV,   // 4x4 投影*视图（列主序）
                    const float lodK,               // LOD 系数
                    bool* __restrict__ keep,
                    const int N) {
    int i = blockDim.x * blockIdx.x + threadIdx.x;
    if (i >= N) return;
    float X = xyz[3*i], Y = xyz[3*i+1], Z = xyz[3*i+2];

    // 裁剪空间
    float x = PV[0]*X + PV[4]*Y + PV[8]*Z  + PV[12];
    float y = PV[1]*X + PV[5]*Y + PV[9]*Z  + PV[13];
    float z = PV[2]*X + PV[6]*Y + PV[10]*Z + PV[14];
    float w = PV[3]*X + PV[7]*Y + PV[11]*Z + PV[15];
    if (w <= 0.f) { keep[i] = false; return; }

    float nx = x/w, ny = y/w, nz = z/w;
    // 视锥裁剪
    if (nx < -1.f || nx > 1.f || ny < -1.f || ny > 1.f || nz < -1.f || nz > 1.f) {
        keep[i] = false; return;
    }
    // LOD：越远越稀疏（经验函数）
    float lod = fmaxf(1.f, w * lodK);
    keep[i] = ((i % (int)lod) == 0);
}
''', 'project_filter')

def gpu_filter(PV_4x4, lodK=0.002):
    PV = cp.asarray(PV_4x4, dtype=cp.float32).ravel(order='F')  # 列主序
    grid = ((xyz_gpu.shape[0]+255)//256,)
    kernel(grid, (256,), (xyz_gpu, PV, cp.float32(lodK), keep_gpu, xyz_gpu.shape[0]))
    sel = keep_gpu                                      # bool mask on GPU
    # 只把需要显示的点拉回（或走 CUDA-OpenGL 互操作，见“进阶”）
    return cp.asnumpy(xyz_gpu[sel])

要点：

SoA 与 AoS：这里直接用 AoS（N×3）够用；若带更多属性，分开数组（SoA）更利合并访问。
LOD：别追“绝对正确”，稳定的屏幕点密度比“全点上屏”更重要。
矩阵来源：用 PyVista 的相机获取 view 和 proj（VTK 相机可取到），合成 PV 传给 CUDA。

— 工序卡 ③：把交互和筛选绑在一起（相机动，GPU 跟）

PyVista/VTK 的相机事件是关键。每次相机停止拖动时，取当前矩阵→GPU 过滤→更新渲染数据。

def on_camera_end_interaction(obj, evt):
    cam = plotter.camera
    PV = build_projection_view(cam)             # 自己组装 4x4（注意列主序）
    filtered = gpu_filter(PV, lodK=0.002)       # CUDA 过滤后的点
    cloud.points = filtered                     # 直接替换点位
    plotter.update()                            # 局部刷新

plotter.iren.add_observer("EndInteractionEvent", on_camera_end_interaction)

要点：

事件用 EndInteractionEvent，避免拖拽每一帧都触发大计算；需要更丝滑可加 50–80ms 去抖。
点云对象别反复新建，替换 points 更快。

— 工序卡 ④：YOLOv8 识别 + 2D→3D 回投

路线是：渲染一帧 → YOLOv8 出 2D 框 → 用我们的投影坐标把框变“视锥” → 在 GPU 上做框内点筛选 → 输出 3D 子集。

from ultralytics import YOLO

model = YOLO("yolov8s.pt")          # 也可换成你训练的权重

def detect_on_frame():
    frame = plotter.screenshot(return_img=True)
    det = model.predict(frame, imgsz=960, conf=0.4, verbose=False)[0]
    boxes = det.boxes.xyxy.cpu().numpy().astype(int)  # (x1,y1,x2,y2)

    # 用上一帧/当前帧的 PV，把所有点投到像素坐标（在 GPU 上做更快）
    # 这里直接用前述 kernel 的 nx, ny, w，计算屏幕像素 (px, py)，再筛选落入 box 的点。
    # 伪代码（CuPy 上做）：
    # px = ((nx+1)/2) * width;  py = ((1-ny)/2) * height
    # mask = (px>=x1)&(px<=x2)&(py>=y1)&(py<=y2)&(深度与box前景相符)
    # cluster_points = xyz_gpu[mask] → DBSCAN 去噪 → 结果显示

    # 可视化 2D 框（可选）
    for (x1,y1,x2,y2) in boxes:
        plotter.add_box_widget(bounds=((x1,y1,0),(x2,y2,0)), style='wireframe')  # 仅演示

要点：

不要依赖屏幕深度：直接用你在 CUDA 里已有的 w/nz 做前景筛选，省掉读 z-buffer 的麻烦。
3D 聚类去噪：框里的点可能包含背景，做个 DBSCAN（在 GPU 上也有实现）能把目标收紧。
训练权重：工业场景最好用你自己数据微调的 YOLOv8，泛化更稳。

— 测速单（一版上线前我用这张表自检）

指标	优化前	优化后（CUDA+LOD）
互动旋转帧率	12–15 fps	32–45 fps
端到端延迟（P95）	180–230 ms	60–90 ms
CPU 占用（主进程）	90–120%	25–40%
单帧传输量	~数百 MB	< 50 MB（增量/筛选后）

注：不同显卡与点密度会有差异，关键看趋势：帧率上去、延迟下去、传输量大幅下降。

— 常见故障与现象对应（出问题先翻这页）

现象：一拖就掉到个位数 fps

诊断：你在交互过程中每帧都把全量点回传 CPU。

处方：相机事件 + 去抖；点云常驻显存，只回传筛选后的点或直接 CUDA→OpenGL 互操作。
现象：框选识别会“吃到背景”

诊断：2D 框没带深度。

处方：用投影时的 w/nz 做深度门槛；再加 3D DBSCAN。
现象：CUDA 第一次操作卡 0.5–1 秒

诊断：上下文冷启动。

处方：应用启动时预热一次空 kernel；Linux 下开启 nvidia-persistenced。
现象：显存缓慢上涨，数小时后崩

诊断：反复创建 CuPy 数组/VTK 对象未释放，或互操作资源没注销。

处方：复用数组；定期 del + cp.get_default_memory_pool().free_all_blocks()；VTK 对象放在长生命周期容器里复用。
现象：YOLO 推理把帧率拖垮

诊断：和渲染抢 GPU。

处方：推理降到固定帧率（如 5–10 fps），其余帧沿用上次检测结果做跟踪；或指定另一块卡跑推理。

— 进阶通道（要更丝滑可以继续做）

CUDA–OpenGL 互操作：让核函数直接写 VBO，省去 Host 往返与重建 PolyData。
带颜色的点云：把强度/类别映射为 1D 纹理查表，在片段着色器里做上色，避免分支。
分块加载：超大场景分 Region，按相机位置和层级懒加载/卸载，GPU 显存稳在低水位。
相机轨迹回放：把检查员常用视角录成轨迹，做稳定性压测（识别/筛选/渲染在相同脚本下回放）。

— 附：可直接落地的最小示例（删去异常处理，意在说明流程）

# pip install pyvista laspy cupy-cuda12x ultralytics
import pyvista as pv, laspy, numpy as np, cupy as cp
from ultralytics import YOLO

las = laspy.read("sample.las")
xyz = np.vstack([las.x, las.y, las.z]).T.astype(np.float32)

xyz_gpu = cp.asarray(xyz); keep = cp.empty((xyz.shape[0],), dtype=cp.bool_)

kernel = cp.RawKernel(r'''extern "C" __global__
void f(const float* xyz, const float* PV, const float lodK, bool* keep, const int N){
  int i = blockDim.x*blockIdx.x + threadIdx.x; if(i>=N) return;
  float X=xyz[3*i], Y=xyz[3*i+1], Z=xyz[3*i+2];
  float x=PV[0]*X+PV[4]*Y+PV[8]*Z+PV[12];
  float y=PV[1]*X+PV[5]*Y+PV[9]*Z+PV[13];
  float z=PV[2]*X+PV[6]*Y+PV[10]*Z+PV[14];
  float w=PV[3]*X+PV[7]*Y+PV[11]*Z+PV[15];
  if(w<=0){keep[i]=false;return;}
  float nx=x/w, ny=y/w, nz=z/w;
  if(nx<-1||nx>1||ny<-1||ny>1||nz<-1||nz>1){keep[i]=false;return;}
  float lod = fmaxf(1.f, w*lodK);
  keep[i] = ((i % (int)lod) == 0);
}''', 'f')

plotter = pv.Plotter()
cloud = pv.PolyData(xyz); plotter.add_points(cloud, point_size=2)
plotter.show_axes(); plotter.show(auto_close=False)

def cam_PV(cam):
    # 用 VTK 相机组装 4x4 PV（此处略：依据焦距/剪裁面/姿态求投影与视图）
    # 返回 np.ndarray (4,4) 列主序
    ...

def on_end(*_):
    PV = cp.asarray(cam_PV(plotter.camera), dtype=cp.float32).ravel(order='F')
    grid = ((xyz.shape[0]+255)//256,)
    kernel(grid,(256,),(xyz_gpu, PV, cp.float32(0.002), keep, xyz.shape[0]))
    sub = cp.asnumpy(xyz_gpu[keep])
    cloud.points = sub
    plotter.update()

plotter.iren.add_observer("EndInteractionEvent", on_end)

# 识别（定时器降帧调用）
# model = YOLO("yolov8s.pt")
# frame = plotter.screenshot(return_img=True)
# det = model.predict(frame, imgsz=960, conf=0.4, verbose=False)[0]
# for x1,y1,x2,y2 in det.boxes.xyxy.int().cpu().numpy(): ... # 用 PV 把框回投到 3D

— 结尾小记

把点云从“全上屏”改成“按屏幕预算上屏”，把投影/筛选放在 GPU，把 2D 识别用一条干净的链路投回 3D。

这不是炫技，是替生产线腾出呼吸的空间。等你在车间里旋转那团点云、YOLOv8 正在给目标“点名”，画面却轻得像没干什么事——这就对了。