详解TensorRT的C++/Python高性能部署

学习内容

image-20230307143026001

image-20230307143104645

image-20230307143616391

  • 要实现高性能,对于预处理和后处理要写cuda核函数;

驾驭tensorRT的方案介绍

image-20230307143935065

image-20230307144103465

image-20230307144215385

image-20230307145015509

image-20230307145149847

image-20230307145550909

image-20230307145737203

  • torch2trt是由个人来维护的;
  • 生成的trt engine是和设备绑定的,在一个型号的显卡上编译的模型不一定能在另一个显卡上好好的执行;
  • 这种方法必须在设备上安装pytorch,然后再导出这个模型,因为从别的地方导出的模型是不一定能用的;

image-20230307151111960

image-20230307151648573

image-20230307151917782

image-20230307152326146

如何正确导出onnx并在C++中正确推理

image-20230307153402167

image-20230307153657443

image-20230307153756859

image-20230307154026675

image-20230307154108420

image-20230307154302209

image-20230307155126651