样本量不大时如何写出1篇饱满的诊断临床预测模型论文

　　样本量不大时如何写出1篇饱满的诊断临床预测模型论文？所谓"巧妇难为无米之炊"，统计学玩的就是数据，当你的数据量不足，自身写作的底气仿佛低人三分一样。关于临床预测模型亦如是。当自身样本量也就100多-200上下，此时到底拆不拆分成训练集和验证集呢?不拆建模都有一定的风险，一旦拆分结果也许会更加不稳定。

　　如果你样本量豪横，几万-几十万，那么这篇推文您不必看。此文适合余粮不足的小课题组。当您样本量不大，全部数据也仅仅满足10EPV原则稍微大一点。那就意味着，您全部数据拿来建模也就刚刚好够，此时您是不可以进行拆分的，因为，自变量数量还是那么多，当您样本量进行拆分，那么势必构建模型的样本量就不够用了。同时要注意，10EPV不是指受试对象数目是自变量的10倍，而是指受试对象中发生目标结局事件的人数满足10EPV原则。

　　如何小样本建模?

　　1.不要拆分了，全部数据进行建模;

　　你也许说，那我不就没有验证集了嘛?那我结果专家肯定不认可。注意预测模型验证主流包括2种方法：一是交叉验证，二是Bootstrap;

　　交叉验证又包括简单交叉、K重交叉和留一法，关系如下：

　　建模时，一般采用的都是先单后多模型;那么此时你就可以得到下面一张先单后多的统计分析表格。

　　但是如果你数据相关性较高，也可以采用LASSO进行筛选变量，然后再进行多因素分析，那么此时的结果就更加哇塞一些，当然也得数据分析的结果还可以才行。

　　模型构建好之后，开始评价与验证。预测模型从区分度、校准度和临床适用度3个方面进行评价与验证的哦!

　　2.区分度的评价.

　　因为我们没有进行训练集与验证集的拆分，所以就没有验证集的评价了，但是验证还是要验证的，首先是区分度的评价，对于区分度评价采用的时ROC和AUC。

　　此时我们也有两种选择，要么对训练集进行交叉验证或者急性Bootstrap。交叉验证就是对我们全部数据(建模集)进行3-5-10重拆分，构建3-5-10个模型，然后进行3-5-10遍的验证，最后得出一个平均的结果;

　　Bootstrap就是在我们全数据集中进行数百次的抽样，进行数百次的模型运行评价，分别计算其ROC和AUC，然后得到一个综合的平均结果，反应模型的稳健表现。

　　两种方式的展现方式也不一样。如下为ROC的10重交叉。

　　如下为ROC的Bootstrap，那么松哥问您一个问题，对于ROC的交叉验证与Bootstrap，您觉得那个更好呢?

　　3.校准度评价与验证.

　　校准度评价，一般我们采用的都是Bootsrap，通常都是500次，也有1000次抽样。一般校准曲线出现Bias-corrected的那条线，就是经过500次或1000次抽样后得到的模型表现的平均线。

　　4.DCA评价与验证.

　　DCA也是常用Bootstrap进行验证，当然也可以交叉验证。如下就是精鼎诊断预测模型软件进行的Bootstrap DCA和交叉验证的DCA。

　　5.绘制Nomogram.

　　在样本量不大的情况下，上述对3个度都进行的模型的评价与验证。就该进行模型展示了，如下四种，1-2-3-4，展现能力逐步增强，看你分析能力选择吧!

　　6.合理性分析.

　　一般到这时候，很多文章就开始讨论收尾了，其实还可以进一步验证我们模型的合理性以及诊断能力。

　　此时，我们还可以增加2张图和1张表格。

　　第一张图：Nomo-ROC，是绘制包括Nomo模型以及模型包含的各个因子的多ROC曲线，如果模型效果合理，那么Nomo的ROC应该比任何一个子民的ROC都要大。

　　第二张图：Nomo-DCA，道理和上述一致的。

　　第三张表格：诊断能力评价表，就是你构建的模型是诊断类的预测模型，用于模型的诊断，那么你构建好了之后，如何评价您的诊断能力呢?那么再好的不过诊断试验评价指标了哦，于是就要进行灵敏度、特异度等评价指标进行评价。

　　小结

　　对于诊断类预测模型，在样本量不大的情况下，如果能把上述评价与验证都做了，基本上，已经分析的够透彻了。还有几个问题和大家讨论下：

　　1.到底啥是模型评价?啥是模型验证?

　　建模阶段，比如临床预测模型建模判定参考的AIC、BIC指标，都是评价指标;

　　区分度、校准度、临床适用度等指标，都是评价指标;

　　那么何为验证呢?就是你得到一个评价指标后，有无对该指标进行交叉验证或者Bootstrap验证。所以好的临床预测模型，不仅是评价，而且要验证。

　　2.Bootstrap和交叉验证那个更好?

　　从统计学角度，以及一些大牛的推荐，Bootstrap更加适合小样本的研究。因为你自助抽样500次或1000次，就等于进行500次或1000次的检验;而你交叉验证目前常用的也就进行10重交叉，也就分析10次。

　　3.为啥合理性分析，有Nomo-DCA和Nomo-ROC，为啥没有Nomo-Calibration plot; 这点确实如此，目前看文献，尚未见到Nomo-Calibration plot。

　　4.如果继续提升这篇文章，你可以考虑用不同方法构建两个模型或多个模型;或者自己构建模型和一个国际模型比较;当你有多个模型的时候，就可以对他们进行比较，那么此时，又可以绘制多张图，同时还可以计算NRI和IDI 的评价指标了。