以二元立木材积表的编制为例,首先需定出m个直径值,再针对每个直径值定出k个树高值,最后按一定要求收集m×k个子样本,合起来形成整个建模样本。假定每个子样本有相同的变动系数(如10%),按±5%的预估误差要求(置信水平95%),则各需16个样本单元(取t0.05=2,实际操作时应随n作调整)。按最低限度取m=5、k=3,则共需240个样本单元。如果要求预估误差为±3%,且其它条件不变,则共需667个样本单元。一般情况下,材积变动系数会随D、H的增大而增大,因此,如果建模样本中对应较大D、H组合的点所取子样本单元数较少,则必然会造成大径级立木的材积估计值达不到预定的精度要求。
样本构成 样本构成指样本单元数随自变量的分布情况。仍以二元立木材积模型为例,样本构成涉及上述m、k的确定及每一个子样本中具体建模样木的选取。
关于径级数m和每个径级中的树高级数k,文(中华人民共和国林业部,1990)中建议分别在10~15左右和不少于3个。因为m、k的大小直接影响收集样本的工作量,提供一个最低限度指标是必要的。对于材积模型,因为其曲线变化趋势比较单一,故取m=5~8、k=3~5即可。如果是变化趋势比较复杂的模型(如“S”型生长曲线),可适当增加至m=7~10。在确定m、k之后,具体选取哪些径级和树高级时,应掌握如下原则:最小、中等和最大者必选,然后再在其间适当增选;目标变量变化规律未知时考虑等距均匀分布,变化规律已知时宜典型选取,其中变曲点处必选。由于树高级的确定是在已定径级基础上进行的,故应考虑影响树高变动的各种因素。
具体针对某一径级和树高级组合的子样本,其样木的选取必须考虑影响材积变动的各种因素,在根据各种影响因素划分的类型中去典型选样。因为异方差性的存在,有人认为各子样本样木的D、H应尽可能地一致,以正确地估计其平均数的方差和变动系数。尽管整个样本看起来呈现离散性,但不会影响建模效果。相反,因为各子样本的收集都达到了建模要求,只要模型选取得当,其预估精度是肯定可以达到预定要求的。
样本资料的收集是建模的首要环节,其质量好坏直接影响建模效果。通过模拟数据的对比检验结果可以发现,一套理想的建模样本数据,不管是采用普通回归还是加权回归估计方法,其结果几乎是一致的。也即由一套好的样本资料所建立的模型,其总相对误差和总系统误差都应该接近于0。因此可以说,2种估计方法得出的回归模型的差异大小,在一定程度上反映了建模样本的质量好坏。