4)个体集的分布函数的例子 如与分布函数对应的问题──标志值──函数值意义: a、不同身高学生各有多少(如三年级)──学生身高──学生数量; b、不同的年产值的企业各有多少──企业年产值──企业数量; c、不同人口数量的国家各有多少──国家的人口数──国家数量; d、不同吨位的轮船各有多少──吨位──轮船数量; e、不同质量的恒星各有多少(如银河系)──质量──恒星数量; f、不同温度的日子各有多少(如1年中)──温度──天数; g、不同海拔高度的面积各有多少(如中国)──拔海高度──面积; h、不同随机变量x值出现概率是多少──随机变量x──出现概率。 标志值可以是离散变量,也可以是连续变量,而函数可以是连续的也可以不连续的。上面最后一个例子把所有的概率分布函数都归入个体集模型内。但是这里在用词上与那里有一些差别。这里的连续型分布函数对应于那里的概率密度分布函数(那里的概率分布函数是概率密度分布函数的从变量下限开始到目前值的积分)。(旁白:我们讨论大家早就熟悉的个体二字,现在居然发现同类个体的集合必然存在着一个函数,好像我们走了一段熟路可居然看到了新景,有趣!) 【3、个体集的表示、运算和特征量】 在数学中一切进步都是引入表意符号后的反应(皮亚诺G.Peano语),让“个体”概念进入科学领域,还需要引入有关的“符号”以及量化、运算方法。 1.字符多项式 我们一般地把有p项组成的a1x1+a2x2+……+apxp的式子称为字符多项式。在外型上,字符多项式类似初等代数里的多元一次多项式,但是它们的各个ai和xi都可以是有一定意义的字符串(不再单纯是数了)。而+号也需要针对需要去定义(说明)。由于它们经常不再是“数”,所以连写在一起,也(一般)不具有数的乘法的意义。 这里有9个水果:3个苹果,2个梨,4个香蕉,可以用字符多项式写为(3个)(苹果)+(2个)(梨)+(4个)(香蕉)。它对应的字符多项式里的字符串例子,见各个字符串在字符多项式一般公式中的含义如:符号a1—a2—a3;x1—x2—x3: 含义—3个—2个—4个;苹果—梨子—香蕉。 上面字符多项式里的“+”号具有“还有”的意义(不是强行把含义不同的东西做代数加法)。在算术运算里3个苹果不能与2个梨做加法,因为它们的单位不同。但是这里对加号有了另外的理解,于是3个(苹果)+2个(梨)就是合格的表达式了。但是,至少可以这样认为,3个(苹果)+2个(梨)=2个(梨)+3个(苹果)。在文献《字符多项式与表格数学》中,初步讨论了字符多项式和它的一些应用。那里还指出它可以表示各种表格。下面我们要用它表示个体集。 2.个体集本身的符号表示 对于个体集本身,我们一般用被方括弧包起来的大写粗体的字母表示它(这与集合的表示类似)。如用[A]表示盘子里有9个水果:3个苹果,2个梨,4个香蕉。[B]、[C]、[甲]等等符号,都可以表示某特定的个体集。 3.离散的分布函数的符号表示 鉴于经常出现分布函数的自变量不是过去常用的连续变量,而可以是离散的特征标志(如名字是苹果、梨、香蕉的水果,蓝色的、黄色的……),所以我们推荐用字符多项式去表示分布函数。例如前面的例子里,就用下式表示这个个体集的分布函数: [A]=(3个)(苹果)+(2个)(梨)+(4个)(香蕉) 这里[A]代表了一个个体集,而等号后面表示该个体集的分布函数。显然[B]=15个(儿童)+16个(成年人)+9个(老年人)表示了不同年龄段的人各有多少,[B]就是一个分布函数明确的个体集。 这里把园括号省略了。[C]=14(70分以下)+25(70-90分)+10(90分以上)表示了一次考试的全班成绩的个体集的分布函数,它说明70分以下的学生有14个,70到90分的学生25个,高于90分的学生有10个。根据上面的说明,我们一般用方括弧包起来的大写字母表示个体集本身;而用字符多项式表示该个体集的分布函数。 这里的等号“=”体现了前面的认识:知道了它的分布函数,也就等于知道了一个确定的个体集。而加号“+”的意义是“还有”、“还包括有”的意思。如果再借用数学里的求和符号∑,个体集的分布函数就可以一般地写为下面格式: [A]=∑nixi (2) 这里的各个xi是彼此不同的标志值(也称为变量);而各个ni是对应于该标志值的个体的数量(这里用符号n代替了a(它包含计量单位“个”)。我们也用“系数”称呼它。 对于分布函数是连续变量的情况(标志值是连续变化的),它们对应的个体数量也是连续变化的情况(在个体数量十分大的情况下,才会出现化离散为连续的数学处理技巧问题),我们依然可以用数学里惯用的连续函数去表示它。 2.个体集的运算 如果给某概念一个比较严的定义,而随后提不出有什么好处(定量的计算、新规律的发现……),这样的定义在科学上也就没有吸引力了。已知甲小学的不同年级各有多少学生,还知道乙小学不同年级各有多少学生。求两个学校合并以后的不同年级各有多少学生。 如果用个体集[甲]、[乙]分别表示两个学校的学生个体集,两个小学合并以后的个体集用[丙]表示,那么个体集[丙]就是[甲]、[乙]的“和”。这里的“和”是一种数学运算,这可以写为: [丙]=[甲]+ [乙] 如何对两个个体集做加法运算?其实,运用代数里的多项式加法(合并同类项)正合适。在这里已经看到定义的字符多项式的好处。 《组成论》里介绍了个体集的某些运算规则。它把过去熟悉的一些逻辑和代数运算规则,如加、减、乘、除等,引用到个体集中。通过这些运算可以得到含义明确的新的个体集。个体集不仅成为可以运算的对象,而且通过运算扩展了我们的知识。 3.个体集的某些特征量(参数) 1)个体集的个体总数N: 个体集存在着一些重要的特征量或者说重要参数。由于我们突出了个体的完整性(量子化)、离散化(现在时髦的称呼是“数字化”),所有个体集里所包括的个体的数量应当是个正整数。这个正整数自然称为该个体集的个体总数。这个小学校有400学生,中国有14亿人、那个盘子里有7个水果都是例子。根据定义,个体集的个体总数显然是个体集的分布函数多项式表示下的各个系数的和,即 N=∑ni (3) 2)个体集的标志值的平均值m: 如果某一个体集的各个标志值xi是物理量(包括单位)而不是字符串,那么按照统计学的一般做法,通过下面公式得到的数值显然应当称为该个体集的标志值的平均值 m=∑(nixi)/N (4) 公式中的ni和xi都是数,而且这里是真的在ni和xi进行普通的代数运算(相乘)。运算得到的m的量纲应当与xini相同。甲班的学生-年龄个体集为: [甲]=3个(12岁)+15个(13岁)+11个(14岁)+1个(15岁)。那么甲班学生的平均年龄m显然是: m=(3×12+15×13+14×11+1×15)/(12+15+14+1)=13.3。 即平均年龄是13.3岁。 3)个体集内不同标志值占的百分比(权重)fi: 它等于具有标志值xi的个体数量ni与总体内的个体总量N的比值。即:fi =ni/N (5) 百分比本来就是大家熟悉的统计量,现在用到这里了。显然,各个标志值的fi的合计值应当等于1。在概率论语言中被称为归一性。 1=∑fi=∑ni/N (6) 4)上面谈到的一些特征量的关系理解 可用“个体集──一般符号表示(或特例)──总计”来帮助理解。 a、标志值(区间)──x1+x2+……──从下界到上界; b、个体数量──n1+n2+……──N; c、比例── n1/N +n2/N +……──N/N; d、百分比──f1+f2+……──1; (下面是个体集──特例──总计) e、年龄(岁)──12+13+14+15+…──12--15; f、学生(个)──3+15+11+1+…──30; g、百分比──3/30+15/30+11/30+1/30+…──30/30。 5)定义: 百分比矢量f是个体集必然具有的一个矢量,它的各个分量就是具有特定的标志值xi的个体的数量与个体集内个体总量的比值ni/N,即fi(i=1,2,…)。如本班有50个同学,女生占30人,男生20人,则这个个体集的百分比矢量f的两个分量(顺序是女,男)是(0.6,0.4)。任何一个个体集的百分比矢量的各个分量代数和等于1。 6)百分比的代数平均值和几何平均值 假设个体集内的每个个体用一个卡片代表它,而在卡片上根据它原来的标志值xi,写上该标志值对应的百分比的值fi,那么也可以认为百分比本身就是标志值了。即这个个体的标志值xi就改用xi占的百分比fi来代替了。由于百分比这个新的标志值是数值,我们自然可以求这个个体集内各个个体的百分比的平均值。 而根据平均值的定义,m=∑(nixi)/N,注意到现在fi代替xi(相当于对自变量的函数求平均值),而fi=ni/N,自然有百分比的平均值公式:mf=∑(ni)^2/N^2=∑(fi)^2 (7) 于是我们知道一个“个体集”内的不同的标志值占的百分比的平方和,就是各个个体的新标志(百分比)的平均值。按照统计学的语言,这种平均值应当称为代数平均值或者算术平均值。对于直角坐标系下的平面上的一个矢量,我们知道其分量的平方和是个有意义的量(开平方以后是该矢量的长度)。在p维空间中的一个矢量,其各个分量的平方和也是有意义的。对于个体集来说,它的百分比矢量的平方和等于百分比的平均值。另外对百分比还可以求其几何平均值。 根据几何平均值的定义,个体集内的百分比的几何平均值(mf)'应当是:(mf)'=N√[∏(fi)ni] (8) 7)个体集的复杂程度C,其定义是: C= [N(㏒N)]-[∑(ni) (logni)] (9) 以上两个平均值都是个体集的重要特征量,它们与熵有特殊关系(见后面说明)。
|