rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no
需要注意的是,在 记事本打开这个文件时,可能会因为回车符定义不一致而导致分行不正常。
推荐使用 8 这样的字符编辑软件察看 366 文件的内容。
下面我们来对这个文件的内容进行说明。
识别 366 文件的重要依据是分行,因此不能在这种文件里随意的断行。空行(或全是空格的行)将被忽
略。
以“95开始的行是注释, 将忽略这些行。如果你看到的“75文件多了或少了些“95开始
的行,是没有影响的。
除去注释后,整个 366 文件可以分为两个部分。第一部分给出了头信息(:),包括
了对关系的声明和对属性的声明。第二部分给出了数据信息( +),即数据集中给出的
数据。从“;5标记开始,后面的就是数据信息了。
关系声明
关系名称在 366 文件的第一个有效行来定义,格式为
;<,=
<,=是一个字符串。如果这个字符串包含空格,它必须加上引号(指英文标点的单引号或
双引号)。
属性声明
属性声明用一列以“;.-5开头的语句表示。数据集中的每一个属性都有它对应的“ ;.-5语
句,来定义它的属性名称和数据类型。
这些声明语句的顺序很重要。首先它表明了该项属性在数据部分的位置。例如,“-5是第三个被
声 明 的 属 性 , 这 说 明 数 据 部 分 那 些 被 逗 号 分 开 的 列 中 , 第 三 列 数 据 %1$%1 是 相 应 的
“-5值。其次,最后一个声明的属性被称作 " 属性,在分类或回归任务中,它是默认的目标变
量。
属性声明的格式为
;.-<.-,=<=
其中<.-,=是必须以字母开头的字符串。和关系名称一样,如果这个字符串包含空格,它
必须加上引号。
支持的<=有四种,分别是
-",,,,,,,,,,,,,,,,,,,,,,,,,数值型