![]() |
|
|||||
|
|
||||||
|
||||||
| 您现在的位置: 中国商业智能网 >> CIO >> BI知识 >> 文章正文 |
|
|||||
| SPSS Clementine 数据挖掘 Step(2) | |||||
| 作者:cheney s… 文章来源:http://esestt.cnblogs.com/ 点击数: 更新时间:2007-7-17 | |||||
|
下面使用Adventure Works数据库中的Target Mail作例子,通过建立分类树和神经网络模型,决策树用来预测哪些人会响应促销,神经网络用来预测年收入。 Target Mail数据在SQL Server样本数据库AdventureWorksDW中的dbo.vTargetMail视图,关于Target Mail详见: http://technet.microsoft.com/zh-cn/library/ms124623.aspx#DataMining 或者我之前的随笔: http://www.cnblogs.com/esestt/archive/2007/06/06/773705.html 1. 定义数据源 将一个Datebase源组件加入到数据流设计区,双击组件,设置数据源为dbo.vTargetMail视图。
Direction表明字段的用法,“In”在SQL Server中叫做“Input”,“Out”在SQL Server中叫做“PredictOnly”,“Both”在SQL Server中叫做“Predict”,“Partition”用于对数据分组。
2. 理解数据 在建模之前,我们需要了解数据集中都有哪些字段,这些字段如何分布,它们之间是否隐含着相关性等信息。只有了解这些信息后才能决定使用哪些字段,应用何种挖掘算法和算法参数。 在除了在建立数据源时Clementine能告诉我们值类型外,还能使用输出和图形组件对数据进行探索。
3. 准备数据 将之前的输出和图形工具从数据流涉及区中删除。 将Field Ops中的Filter组件加入数据流,在Filter中可以去除不需要的字段。
加入Sample组件做随机抽样,从源数据中抽取70%的数据作为训练集,剩下30%作为检验集。
因为要使用两个挖掘模型,模型的输入和预测字段是不同的,需要加入两个Type组件,将数据分流。 决策树模型用于预测甚麽人会响应促销而购买自行车,要将BikeBuyer字段作为预测列。
从Modeling中将Feature Selection字段拖出来,连接到神经网络模型的组件后面,然后点击上方的Execute Selection。
4. 建模 加入Nearal Net和CHAID模型组件,在CHAID组件设置中,将Mode项设为”Launch interactive session”。然后点上方的绿色箭头执行整个数据流。
5. 模型评估 修改抽样组件,将Mode改成“Discard Sample”,意思是抛弃之前用于训练模型的那70%数据,将剩下30%数据用于检验。注意种子不要更改。
|
|||||
| 文章录入:admin 责任编辑:admin | |||||
| 【发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口】 | |||||
| ChinaBI版权、投稿与免责申明: |
| 1)凡本网署名文字、图片和音视频稿件,版权均属中国商业智能网所有。任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本网协议授权的媒体、网站,在下载使用时必须注明“稿件来源:中国商业智能网”,违者本网将依法追究责任。 2)本网注明“采编自”的文章均为转载稿,本网转载出于传递更多信息之目的。如本网转载稿涉及版权等问题,请作者速来电或来函与本网联系。 |
| 最新热点 | 最新推荐 | 相关文章 | ||
| 中国反洗钱监测存储设备 贵阳市信息管理系统软件招标 中国进出口银行业务系统 求购电缆厂erp 求购管理软件 合肥市人大综合信息系统 管理仪表板和记分卡 解析商业智能失败的根源 挖掘Web日志的数据仓库系统 烟草企业绩效考核中的问题 |
网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!) |
| | 关于我们 | 设为首页 | 加入收藏 | 广告服务 | 友情链接 | 版权申明 | |
|
版权所有 中国商业智能网 北京比艾科技有限公司 |