·设为首页
·加入收藏
·在线支付
 | 网站首页 | 资讯 | CIO | 案例 | 培训 | 专家 | 咨询 | 商城 | 下载 | 论坛 | 博客 | 
您现在的位置: 中国商业智能网 >> CIO >> BI知识 >> 文章正文 用户登录 新用户注册
第十课 数据挖掘项目考虑的问题           ★★★ 【字体:
第十课 实施数据挖掘项目考虑的问题
作者:佚名    文章来源:论坛    点击数:    更新时间:2008-2-28

谈到数据挖掘应从以下三方面加以考虑,一是用数据挖掘解决什么样的商业问题,二是为进行数据挖掘所做的数据准备,三是数据挖掘的各种分析算法。
  数据挖掘的分析算法主要来自于以下两个方面:统计分析和人工智能(机器学习、模式识别等)。数据挖掘研究人员和数据挖掘软件供应商,在这一方面所做的主要工作是优化现有的一些算法,以适应大数据量。另外需要强调的是,任何一种数据挖掘的算法,不管是统计分析方法、神经元网络、各种树分析方法,还是遗传算法,没有一种算法是万能的。不同的商业问题,需要用不同的方法去解决。即使对于同一个商业问题,可能有多种算法,这个时候,也需要评估对于这一特定问题和特定数据哪一种算法表现好。
  做数据挖掘研究的人,往往把主要的精力用于改进现有算法和研究新算法上。人们都知道数据准备是必不可少的一步,但很少有人去真正花时间和精力去研究。其实数据挖掘最后成功与失败,是否有经济效益,数据准备起到了至关重要的作用。数据准备包含很多方面:一是从多种数据源去综合数据挖掘所需要的数据,保证数据的综合性、易用性、数据的质量和数据的时效性,这有可能要用到数据仓库的思想和技术;另一方面就是如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分析经验和工具的方便性。
  众所周知,SQL是广泛用于数据库查询的语言,有很多数据挖掘软件提供商利用SQL来为数据挖掘做数据准备,但就笔者多年来的分析经验和同其他专家探讨感觉到,SQL在很多时候有些力不从心,因为数据挖掘和分析的一些算法通常要求数据具有一定的格式和规范性。
  还需要强调的一点是,人们通常把数据挖掘工具看得过份神秘,认为只要有了一个数据挖掘工具,就能自动挖掘出所需要的信息,就能更好地进行企业运作,这是认识上的一个误区。其实要想真正做好数据挖掘,数据挖掘工具只是其中的一个方面,同时还需要对企业业务的深入了解和数据分析经验。一个企业要想在未来的市场中具有竞争力,必须有一些数据挖掘方面的专家,专门从事数据分析和数据挖掘工作。再同其他部门协调,把挖掘出来的信息供管理者决策参考,最后把挖掘出的知识物化。在国内的企业中,还很少有决策人员认识到这一点。如果管理者没有这方面的意识,数据挖掘和数据分析就很难发挥应有的作用,很容易走向两个极端,一是认为数据挖掘没有用处,二是开始认为数据挖掘是万能的。如此得到的结果往往与初始期望相去太远。
  具体地说,应考虑以下八个问题:
  1. 超大规模数据库和高维数据问题;
  2. 数据丢失问题;
  3. 变化的数据和知识问题;
  4. 模式的易懂性问题;
  5. 非标准格式的数据、多媒体数据、面向对象数据处理问题;
  6. 与其他系统的集成问题;
  7. 网络与分布式环境下的KDD问题。
  8. 个人隐私问题

文章录入:admin    责任编辑:admin 
  • 上一篇文章:

  • 下一篇文章: 没有了
  • 发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
    ChinaBI版权、投稿与免责申明:
    1)凡本网署名文字、图片和音视频稿件,版权均属中国商业智能网所有。任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本网协议授权的媒体、网站,在下载使用时必须注明稿件来源:中国商业智能网,违者本网将依法追究责任。
    2)本网注明“采编自”的文章均为转载稿,本网转载出于传递更多信息之目的。如本网转载稿涉及版权等问题,请作者速来电或来函与本网联系。
    最新热点 最新推荐 相关文章
    第九课 数据挖掘应用
    第八课 数据挖掘未来热点
    第七课 数据挖掘的流程
    第六课 数据挖掘常用技术
    第五课 数据挖掘的功能
    第四课 数据挖掘研究内容
    第三课 数据挖掘的研究历史
    第二课 数据挖掘的定义
    第一课 数据挖掘技术的由来
    数据挖掘是如何工作的
      网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)