载入中…
公告栏:
当前位置: 中国商业智能网 >> CIO >> 产品方案 >> 文章正文
KXEN数据挖掘介绍
作者:佚名    来源:本站原创    点击数:    时间:2007-7-23
【摘要】KXEN是三大 数据挖掘软件(SAS/EM、KXEN、SPSS/Clementine)之一,与其它两者不同,KXEN专注数据挖掘的高端技术。 曾几何时,数据分析师,数据挖掘专家们一直认为,“数据挖掘自动化”是不可能的! 虽然,我们一直在说,“数据挖掘是一种艺术”,但是,数据挖掘却一直囿于技术化的……

KXEN是三大 数据挖掘软件(SAS/EMKXENSPSS/Clementine)之一,与其它两者不同,KXEN专注数据挖掘的高端技术。

曾几何时,数据分析师,数据挖掘专家们一直认为,“数据挖掘自动化”是不可能的!

虽然,我们一直在说,“数据挖掘是一种艺术”,但是,数据挖掘却一直囿于技术化的小世界中迟迟不前;我们的客户,花费太多的时间和金钱,建设 数据仓库,却迟迟不能产生效益,传统的数据挖掘工具,却需要非常专业的数据分析师、深厚的数学背景、数年的从业经验,对行业又要有长期的积累,如此长的时间,由数据挖掘,企业何来利润?

KXEN专注数据挖掘,作为KXEN的设计者,有着非常浓厚的数学功底的,数学和统计学中最前沿的技术,是KXEN产生的发展的源动力,Vapnik是当代数学界巨擎,是KXEN科学委员会首席科学家,基于他的统计学习理论,运用结构风险最小化,KXEN驱动“源算法”(meta-algorithms)自动搜索,并且,在算法之前,KXEN有独特的“一致编码模块”,这种独特先进的技术,保证了数据挖掘的最优化。事实上,这种技术随着KXEN的成长,已经应用了十多年,十多年的时间,证实了KXEN的算法是完全可靠的,行业人员、市场人员、企业决策的支持人员都可以使用KXEN得到模型,KXEN的出现,使得“数据挖掘是一门艺术”成为可能,使得“模型工厂”的。

KXEN一直以来有着广泛的合作群体,Teredata的完整数据解决方案是TeredataKXEN的完美结合;埃森哲(Accenture)作为全球著名的咨询公司,一直使用KXEN作为其客户洞察的有力武器;Business Object 商务智能平台,也集成了KXEN,作为其数据挖掘有力实现;SAS分析师,也青睐于KXEN技术,KXEN的独特预处理编码技术和独特的特征选择方式,减少他们的建模时间50%以上。KXEN的算法先进性和其开发性,改变了数据挖掘应用的定位群体,KXEN深信,只有数据挖掘被决策支持人员和行业专家(不仅仅是数据分析师)应用,企业才能创造更大效益;只有集成商把数据挖掘集成于企业的业务系统,“直觉决策”才能转变为“数据洞察”。

全球领先的商业数据挖掘自动化软件KXEN,近日被Gartner分析公司再度青睐,在Gartner刚刚发布的《072季客户数据挖掘魔力象限》报告中,KXEN位居“远见卓识”象限,获此殊誉的仅有KXENPortrait Software,这意味着,由KXEN技术,真正代表着未来的发展,KXEN的理念,已经越来越被广泛接受,于KXEN之中,客户可以获取最先进的数据挖掘技术,最好的性价比,洞悉客户行为,提升企业竞争力。

KXEN理念:

关于此文

    一些人可能会问(也曾经问过)KXEN在一般的数据分析尤其是数据挖掘方面的特别之处。此文的目的不是深入到数学和架构之中来解释KXEN和另外的数据挖掘工具的不同,而是解释我们创造KXEN的理念。

    此文的首要对象是在寻找预测性分析工具和技术的决策者,您们已经知晓了几个数据挖掘工具。此文帮助您了解KXEN同其它传统的数据挖掘解决方案的不同之处,理解KXEN怎样帮助您变革您的数据挖掘方法,同时,从最先进的数学和机器学习中进行企业利润的最大化。

KXEN是面向结果的

    理解KXEN的定位,最重要的一点是记住:KXEN是面向结果、而不是面向方法的,在实际当中,这意味着什么呢?

    这意味着:在一些情况下,多快好省的结果比慢的、难以得到和过分完美结果更为有用。为了使数据分析过程自动化,KXEN已经发展了一些独特的技术。在开始KXEN旅程之前,你需要知道的仅仅是您的数据和您想分析的问题(不需要专业的统计学背景和机器学习的理论):你的问题是一个预测性还是一个描述性的分析问题(更技术化的术语:您的问题是一个分类,回归还是一个聚类的问题)?对于每种问题,KXEN都提供一种简单的解决方案,不需要您的特殊的分析技能。

为什么KXEN没有决策树,神经网络和另外的技术?

    有一些人跟本文的观点完全相反。他们喜欢用涵盖尽可能多的算法的工具。他们会说:既然没有一个方法能够解决所有问题,那么我们必须使用所有的方法(才能找到做好)。

    在一定程度上,KXEN团队赞成这个观点。KXEN的设计者在创造KXEN之前,和这个领域的其它人都一样,都在寻找数据挖掘领域的圣杯:即在所有的数据集中打败所有其它算法的东方不败。而如今,KXEN改变了这个观点。随着近来在数学(不是统计学)上的进步,KXEN有了重要的收获:

完全自动化的建模,几乎所有的(可能不是所有的)情况下都能得到好的(可能不是最佳的)结果。

当设计KXEN时,我们不是寻找完美的算法,我们是寻找一种自动化处理所有的数据,得到好的结果的算法:两者是非常不同的,在我们的方向上我们认为已经得到了很好的成绩。

把一个数据集尝试所有的方法的倡导者不能解释为何有的算法失效。可能是因为一个建模技术和另一种技术不犯同样的错误,或者因为这个算法只是对于一个特殊的问题的优化,或者因为它能够处理一类问题而不是另一类。因此,只是在偶然的情况下,您将得到好的结果。

近来,在数学和机器学习领域取得了长足的进步。Vladimir Vapnik的统计学习理论。打开了一扇门,独辟幽径,通过分析机器学习带来的误差,来解析误差的结构,提出了非常有趣的概念,这可以用来构造建模技术。它不是试遍所有算法,它指明了一个方向,然后在这个方向上搜寻和比较算法的优劣。

不作为KXEN的设计者,是有非常浓厚的数学功底的,我们能够驱动源算法meta-algorithms)来自动搜索,KXEN分析框架的所有过程都用了这种技术。事实上,我们用这种技术10多年了,证实KXEN的算法是可靠的,虽然并不完美(因为要考虑速度问题,可解释性,所以必须在性能上加以妥协)。

KXEN的算法是独此一家吗

专家们都知道,在预测性分析中,算法是重要的,但是,问题的关键是让数据和算法相容。一些算法仅仅对字符型适用,另外一些仅对数值型适用。有经验的人都会告诉你:必须花费一些时间进行数据准备和数据编码。

实际中,这意味着一些烦杂的事情,像处理缺失值,奇异值,对数据进行编码,以适合不同的算法。KXEN怎样来解决这个问题?KXEN自动化处理缺失值、奇异值、自动化编码过程。

数据准备包含两步:一是数据操作,行业专家选择或者衍生一些属性(变量,列)(也就是我们通常所说的宽表,译者注),这些属性是符合商业需要的,所以需要业务人员来做。例如,没有任何自动的系统能够告诉你本月的上一个星期五是预测银行间的资金流的好的指标。第二步是优化编码属性,以适合算法的需要。

KXENVAPNIK的统计学习理论创立了原算法,为了寻求对于分类、回归、聚类问题的简单的解决方法,它通过模型竞争来进行最优模型自动搜索。

KXEN的目标是,确信一旦行业专家选择了问题的描述,KXEN就会自动化编码这些信息,最大化的为商业问题抽取可解释的信息。

第二个关键是结果的可解释性。KXEN的所有组件的设计都使之对最终用户呈现有意义的结果,在这里,我的意思不是说画一个3D的柱状图,我是指图形所显示的内容,譬如变量的贡献、变量各个BIN的重要性排名、模型质量、模型稳健性指标。这非常明智,对于非统计学专家来说这些结果非常重要(事实上指商业用户)。在KXEN中,为了达到这个目标我们运用了领域的经验。

KXEN的开放式框架

    预测性和描述性分析本身不能给企业事业利润,我们必须把这些模型部署到企业的操作环境(指企业级应用系统及工具,譬如一些 CRMEIS系统,译者注)中,并且基于这些模型进行行动。在应用模型之前,必须要训练模型,因此,预测性和描述性分析是整个过程的一部分。仅仅一个工具是不够的,必须提供能够整合到操作系统中的组件。

这需要:

清晰简明的API

能够整合到任何用户界面的能力

不需要处理过程的数据临时和永久的备份

把模型部署到企业操作环境中的能力

KXEN已经做到这些,不仅由API提供实时的仿真服务,而且模型能够输出为不同的程序语言:譬如,如果你想在蜂窝电话中整合进一个欺诈分析的模型,可以创建模型的JAVA代码(JAVA代码包含所有的变量在得分创建之前的预处理和编码,概率或者类别);如果想把模型应用在数据库系统中,可以创建SQL或者PMML代码,这些可以直接由数据库来解释,数据不用转出数据库,可以运用数据库底层的处理能力。如果想创建一个WEB的信息环境,可以生成JAVA SCRIPT,适用于所有的浏览器。第三点是KXEN结构上的一点限制,在KXEN中,我们特别的设计使得不把数据拷贝到临时的存储空间,虽然这样做可能导致数据的多次扫描。但是,KXEN引擎处理数据速度是非常快的。KXENIP不仅仅在于算法,也在于算法的应用过程,譬如,数据的自动化预处理,对结果的解释。

 

KXEN框架

KXEN 分析架构包是一套强大的,易用的分析组件。KXEN 是一个理想的环境,它由数据轻松快速地创造预测性和描述性的分析模型,同时产生容易解释的结果。受专利保护的下一代数据挖掘软件KXEN 是基于Vladimir Vapnik’s的得分,分类,聚类,变量贡献,时间序列,关联规则的突破性数学理论。 

 

责任编辑:朱莉   
 
  • 上一篇文章:

  • 下一篇文章:
  • 发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
    ChinaBI版权、投稿与免责申明:
    1)凡本网署名文字、图片和音视频稿件,版权均属中国商业智能网所有。任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本网协议授权的媒体、网站,在下载使用时必须注明稿件来源:中国商业智能网,违者本网将依法追究责任。
    2)本网注明“本站来源处不写本站原创”的文章均为转载稿,本网转载出于传递更多信息之目的。如本网转载稿涉及版权等问题,请作者速来电或来函与本网联系。
      网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    最新热点
    娱乐资讯
    最新推荐
    网站合作、内容监督、商务咨询、投诉建议 电话:0512-62861389  邮箱:chianbi@126.com
    Copyright 2004-2014 中国商业智能网版权所有   |    苏 ICP 备 13004727 号