让数据挖掘工作起来 - 研讨园地

让数据挖掘工作起来

单位：Ken North时间：2004-02-29浏览次数：

让数据挖掘工作起来

Ken North(ken_north@compuserve.com)
选自 DB2 Magazine
2004 年 2 月

数据挖掘从数据中掘取有价值的信息，今天它已经比以往任何时候都要热门。那么为什么还有这么多的人不能正确使用它呢？

1999 年 Data Miner 专栏首次出现在 DB2 杂志上。4 年以后，数据挖掘仍然是个热点话题。最近，一个 Gartner 报告中（2002 年 12 月"技术采用和价值：调查结果"）将数据挖掘排在了所有行业里对组织有战略性影响的 37 项新兴技术中的第三位。数据挖掘已经被人们接受、应用并且普遍存在。

最近，我与我在 IBM Thomas J. Watson 研究室的同事们共同探讨了关于数据挖掘未来的发展趋势。其中包括数据分析主管 Chid Apte ，他的团队在数据挖掘和相关领域实施了纯理论的研究及应用研究。此外，Apte 所在团队的成员 Naoki Abe、Rick Lawrence 和 Ed Pednault 也加入了这次讨论。他们从科学家和商业顾问的双重角度（他们经常花许多时间和 IBM 客户在一起，帮助客户们找出某些特定商业问题的解决方案）发表自己的观点。

Hermiz：在我们讨论未来之前，先让我们先简单谈谈过去。你认为数据挖掘最大的成功之处是什么？这项技术在哪些地方还没有达到其预期目标呢？

Apte：数据挖掘的最大成功之处在于它使以一种更自动化的方式对具有大量数据的商业活动进行分析和探索成为可能，这在过去需要由行业专家和统计专家来提取有价值的信息。虽然这可能不符合传统意义上的成功概念，但它确实正在开启一扇门，这就是我认为数据挖掘的最大成就。至于它的不足之处，我认为挑战主要在于其可操作性上，到目前为止我们依然没有解决这个难题。

Pednault：我想已经有相当数量的公司都做了数据挖掘，并且完全依赖于预测模型来从事他们的商业活动并从中获利。从那些公司的情况看来，数据挖掘增强了他们的能力。对我来说，这就是成功的定义。举例来说，一些公司已经使用数据挖掘来进行信贷风险评估很长一段时间了，他们依赖数据挖掘来支持他们的风险管理。

Lawrence：继续延伸一下 Apte 的话题，问问你自己在数据挖掘领域最成功的应用是什么呢？我的看法是信用卡欺诈行为检测，在这个应用里，数据量非常大，一旦你犯了错误将会造成重大损失，并且处理工作必须非常快速地在线进行。当然我能肯定还有更多的成功案例。另一方面，如果我们批判地来看数据挖掘，我们能够得出这样的结论：当被作为解决任何特定问题的万能药时，数据挖掘通常会失败。在这些情况下，它的失败是因为人们对它的期望值太高了。没有实践过数据挖掘的人们觉得它几乎是不可思议的，他们以为拿来一个根本就不合适的问题，难以置信地填入一些脏数据到数据挖掘工具里，然后莫名其妙就能产生一个有用的解决方案。这是不可能的。

Abe：谈到数据挖掘的成就不可能不谈谈 Web 的成就。我想补充的一点是，对数据挖掘的预期目标在某种程度上是失败的，这是因为基于 Web 的应用模型同样没有实现它的预定目标。有这么一种观点：在 Web 上，数据应该能够自动出现，并且操作也应该自动发生。事实证明并没有这么简单，商业活动还涉及到人、数据的物理存储以及操作问题等因素。

Hermiz：如果让你来考虑基于信息解决方案的要素--人、过程和技术--你认为挑战和机遇分别在哪里？

Apte：这几个要素紧密联系。对一个因素的挑战对另外一个因素来说就是机遇。我们可以将技术应用于流水线型的业务处理过程，通过减少人们的工作量使他们能够去做他们最擅长的事情。

Pednault：我认为技术是最重要的，它创造了机会，但同时还存在非常多的变化需要过程来处理，当然最终运用技术的还是人。那么哪些变化是必需的呢？就拿客户关系管理（CRM）系统来说，通常你会安排不同的经理来负责不同的商业活动，而商业活动过程的经理又有可能是其他人，这样客户所看到的不再是独立的一个商业活动，而是一系列的活动，于是在这样的业务过程中您可能失去客户关系。在 CRM 中业务过程需要按照自己的方式来启动。即使技术的存在有助于管理个别的客户关系，但是这样做需要业务过程的巨大转变。业务人员必须意识到这些变化对业务的发展是必需的，然后他们将处理所有与人有关的问题（谁管理什么，谁拥有什么，以及如何衡量每个人）。而在一些组织团体中可能会存在非常大的惯性阻力，导致不能充分地利用技术的优势。

Lawrence：我认为技术的进步不可能导致一些相应的技能，如数据分析、统计学等变得过时。但是这对收集数据的那部分IT从业人员来说要求更强的业务理解能力，他们需要采取一种可以被商业智能工具实际使用的方式来收集数据。

Apte：如果能够提高具有必备这种技能工作人群的数量，你当然可以更多地利用我们今天已经拥有的技术。但是这种投资是我们应该做的吗？--它使得过程更加依赖于劳动力--而不是提高技术水平来降低对熟练劳动力的依赖。

Abe：我同意那些技能永远不会过时，但是我也相信存在着这样的推动力，它促使数据挖掘过程的更多部分变得自动化。在未来的3到5年，我认为自动化将会对技巧技能依赖的减少产生巨大的推动作用。

Hermiz：当我们谈及数据挖掘的时候，总是要围绕数据而言。对于目前商业数据的状况--包括数据的收集、净化和存储，你有什么看法呢？业务数据质量的缺乏是一个重大的制约因素吗？

Lawrence：我认为，对于数据挖掘社区而言，在这方面我们的进展几乎陷入了一个非常困窘的局面。即使倒退10年来看现在面临的数据收集方面的各种失败，我想我们都会感到震惊。如果谈到客户数据库，从考察到订单实施，整个数据收集过程中各个方面之间联接的脱节是如此的频繁，以至于让我们都感到惊讶。构建能够显示出一个具体营销活动和采购决策最终效果的数据是非常困难的。因此，使用那些数据来开发一个数据挖掘模型用于改进过程也是非常困难的。

Apte：虽然数据仓库以及相关联的数据净化工具已经大量存在，但是它们没有像我们希望的那样被广泛和大量地使用。而且，我不认为那些使用工具的人就已经解决了一些问题，包括收集数据并且按照数据挖掘可以使用的格式组织这些数据。我们这个研究团体花费在探索、并利用技术来解决这个问题的时间远远少于它本应该花费的时间。

Lawrence：实际上，我想说的是数据收集过程是如此之差，以至于数据挖掘研究人员总是被要求重新构建系统，以回退和纠正数据收集系统中存在的缺陷。现在我们正在使用一项技术，我们计划将其用于净化数据，以纠正数据收集系统中不断出现的错误。一个很小却又很令人烦恼的例子是：允许以任意格式输入一个特定采购决策的CRM系统。与其将系统设计成为给用户提供三、四种不同的结果来选择--买或不买等等，我们还不如将文本分析应用于自由格式的响应，以推导出结果。

Abe：我认为5年以后，数据净化、预处理和文本挖掘的自动化将会成为一个非常大的技术挑战，这是由数据准确度问题所导致的。

Pednault：如果从数据的角度来看，这些从事商业活动的客户明白他们所收集的每个数据元素的价值。因此他们能够适当地安排业务处理过程来确保数据的质量，并且确定营销决策与最终效果之间的联系，从而建立预测模型来改进他们的过程。为了把这些过程安排到合适位置，首先你需要理解数据价值的管理层人士，并且维持与合适的分析人员之间的联系，这些分析人员能够帮助设计数据库，以确保数据可以被正确地表述。他们付出很大的努力来收集和净化客户属性数据，同时也确保数据达到足够的数量。

Hermiz：或许是出于对本地安全的考虑，人们似乎对文本挖掘和分析又有了兴趣。你认为将来数据和文本挖掘会融合吗？

Apte：数据挖掘和文本挖掘可能会融合到某种程度，即文本知识库能被当作重要特征和属性的来源，来完成我们今天所做的某种数据挖掘。文本挖掘有其独特的贡献，这些贡献集中在对文档和知识库的信息提取、趋势预测以及智能评估，这使它们成为数据挖掘的补充，但不是必须与数据挖掘相融合。

Abe：我看还是有些融合的。在自然语言学术界（会议）上，数据挖掘和机器学习技术方面的论文数量急剧增长，现在它们已经占到论文中的大部分。当然，正如Chid Apte 所说的，文本挖掘研究的部分由将数据挖掘技术应用于提取文本特征所组成。但是在文本挖掘研究中一个非常重要的部分包括具体的自然语言问题（例如自动获取对分析有用的句法知识和语义知识）。

Lawrence：我已经和一些客户谈到了这些问题，他们希望同时分析结构化的数据以及来自新闻之类的非结构化数据。

Hermiz：你认为从今往后 3 到 5 年中，数据挖掘应用的最大机会在哪里？什么样的改进将使它的应用成为可能？

Apte：我觉得，站在供应链的角度，大量的数据都是可获得的，但是今天的系统和解决方案都还没有发展到可以利用像数据挖掘这样复杂方法的程度。它们似乎仍然停留在传统的统计学的预测技术上。

Pednault：到了那时，将有一个很好的机会把数据挖掘、预测模型和最优化结合起来，通过把数据挖掘提升到一个更大的范围就一定能实现这种结合。许多用在供应链管理上的预测方法相对于用在信用卡积分和 CRM 上的技术来说是很原始的，因此还存在许多的机会来进入这个领域。在供应链中，数据的重要性已经得到了认可--可以得到一个从生产商、供应商、分销渠道，直至客户的横向视角。而且系统将被适当地部署，用来收集、管理和维护所有数据。然而，许多目前存在的利用数据进行决策的过程还非常落后，管理整个供应链已变得越来越重要。要使这一切变为现实，需要商业处理过程的转变和供应链中不同角色的合作。

Abe：人们对金融领域有着极大的兴趣，它关系着可操作的恢复能力和风险管理。未来数据分析将在这些方面发挥重要的作用。

Lawrence：本地安全当然是一个人们逐渐感兴趣的领域。它围绕着非结构化数据的处理，但也需要结构化数据来从可接受或者正常的行为中寻找异常行为。

Apte：许多分析学正在进入生命科学-虽然这些应用从本质上说更具有科学研究的性质。有这样一个关于隐私保护数据挖掘的话题--在隐藏了个人记录的匿名数据上进行数据挖掘的功能。可能有一天，我们可以合法地来做这项工作了。

Hermiz：对于各个公司和组织，你建议他们采取什么样的步骤来为充分利用数据挖掘的未来技术发展做更好的准备呢？

Lawrence：他们应该明确地提出一个非常清晰、技术上可行的想要达到的目标，然后修正他们的数据收集过程，以使那个目标在技术上可行。

Apte：这些工作都与采用一种统一的风格适当地保护和获得数据有关。可以通过多种形式，其中之一就是慎重考虑哪一种处理流程是我们正在寻找的能用于开发商业智能解决方案的，并且确保数据能被正确地收集，以支持这些方案。

Pednault：从数据的角度看，在你需要做出决策时及时获取的信息，和你所做出的决定以及这个决定所导致的后果三者之间必然存在联系。你必须能够在某一时刻及时地产生出对数据的正确表述，这是一个方面；另一方面就是通过适当地安排过程为业务做准备，以利用这些结果。

不仅仅是技术在几个小时的讨论中，没有一个参与者提到数据挖掘技术会抑制其成功应用的问题。人们总是有很多机会发明更好、更快、更巧妙的算法，或者发现更多最佳途径来部署这些数据挖掘程序到各种各样的硬件和软件基础架构中。然而，在应用数据挖掘到现实世界商业问题时，这些团体的经验告诉我们：要成功地运用数据挖掘挑战在于基本功。那些能够收集适合于待解决问题数据，并且能适当地净化与结构化这些数据的人们，将有最好的机会通过使用数据挖掘来洞察信息；那些专注于运用数据挖掘结果的机构证明：通过他们的积极努力有效地优化了他们的过程、组织、管理以及报酬体系，他们最正确地操作这些结果并且实现了用于他们分析投资的回报。

关于数据挖掘的故事还有内容可写。续写这些故事的人不应该是研究机器学习和计算机科学的科学家和工程师，而应该是那些像你们这样从事数据挖掘的实践者们。每个公司都存在难以解决的问题和机会，但是解决这些问题可能获得很大利益。您愿意承担（和投资）收集有用数据，并且优化调整商业处理过程这项艰巨的工作吗？如果您愿意，技术已经成熟并且可以随时对您提供支持。如果您不愿意，那么最好你期望你的竞争对手也会这么认为。

关于作者

Ken North 是 Ken North Computing LLC 的创始人，他是一个作家和顾问。他经常在专家研讨会上授课，并且是 Dr. Dobb’s Journal 杂志 XML 和 Web 服务专栏的编辑。您可以通过 ken_north@compuserve.com和他联系。

此页面上的内容需要较新版本的 Adobe Flash Player。

首页

概况信息

新闻中心

政务公开

教育教研

教育技术

教育培训

招生考试

体育之窗

专题聚焦

素养视窗

学科天地

人事师资

研讨园地

附件下载

友情链接：