从经验归纳到数据归纳：特征、机制与意义

从经验归纳到数据归纳：特征、机制与意义
2016/7/3 哲学园

     从经验归纳到数据归纳：特征、机制与意义

     董春雨,薛永红

     作者简介：董春雨(1963-)，辽宁鞍山人，北京师范大学哲学学院教授，博士生导师，研究方向为物理哲学及系统与复杂性哲学等；

     薛永红(1980-),甘肃秦安人，北京师范大学哲学学院博士研究生，华北科技学院副教授，主要研究方向：科学哲学及科学教育等。来源：《自然辩证法研究》，2016年第5期。摘要：基于以大量、多样和快速为特征的大数据归纳，可以实现传统经验归纳无法替代和完成的工作，导致了一种极端的数据主义观点，以为人们已经不用再寻找现象背后的原因，不再需要科学的理论或模型了。本文旨在厘清大数据方法的意义及其与现实世界的关系，厘清相关性与因果性的关系等，以理性地看待大数据带来的挑战。关键词：大数据，归纳机制，经验，理论，一、从经验归纳到数据归纳

     经验归纳是人类认识事物的基本方法，也是知识生产和发展的重要途径之一。早期，人们只是通过自己的感官系统，直观地对事物进行整体而模糊的把握并进行简单的思维加工，以获得一定的经验性知识。但哲学家们早就指出，人们凭感官得来的知识是不可靠的，因为“自然喜欢躲藏起来”，客观规律不会裸露在外面。这种知识的局限性，直到近代实验方法的兴起，才从根本上得以克服。实验方法不仅通过延伸人类感官系统的仪器，拓展了可经验的事物及其性质的范围，而且通过条件的可控性与可重复性，保证了经验的可靠性。当然，经验内容的可靠性的提高，也得益于人类认识、控制事物变化的精确性的提高。[1,145]在这方面，人类认识的发展大致经历了以下3个阶段：

     1、经验现象的数学化

     事物均具有质和量的规定性，是为度。人类认识从定性走向定量，是其深化的必由之路。与实验方法相伴随的自然科学的数学化，首先表现为定量化研究的普遍开展，同时还包含了科学的符号化和数理逻辑化。这是因为人们观察得到的经验现象需要记录和表征，而符号化不仅简化了对经验现象的描述，而且使得现象与现象之间的联系可以进行数理运算得以揭示，即逻辑化使从现象到规律获得了便捷与可靠通道。因此，数学化成为人类认识客观世界、形成关于客观世界知识的重要方式。牛顿正是将数学方法应用到解决自然哲学问题，才使得物理学从自然哲学中诞生，在近代获得了革命性的突破。此后，近代自然哲学的数学化遂成为一种运动，并逐渐成为衡量一门科学是否成熟和完善的标志之一。[2,306]

     2、从数字化转向数据化

     数学化发展中最重要的事件之一是数字信息技术的出现，它使得人们可以将模拟信息用“0”和“1”这样的二进制码来表示，并且可以实现对信息的储存、传输和处理。而数据化则是数字化的进一步提升，它是对信息的深度加工和处理，使数字化信息通过计算机技术变成可进行数理分析、处理的形式或格式。比如将纸质图书进行扫描和存储之后，就实现了对图书的数字化。但是这些数字文本并不是数据化信息：我们不能在这样的数字文本上进行查找和编辑——你很难在这样的数字化图书海洋中找到自己想要的内容。但是，当人们通过光学识别技术对这些数字文本的字、词、句和段落识别之后，关于书页的数字化图像就转化成了数据化文本。数据化之后，我们可以对其进行各种各样的分析。随着数据技术的不断发展，大量、复杂的现象都可以用数据表示，或者说人们可以将任何文字、图像、声音、视频等通过相应的技术手段，转化为可进行数理逻辑运算的数据，即像维克托·迈尔·舍恩伯格所宣称的那样：“一切事物都可以数据化。”[3,123]

     相比于早期的数学化，数据化具有更为广泛的意义。这是因为，数学化的核心是将特定现象抽象为可量化的概念，比如人们从热现象中感受到的物体的冷热程度抽象为“温度”这一的概念，并通过特定的温标来定量地表示，这样就使得经验现象中的冷热感觉被精确地表示为数量符号，同时还可以参与数理逻辑运算和理论构造。但传统上，很多现象如情绪、情感、行为等都不能被定量地描述。

     随着现代传感技术、GPS定位技术、物联网技术、云计算技术等的飞速发展，可被数学化和数据化的现象通过特定的设备得以扩展，同时与传统的数理逻辑方法体系如数值计算、模型化等相比，新兴的机器语言、规则、算法等不断被发展起来，并且成功地应运于数据挖掘、分析以及理论构造之中，人类的数理规则发生了翻天覆地的变化：“数据时代最大的转变是将工具运用到数据中，而不是将数据运用到工具中。”[4,152]这种角色的转变充分说明了数据工具、算法的革新与发明对于数据技术的重要性。

     3、大数据带来的挑战

     随着数据量的指数爆发式增长、相应的数据运算模式如并行计算和云的发明、对数据的存储、计算和分析能力的巨大突破，使得数据本身以及相关技术已经显示出所谓的3V的大数据特征，即大量化(Volume)、多样化(Variety)和快速化(Velocity)。在这种背景下，一切事物都可以数据化并可计算并不是一种自大的妄言。首先，大数据技术直面各类复杂现象所进行的定量研究，不仅极大地扩展了经验的范围，而且它也极大地丰富了科学研究的认识细节。例如在研究落体运动规律时，人们传统上要通过建立自由落体模型，将反映这一类物体个性的大小、形状、颜色、温度等作为次要矛盾忽略，从而得到它们所共同遵守的自由落体规律，即典型的物理学中的模型方法是对一类现象共性的把握，但实际上物体的形状、大小、环境等都客观地影响着落体运动本身。大数据技术的出现，使得人们可以实现对每一个具体物体的下落过程进行量化研究，从而得到一个个形状、大小各异的落体物体的下落规律。很显然，这种个体性的知识比普遍性知识更具有实用价值，或者如尼葛洛庞帝(N.Negroponte)所说，“后信息时代最大的特征就是‘真正的个人化’”。[5,3]这就意味着，个体性知识将与普适性知识一起，成为人类知识的综合体。关于个体性知识最有应用前景的领域就是医学。大数据技术可以使每个患者可以实时、实地、全方位地监测、记录自己的病情及身体各指标发展变化的情况，以此为基础，可以建立关于自身最有效的治疗方案。所以，大数据大大增强了知识的多样性和可靠性。这种改变，同时也更新了人们的数据观。在小数据时代，由于人们过分追求观察样本数据的精确性，所以对数据的质量要求就非常高。在数据采集过程中，很多“异常”值将被无情的清洗。而这些异常值很可能是现象由于背后所隐藏的某种规律所导致的。异常数据在小数据中只是偶然出现，并且常常被归结于误差或失误而被忽略，最终可能使某些真理一直隐藏在黑暗之中。历史上有很多这样的例子如X射线的发现等，很多科学家因此与科学发明或发现擦肩而过。但在大数据时代，主观判断将让位于不同取值的相关系数的分析结果，对这些结果的进一步试错、核查，将得到更为可靠的知识。

     正是因为大数据对现象的描述是全息的、实时的，这种数据集就能够构造起关于客观事物的另外一种存在形式——数据化存在，即如同客观事物在镜子中的影像一样，大数据使得物质世界能以镜像世界的方式存在，[6,5]亦即只要按照大数据的工作机制，认清了数据世界，就等于认清了客观世界。一些数据乐观主义者由此声称“相关关系优于因果关系”，“大数据将使得理论终结”等。如何看待这些极端的观点，正是本文关注的核心问题。

     二、大数据的归纳机制：从简单到复杂

     如前所述，大数据技术扩大了人类认知的范围，增大了知识的多样性与可靠性等，那么大数据认识世界的机制或模式究竟是怎样的？如何来看待这种方式改变的意义呢？

     让数据发声，是大数据归纳的目的。可如何让数据发声？这恰恰是大数据技术的关键问题。已故图灵奖的获得者吉姆·格雷(Jim Gray，1944)将大数据时代的科研范式概括为第四范式——数据密集型范式，认为它是一种将前三种范式即实验的、理论的和计算仿真的三种范式统一起来的特殊范式。[7]这种科研范式与经验归纳方法在机制上有什么不同呢？我们用医疗保健学的研究为例来说明这两种范式的区别与联系。

     近代医疗保健科学是基于还原论为基础的经验归纳方法建立起来的，其研究路径可以用图1来表示。“小数据”主要指的是关于相关疾病的专业知识，病人实际情况和治疗史的数据。这种研究方法帮助人们认识到了疾病产生的原因、影响因素以及在医疗中对相应疾病干预和治疗的方案，比如当代医学中对糖尿病、心血管病、结核病等的治疗都形成了相当规范的方案。

     图(1)

     但是，当一个病人同时患有多种疾病时，疾病和治疗的复杂性就会显示出来。这种复杂性是由于不同病因、症状、药物等之间存在着的非线性关系所致。由于这种复杂性已经超出传统医疗模型的能力范围，不同的医生则可能以不同的处方对病人进行试验性治疗。当大量类似病例的试验性治疗过程和效果积累并被数据化，加上病人自身积累的关于病情的相关数据等，大数据技术将会采取一个“统一建模”的处理方法，[4,94]如图2所示。其中“大数据”指的是由近代医疗保健科学形成的关于各种疾病的各自的相关知识，病人实际情况，还有积累起来的试验性治疗数据等。

     图(2)

     这个模式中，关键步骤是统一建模方法。实践中，关于统一建模方法有多种具体的方法，比如机器学习、元胞自动机、聚类、复杂网络等等，各种方法在具体实践中都各有所长，并发挥着不同作用。我们以大数据技术中应用最为广泛的机器学习为例做些简要说明。

     所谓机器学习可以简单定义为：对于某类任务T和性能度量P，如果一个计算机程序在T上以P衡量的性能随着经验E的增加而自我完善，那么我们称这个计算机程序可从经验E学习，换句话说，T与P间存在的某种关联，通过E显现并进一步强化。而在实践中，人们依据已有的知识，并且围绕某些组织原则或规则，建立起初步的关联模型，再经过已有经验数据对关联模型进行训练，微调组织原则等，最终建立起能推演出复杂性行为的模型。可见在大数据技术条件下，通过大量经验数据的训练、学习以及调整，使T与P之间的关联随时可以得到微调和优化，最终将使该模型的功能基本接近现实情况。也就是说，医生能通过机器学习等类似的大数据技术，为特定的患者训练出一个病情发展和演化的客观模型，从而获得最合适的治疗方案。

     从以上的分析可以看出，大数据归纳机制有其鲜明的特点：

     首先，从思维方式上来看，大数据归纳实现了还原论与整体论的整合。经验归纳方法是从已有的经验观察入手，提出相应的假设，然后对假设进行验证。在面对复杂问题时，依据还原论，首先将复杂问题分解为若干简单问题，复杂问题是简单问题的线性叠加。近代自然科学的迅速发展就是因为还原论的贡献：“一旦把一切自然现象都化成简单的力，而且证明自然现象只能这样来简化，那么科学的任务就算完成了。”[8,317]但是由于人类面对的大量现象都具有非线性的特征，使得整体不再等于部分之和。因此对于复杂现象仍然使用还原论的方法进行分解、迭代，必然导致失败。这时候需要的将是另一种思维方式——整体论。未来学家阿尔文·托夫勒(A.Toffler，1928)在上世纪八十年代分析近代自然科学与现代信息科学时就宣称：“第二次浪潮的文明忠于对问题的分析能力，而不善于综合”,[9,14]而“第三次浪潮的文化注重研究事物的结构、关系和整体。”[9,29]

     此外我们也看到，大数据归纳并没有将还原论方法排除，因为大量数据集的获得、相关背景知识的创造同样需要还原论。因此，大数据研究的范式必定是还原论与整体论的整合。就如吉姆·格雷所说的那样，数据密集型研究范式是将理论、实验和计算仿真的整合和统一。在一定意义上，“第四范式提供了一个集成框架，使前三者(第一、二、三范式)相互作用，相得益彰。模拟、理论和实验在大数据背景下必须携手合作。”[4,181]

     其次，从归纳机制上看，大数据归纳的路径是由简单走向复杂，在一定层面上与还原论论正好相反。还原论认为复杂的系统、事物、现象可以分解为各部分的组合来加以理解和描述。把复杂系统分解、还原，把一个个部分、一个个低层次弄清楚以后，再把它们累加、整合，整体的面貌就清楚了。[10]因此，还原论是用部分来说明整体。大数据归纳的路径却完全不同，它首先直面复杂性，将复杂现象看成复杂性来研究。它所采取的方法就制定简单的规则和对应关系，这些规则和对应关系可以是线性的，也可以是非线性的。由这些规则来建立模型，使其“通过学习手段”逐次生成、演化出系统的复杂行为。因此，大数据归纳是由简单性向复杂性演化的过程。

     第三，传统和现代技术、方法生成和积累了海量的数据，使得人们不像以前一样直接通过仪器来看东西，而是从通过各种仪器传递到数据中心的海量数据中去“看”。科学家只是在它们工作流程中相当靠后的步骤才开始审视它们的数据。[4,XI]复杂科学领域最负盛名的科学家巴拉巴西[A.L.Barlabasi,1967]对复杂网络的研究说明，大数据其本质就是复杂数据。对于复杂数据网络结构中，数据集合到一定程度就会突现出某种趋势或规律。[11,13]而这种规律的发现，在小数据时代是不可能实现的，是数据量增大到一定规模后发生质变所致。

     综上。大数据归纳已完全区别于传统的小数据归纳，它可以实现过去简单经验归纳无法替代和完成的工作，并从根本上改变了过去经验与理论之间的关系，因此，大数据也导致了理论不再重要的声音的出现。那么，大数据能使理论终结吗？

     三、大数据时代的理论及其意义

     就字面来理解，“理论能否终结?”包含两个层面的意思，其一是大数据研究需不需要理论指导；其二是有了大数据之后，还需不需要通过大数据建构理论。这两个层面的意思有实质性的区别。很显然，数据的产生、数据挖掘、数据分析和处理等过程都离不开理论，也就是说理论是渗透在大数据技术的各环节之中的。焦点问题就在于第二层面，即需不需要通过大数据去建构新的理论说明。

     大数据无论在科学领域还是在社会领域都已显示出了非凡的价值。人们发现，在大数据时代，人们似乎只需要数据所蕴含的相关性就足够了，我们可以应用相关性来进行预测、控制等等。由此大数据的鼓吹者们认为：“数据分析可以生成惊人准确的结果，因为每一个数据点都可以被捕捉到，因此可以彻底淘汰掉过去那种抽样统计的方法，而不用再寻找现象背后的原因，即只需要知道相关关系，不再需要科学或模型，理论被终结了。”[12]可以看出，大数据鼓吹者们并没有否认大数据过程中的理论渗透问题——即前面所讲的第一层意思，他们所宣称的“理论的终结”实际上就是指，在大数据背景下，没有必要再像经典科学一样，通过数据去追求因果关系，并建构进一步的理论解释了。

     针对这一问题，产生了两种针锋相对的声音。极端的大数据主义者认为，大数据是世界的本源，数据统治着世界；我们只需要相关关系，拥有了大数据就拥有了对世界的理解；谁拥有了好的数据和好的数据分析工具，谁就赢得了为未来。而相对保守者则认为，大数据的客观性和准确性存在偏差；大数据不能解决所有问题，只是一种解决问题的方法；相关关系只是引起科学家注意力的一种方式，模型和相互作用机制不仅能帮助科学家预测，而且最终会推动科学的发展和应用；基于大数据的很多推断也许只是“白噪声”，大数据的冬天即将到来。[13,5]

     1、可能的反驳

     持“理论即将终结”者的理由是，大数据具有“全体优于部分、杂多优于单一、相关优于因果”的优势。[14]但是通过逻辑分析，我们发现这三个方面的优点都不完全站得住脚。

     首先，大数据鼓吹者认为，当人们拥有了大数据，我们即获得了关于事物的所有值，其隐含的寓意为“N=所有”，于是科学就可以自己发生了。但是客观上讲，不管技术有多先进，我们都不可能获得关于事物的所有值。“N=所有”常常是对数据的一种假设，而不是现实。

     其次，大数据中仍有很多小数据问题。大数据归纳方法并没有解决统计学家长期所面临的问题。大树据分析的主要步骤就是对数据进行“清洗”，也就是让大数据“变小”。在数据变小过程中，很多数据被当成“白噪声”而删除，而在这一过程中，统计学中的样本偏差和样本误差问题照样存在。因此“大数据最大的问题是如何确定和对待某一个是异常值”。正如剑桥大学David Spingelhalter所说的那样：“大数据中有大量的小数据问题。这些问题不会随着数据链不够的增大而消失，它们只会更加突出。”[15]

     再次，随着我们掌握的数据越来越多，可以发现的统计上显著的相关关系也就越来越多，这就像NassimTaleb所说的一样，“数据会制造出更大的干草垛”，很多是没有实际意义的。这些具有欺骗性的相关关系会随着数据的增多而指数式地增长。于是，在这个庞大的“干草垛”里，我们要寻找的那个本质却越埋越深。[16]因此，大数据时代的特征之一就是，重大发现的数量被数据扩张带来的噪声所淹没。

     实际上，很多关于大数据预测失效的例子典型的如“谷歌第二次全球流感预测”等已经表明，即使是使用了大量的数据集，仍然可以得到似是而非的推论。通过相关关系获得不可靠推论的除了数据的异质性等因素外，还有一个重要的原因是，当人们一旦知道自己的行为以数据的形式正在或即将参与到科学预测时,人们会刻意改变他们的行为，而这将必然导致数据的失效。

     之所以出现相关优于因果、相关取代因果等的极端看法，实际上是他们没有认清二者之间的区别与联系，下面我们就此问题展开一些讨论。

     2、相关与因果的区别与联系

     ① 区别

     从统计学上讲，相关意味着事物特定类型的关联，如单调趋势或聚类，但绝不是因果关系。而从物理学上讲，动力学规律才反映因果联系，相关性作为统计规律，它不是动力学规律，因此不具任何因果上的意义。[17] 因果关系与相关关系在哲学上虽都属于关系范畴，但其内涵、外延以及反映问题的角度等都有明显不同。

     首先，内涵不同。相关关系揭示的是事物表象之间存在的关联关系，而表象并不一定能反映本质；比如吸烟与癌症这两种现象之间具有的统计上的相关性，并不能表明吸烟就是导致癌症的原因。因为也存在大量不吸烟而得癌症以及即使吸烟也不得癌症的人；癌症的病因极其复杂。而因果关系揭示的原则上应是事物的内在本质，通常意味着原因与结果之间确定的决定性关系。

     其次，外延也不同。相关性关系是基于大量随机事件，发掘出的各种表象之间存在的关联关系，因果关系则主张抓主要矛盾，透过现象看本质。因此相关关系涉及的外延要比因果关系广。比如在研究什么样的人最聪明时，相关性会挖掘出样本中的各种的表象，如身高、体重、肤色、头发稀密、学历……，只要需要，甚至可以将睡眠时间、是否打鼾、饮食习惯等都列入到研究序列之中。相关研究的结论可能会出现诸如“头发越少越聪明”、“素食主义者更聪明”、“学历越高越聪明”等各种结论，但因果研究显然会将重点放在脑容量、大脑结构、大脑皮层的沟回深浅等问题上。

     再次，二者反映的角度不同。因果关系总是试图从质的方面反映和概括事物之间内在的深刻联系，而相关关系主要是从量的方面反映事物变量之间的相互关系,二者反映的侧重角度不同。

     除以上区别外，从根源上来讲，相关性是统计学意义上的，它关注的是大量随机事件的整体规律性；而因果性关注的方面包含单个随机事件发生的原因，并以此来揭示事物整体发展的规律，并且因果关系不仅仅包含必然性、规律性，还包含引起与被引起即原因与结果之间的引发、生成的关系。[18]就如吸烟与癌症的案例，相关性反映的是大量吸烟者整体上表现出的患癌的趋势，但并未揭示癌症的病因，这也就意味着，对具体的一个烟民来说，并不能说吸烟就是引发其得癌症的原因。

     从以上的分析可以看出，二者不但有不同，甚至其意趣是不可通约的。但是实践当中，人们又极易混淆相关关系和因果关系，这是因为二者除了区别以外，又存在特定的联系。

     ②联系

     经典科学中也存在着概率意义的统计规律如热力学统计力学，可以说那是当人们面对复杂的热力学系统时，因无法完全确定其所有性质包括系统本身和外界的条件等时所采取的权宜之计，或者说由于我们对于复杂系统的知识还不够完备，于是就采用了统计规律来获得关于复杂系统的各种推论，但无论如何，它是以经典力学为基础的理论，并具有内在的必然性；同时，对于单次随机事件，原则上我们是可以做出因果说明的。

     而对于大数据而言，作为对大量随机事件的一种反映，它首先满足的是统计规律，追求这种相关性，是大数据的首要和客观选择。其次，在大数据背景下，由于数据的极端复杂性，追求因果将变得更为困难，因此不得不暂时搁置因果性。第三，基于大数据的统计规律不仅能很好地解释复杂系统的状态和演化行为，即能在短期使知识获得增长，而且这种相关研究能与商业价值相契合，所以放弃因果而追求相关性成为一种实用的“理性”行为。总之，大数据的本质，是一种统计学上的相关性，从现象上看，它与经典科学中的统计规律是一致的，这是它们相同的或者说是易混淆的地方。但是，我们必须清醒地意识到，追求相关性必须是非常审慎的，因为统计学意义上的相关有很多种，比如伪相关或虚假相关、偶然相关等。这些不存在必然联系的相关性会随着数据量的增大，数据维度的增多，时间的延长等因素越来越多，即所谓的大数据能揭示的“白噪声”越来越多。因此，陷入对噪声的排除将是大数据技术最为关键的工作，这也意味着要从相关性“知识”的海洋中找到真正的知识，将变得非常困难。其实这也恰恰证明了因果性存在的价值以及研究因果关系的必要性。正如Berry所批评的：大数据中存在着一种傲慢的倾向——其它分析方法太容易靠边站了。传统方法在大数据面前的缺席，说明这是一个不欢迎旧有智能工艺的体系，但由它所提供的知识和信息却缺乏哲学的调节能力,即缺乏康德哲学所追求的那种知识的理性基础。[19]可见，厘清因果性之于相关性的关系和意义，是大数据哲学探讨中必须深究的问题之一。

     3、理论的功能

     按照一般意义的理解，理论有两个基本功能，即回答“是什么”和“为什么”的问题。“是什么”的问题是对系统的状态、变化规律以及系统与系统之间、系统各部分之间的相互关系的描述，这是任何经验科学研究的第一步，这种理论通常被称为唯象的理论。而认识是不会止于现象的，人们总是会寻求系统形成、演化的原因和机制，即要回答“为什么”的问题。所以，在不考虑现象学、诠释学等的情况下，传统的科学哲学的观点会认为，“为什么”问题的回答，是认识的进一步深化，而且这一过程是没有止境的。比如，在热学中，通过经验观察，人们获得了理想气体在演化过程中，压强(P)、温度(T)和体积(V)之间满足PV=nRT的相关关系，这种关系经受住了各种科学检验，最终被证明是正确的科学规律，用此方程可以解释理想气体系统的演化过程，并且可以预测其以后的演化行为。但是，气体系统在演化过程中为什么会服从这样的关系？相关关系只能对系统行为进行描述，但不能解释“为什么”的问题，也就是缺乏关于系统演化的深层的因果说明。为了解释理想气体的行为，科学家排除了最初的“热质说”而提出了“热动说”的理论模型，这一模型将理想气体看成是大量做永不停息运动的弹性小球组成的系统，而每个小球都服从牛顿动力学方程。通过这个模型，科学家最终确定了温度和压强的本质。而所谓的PV=nRT的相关关系就隐含在温度和压强的本质之中。因此，“热动说”的理论模型做出了气体为什么会遵循PV=nRT的相关关系的微观解释。经典意义的科学，都是沿着这样的路径发展的，其合理性似乎也在不证自明之中。

     大数据在追求相关性的道路上获得了前所未有的成功，这也是大数据最具魅力的方面之一。一旦将数据分析工具应用到大数据情境，很多相关的关系就可能显现出来。当然对于复杂系统，其行为因为有时具有初值敏感等特性，数据的变化及其流动，将使相关关系的显现变得越发困难，还有相关关系的发现，有时也需要认识主体的主观介入，比如在机器学习中，通过海量数据训练模型，不但要借助新的大量数据，还要利用已有的主观经验，这就使得相关关系变得更加不可靠起来。要排除各种似是而非的相关关系，无论如何，是需要理性分析的，这其中最重要的一环，恰恰是对唯象的相关关系做出因果说明。所以，大数据将使得理论终将终结的观点显然是将理论的价值与功能狭隘化了，“这种观点混淆了基础理论和现象建模。科学不仅仅是用来产生一个简单机械的对各种相关性预测，相反，它的目标是使用那些从数据中抽取的规律，建构一个统一的方法来推理地理解它们。”[4,194]

     简短的结语

     无论如何，实现准确预测和把握未来，是人类生存的必由之路。在这方面，大数据在很大程度上给我们提供了新的技术与方法，甚至改变了我们的研究范式。但是，我们不能因为它强大的预测能力以及由此带来的巨大价值，就混淆相关与因果的不同意义，甚至放弃了对因果性的追求，进而否定模型、理论本身及其存在的价值，即“数据云改变着科学，并让我们在许多情况下，和谷歌一样了解事物之间的联系。但事实是，没有任何模型和机制，我们根本不可能达到像谷歌这样的理解水平。更重要的是，也没有人，包括他自己，会乐意将对自然的理解停留在这个级别上。”[20]所以，我们既要看到大数据对相关性研究的重要性，也要寻求相关关系背后的因果关系。在大数据背景下，相关与因果研究的关系就应当如同物理学家尼尔斯·玻尔提出的互补原理一样，以各自的角度出发，互为补充，互相促进。[21]只有这样，我们才有可能克服大数据方法的“唯象”的局限。诚然，从相关性出发，去寻求对机理、本质的最终理解，人们会遇到很多困难。一方面，我们还没有固定的、成熟的方法论，虽然我们不乏一些成功的案例，例如复杂性科学研究专家巴拉巴西通过对复杂网络的关联研究，发现了复杂随机网络的幂律分布规律，这种幂律分布帮助人们认识到了很多以前没有认识到的现象。但巴拉巴西并没有就此而终结这方面的研究，而是继续寻求幂律分布背后的机制，最终发现了隐藏在幂律分布规律背后的“爆发”机制。“爆发”被看成是宇宙运行的新科学，因为将生活数字化，公式化和模型化的时候，大家都非常相似，并且都具有爆发模式。[11,X]这种“爆发”模式，也正是当代信息哲学家弗洛里迪(L.Floridi，1964)所讲的复杂数据背后的“小模式(small sample)”。大数据最有价值的地方就在于构造或发现“小模式”——以小见大的模式。正是因为现在可以快速、便捷地生成如此多的数据，无论是Facebook和沃尔玛，亚马逊和谷歌，还是遗传学或医学，实验物理或神经系统，它们所面临的真正的挑战是，从巨大的数据库中发现有真正附加价值的“小模式”，以及如何最好地利用它创造财富和促进知识的进步。[22]另一方面，对因果性的探究，从古至今都沾染着浓厚的形而上学的色彩，其本质是人类渴望理解世界的一种诉求。无论它成功与否，其积极意义是不容忽视的。正如波普尔在谈到证伪方法的意义时这样说道：真理隐藏在现象的深处，虽然不存在可供我们依据的真理标准，“但是，我们具有这样的标准：如果幸运的话，它们允许我们认识错误和谬误。清晰性和明确性不是真理的标准，但隐晦和含混之类的东西却可能象征错误。同样，连贯性不能确立真理，但是不连贯性和不一致性却能确立谬误。当认识到了它们，我们自己的错误便提供暗淡的红光，帮助我们在洞穴的黑暗中摸索出路。”[23，40]同理，对于原因、机理的执着探索，并不能保证我们一定成功，但它所代表的人类理性，一直激励着我们不断前行。这一方向的正确性，从更为广阔的哲学运动的视角来看，得到了更深层次的支持。众所周知，从实证主义时期始，分析哲学祭起了反对形而上学的大旗。经过一段曲折的探讨，现今的哲学舞台上，最引人自豪的则是“形而上学运动”[24]这是值得我们深思的。所以，我们有充分理由去相信，借助于当今蓬勃发展的人工智能、计算主义等方法与理论，大数据研究的范式一定会从认识的唯象阶段走向更加成熟的理性阶段，我们应该为新的理论和方法的构建，付出更多的努力。参考文献：[1]董春雨.物理学：理性的旋律[M].湖南师范大学出版社，2000.[2]刘大椿.科学技术哲学导论[M].中国人民大学出版社，2005.[3](英)维克托·迈尔·舍恩伯格，肯尼思·库克耶.大数据时代[M].盛杨燕，周涛译.浙江人民出版社，2013.[4]Tony Hey,StewartTansley，etal.第四范式：数据密集型科学发现[C].潘教峰，张晓林译.科学出版社，2013.[5](美)尼葛洛庞帝.数字化生存[M].胡冰，范海燕译.海南出版社，1996.[6] David Gelernter.Mirror Worlds: or the Day Software Puts the Universe in a Shoebox--How It Will Happen and What It Will Mean[M].Oxford University Press, 1993.[7]Gordon Bell,TonyHey,etal.Beyond the Data Deluge[J].Science,2009(6),Vol.323:1297-1298.[8]刘大椿.科学活动论-互补方法论[M].广西师范大学出版社，2002.[9](美)阿尔文·托夫勒.第三次浪潮[M].朱志焱，潘琪等译.三联书店，1983.[10]董春雨.从因果性看还原论与整体论之争.自然辩证法研究[J].2010(10)：24-28.[11](美)艾伯特·拉斯诺·巴拉巴西.爆发：大数据时代预见未来的新思维[M].马慧译.中国人民大学出版社，2012.[12] Chris Anderson.The End of Theory: The Data Deluge Makes the Scientific Method Obsolete[J].wired,2008(6):1-3.[13] David Bollier.The Promise and Peril of Big Data[M]. The Aspen Institute, 2010.[14]黄欣荣.大数据时代的思维变革[J].重庆大学学报(社会科学版)，2015(5)：13-18.[15]Harford,Tim.Big data: Are we making a big mistake? [J].Significance, 2014, Vol.11(5):14-19.[16]Brooks David.What You'll Do Next:Using big data to predict human behavior[N].The New York Times, April 16, 2013:A27.[17]N.Altman,M.Krzywinski.Association,Correlation and Causation.NatureMethods[J],2015,Vol.12(10):899-900.[18]L.A.Paul,N.Hall.Causation,A User’s Guide[M].Oxford university press,2013.[19]D.Boyd,K.Crawford.Criticalquestions for big data.Information, Communication & Society[J]. 2012,Vol.15(5):662–679.[20]Harford,Tim.Why the cloud cannot obscure the scientific method[EB/OL].[2008-06-26]http://arstechnica.com/uncategorized/2008/06/why-the-cloud-cannot-obscure-the-scientific-method.[21]C.L.Golightly.Mind-Body, Causation and correlation[J].Philosophy of Science,1952,Vol.19(3):225-227.[22]Luciano Floridi.Big Data and Their Epistemological Challenge[J].Philos and Technol,2012, Vol.25(4):435-437.[23][英]卡尔.波普尔.猜想与反驳[M].傅季重等译. 上海：上海译文出版社，1986.[24]H.普特南.亲历美国哲学50年.哲学译丛[J].2001(2):10-25From Empirical induction to Datal induction:Characteristics, Mechanism and SignificanceDONG Chun-yu 1,XUE Yong-hong1,2 (1.Research Center for Value and Culture, College of Philosophy and Sociology, BNU, Beijing 100875; 2.Basic Curriculum Department,NCIST,Beijing,101601,China)Abstract: Based on the big data which have the characteristics of Volume,Volocity and Variety,big datal induction can realize the traditional empirical induction cannot be replaced or completed work, this leads to an extreme point of view that people do not have to look for reasons behind the phenomenon, no longer need scientific theories or models. The purpose of this paper is to clarify the significance of the method of big data and its relationship with the real world, to clarify the relationship between correlation and causality, in order to take a rational view of the challenges of big data.Key words: Induction; Empirical; Big Data; Mechanism

点击阅读原文选书

http://www.duyihua.cn
返回哲学园返回首页返回百拇医药