🎯 2018.05.11 SVRG算法的阅读理解和实践
type
Post
status
Published
date
May 11, 2018
slug
2018.05.11 SVRG算法的阅读理解和实践
summary
2018.05.11 SVRG算法的阅读理解和实践
tags
算法
推荐
优化算法
category
算天算地系列
icon
password
 
最近拜读了下大名鼎鼎的 SVRG 算法 [5],读完后把前前后后涉及到的方法都看了一遍,这里做个简单的综述和阅读理解,并描述了如何将方差缩减思想应用于在线学习。

1. 背景介绍

考虑优化问题:
当我们采用 Gradient Descent (GD) 方法时,w 的更新公式是:
梯度下降方法可以追溯到 Cauchy 1847 年的论文 [1]。梯度下降对于样本数目比较多的时候有一个很大的劣势,那就是每次需要求解所有样本的梯度,导致计算量大增,所以实际生产环境中,往往采用随机梯度下降算法(Stochastic Gradient Descent),一般简写做 SGD,它于 1951 和 1952 年在文献 [2,3] 中被提出。SGD 每次迭代的时候均匀随机得选择一个样本或者 mini-batch 做更新。当我们采用 SGD 方法来进行计算的时候,w 的更新公式是
相对于梯度下降,SGD 的好处非常明显,就是可以减少每次更新的计算代价,不过也正是因为每次都是随机的使用一个样本或一个 mini batch 来估计梯度,因此对梯度估计的方差就大了。这给 SGD 带来的问题是收敛速度不如梯度下降,从收敛速度分析上看,梯度下降则可以在目标函数强凸的情况下做到 的线性收敛(linear convergence),在目标函数为凸函数的情况下可以做到次线性收敛 (收敛速度是衡量优化算法计算复杂度的基本工具,可以参考 wiki 或者 这里)。而 SGD 能够在目标函数强凸并且递减步长的情况下只做到 的次线性收敛(sublinear convergence)。也就是说,如果想快速得到一个可以勉强接受的解,SGD 比梯度下降更加合适,但是如果想得到一个精确度高的解,应当选择梯度下降,因为为了达到同样的精度,SGD 需要的总迭代次数要大于梯度下降。
至于为什么对梯度估计的方差过大会降低收敛速度,以及 SGD 为什么一定要步长递减,具体原因可参考文章 [4] 的 Theorem 4.6 和 Theorem 4.7 以及 Theorem 4.8,Theorem 4.9 和 Theorem 4.10,简单来说就是如果步长不是递减的,SGD 会收敛到最优解的一个领域中,对梯度估计的噪声让它最终无法进一步收敛。既然影响 SGD 收敛速度的主要原因之一是在所计算的梯度的方差,那就想办法降低这个方差,然后自然就可以提升算法的收敛速度了,这一类方法就被称为方差缩减方法(Noise Reduction Methods)。

2. 方差缩减方法 Noise Reduction Methods

在所谓的方差缩减方法中,又可以分为 3 小类:
  • 第一类动态采样方法(dynamic sampling methods)是通过在计算梯度时逐步增加样本量来减少梯度估计的方差;
  • 第二类迭代平均方法(iterate averaging methods)则是通过对得到的 进行历史平均来减少其方差;
  • 第三类梯度聚合方法(gradient aggregation methods)则是通过存储历史梯度,在每次估计梯度时用历史梯度来做修正,前两类方法太过暴力而不优雅,因此我们作为优雅的人主要讨论第三类方法。
我们先来直观的感受下什么叫方差缩减,比如你要通过 monte carlo 采样的方法来估计随机变量 的期望 ,同时假设你已经能够比较容易地估计与随机变量 强相关的随机变量 的期望 ,一个利用方差缩减思想来近似估计 的估计量 (estimator) 是:
我们可以看看这个估计量的期望和方差:
可以发现,当 时, 的无偏估计,且当 足够大的时候, 的方差也比直接对 做估计要来的小,这就是方差缩减的基本思想。后面要提到的各种方差缩减类算法比如大名鼎鼎的 SVRG 等都是这个套路,套路,套路

3. SAG 算法 [10]

SAG 算法想啊,既然 GD 用上所有数据的梯度就能做到线性收敛,SGD 一次只能用一个样本或者一小批样本来计算梯度,因此对梯度估计的方差影响了最终的收敛速度,那我们能不能在 SGD 上也能用上所有样本的梯度呢?于是就有了 SAG 算法的更新方式:
可以把上面的梯度计算方式写成一个式子
这样就容易看出这个方法就是上面 时的一个应用,虽然这种估计不是无偏估计,但是方差会以 的比例缩小。这个方法理论上可以获得于 GD 方法同样的收敛速度。另外,在实践中,需要在内存里保存所有样本的上一次梯度值。

4. SVRG 算法 [5]

因为 SAG 算法需要保存所有样本的梯度值,在实际的大规模工业应用中并不实用,因此就有了 SVRG 算法。SVRG 算法的迭代过程 (图片来自文章 [4])
notion image
SVRG 算法在每一轮迭代的内部有一个内部的迭代,在进行内部迭代前用当前的 值计算一次所有样本的平均梯度 ,内部迭代的初始值被赋予为当前的 ,内部迭代中每次的梯度采用如下方式计算:
按照上文对方差缩减方法的描述,对此公式为什么能降低梯度估计的方差就可以有个直观的解释:因为 的期望就是 ,因此可以将 视为梯度估计 的 bias,那么在每一次的迭代中,算法都对基于当前参数 做的梯度估计 进行了一次修正。在 SGD 的收敛性分析中,假定了样本梯度的方差是有个常数上界的 (见文章 [4] 的 Assumption 4.3(c)),正是这个常数上界的存在导致 SGD 算法无法线性收敛,SVRG 利用它新的更新方式可以让估计的梯度方差有个不断减小的上界 (见文章 [4] 的 Theorem 5.1),这就是 SVRG 算法的核心思想,这也是为什么这个算法被称为 SVRG(stochastic variance reduced gradient)的原因,SVRG 算法在目标函数光滑和强凸的情况下做到线性收敛速度。更多更为正式更为数学的分析可参考 bottou 大神写的综述文章 [4]
SVRG 算法的问题是虽然不用存储所有样本的梯度了,但是计算量上去了,因为它在每次的大迭代里面还有一轮小迭代,每次都要算两遍梯度,整体的计算量已经和 GD 一样了,而且还多一个超参数 m 要调。另外,这里 有一个 PPT ,讲的还比较通俗,可以随意看看。

5. SAGA 算法 [6]

SAGA 算法其实是介于 SAG 和 SVRG 之间的一种算法,但作者声称在强凸的条件下其收敛速度要快于 SAG 和 SVRG,且两倍于 SDCA,并同时适用于非强凸的情形。
SAGA 算法的迭代过程 (图片来自文章 [4])
notion image
同样,如果我们仔细审视它的梯度计算过程:
会发现,相比于 SAG 算法,SAGA 算法只是把前面的一个 去掉了,使得对梯度的估计变成无偏的了,当然同时它的方差相比于 SAG 也大了

6. SCSG 算法 [8]

SVRG 的主要特征就是利用全部数据的梯度来对 SGD 的方差进行控制。因此 SVRG 的计算成本(Computation Cost)是 。这里 n 是数据的总数,m 是 Step-size,而 T 是论数。SVRG 的通讯成本也是这么多,这里面的主要成本在于每一轮都需要对全局数据进行访问。
Stochastically Controlled Stochastic Gradient(SCSG)算法就是对 SVRG 进行了两个改进:
  • 每一轮并不用全局的数据进行梯度的计算,而是从一个全局的子集 Batch 中估计梯度,子集的大小是 B。
  • 每一轮 SGD 的更新数目 N 也不是一个定值,而是一个和之前那个子集大小有关系,基于 Geometric Distribution 的随机数。
剩下的更新步骤和 SVRG 一模一样。然而,这样的改变之后,新算法的计算成本成为了 。也就是说,这是一个不依赖全局数据量大小的数值。而通过分析,作者们也比较了 SCSG 的通讯成本和一些原本就为了通讯成本而设计的算法,在很多情况下,SCSG 的通讯成本更优。通过 MNIST 数据集的实验发现,SCSG 达到相同的准确度,需要比 SVRG 更少的轮数,和每一轮更少的数据。可以说,这个算法可能会成为 SVRG 的简单替代。

7. 其它方法

有了套路,设计算法就 easy 多了,到目前为止已经有各种各样的 SVRG 类算法,除了下面列出的这些,还有朱泽园的 SVRG++,Alex 的 MSVRG 以及 Roy Frostig 的 streaming SVRG 等等。
S2GD(Semi-Stochastic Gradient Descent Methods)
Mini-Batch Semi-Stochastic Gradient Descent in the Proximal Setting. 将S2GD扩展到mini-batch上,因此允许并行运行,但是需要更多的同步,只能允许小的batch
SDCA(Stochastic dual coordinate ascent methods for regularized loss) [7]
Finito(Finito: A faster, permutable incremental gradientmethod for big data problems)

8. 应用于在线学习

以上算法都只是适用于有限数据集的,我所关注的在线学习面临的是无限数据集,因此上述方法都不适用。但是有了上面的套路,我们也可以轻松地设计出适用在线学习的方差缩减方法,比如下面这个算法:
notion image
对上面 SSVRG-v1 算法做几点说明:
  • 来自上一次的梯度,这里可以不要求是同一个 mini batch 的数据,其中的 也可以是被其他 worker 更新后的值,因此,这个算法可以适用于多 worker 异步更新的场合,因为我们可以假设在很短的一个时间内,所有 worker 拿到的数据都是独立同分布的。
  • 为了获得上文第二部分所说的 ,也就是上文其他算法中的 ,我们使用了一个滑动加权平均的方式,其中参数 d 是为了控制历史值与当前值的权重分配。
为什么我们还要指定学习率 和衰减系数 d 呢?已经有很多算法可以免去这两个超参数了,我们可以把他们的思想拿过来,和上面的算法进行综合,得到一个真正免超参,同时又能降低梯度估计方差,提升学习率的算法,这就是我们后续提出的 SSVRG-v2 算法,关于这个算法以及数学上的一些证明我们下一篇再写。
 

Reference

[1] Cauchy, Augustin. “Méthode générale pour la résolution des systemes d’équations simultanées.” Comp. Rend. Sci. Paris 25.1847 (1847): 536-538.
[2] Robbins, Herbert, and Sutton Monro. “A stochastic approximation method.” The annals of mathematical statistics (1951): 400-407.
[3] Kiefer, Jack, and Jacob Wolfowitz. “Stochastic estimation of the maximum of a regression function.” The Annals of Mathematical Statistics 23.3 (1952): 462-466.
[4] Bottou, Léon, Frank E. Curtis, and Jorge Nocedal. "Optimization methods for large-scale machine learning." SIAM Review 60.2 (2018): 223-311.
[5] Johnson, Rie, and Tong Zhang. "Accelerating stochastic gradient descent using predictive variance reduction." Advances in Neural Information Processing Systems. 2013.
[6] Defazio, Aaron, Francis Bach, and Simon Lacoste-Julien. "Saga: A fast incremental gradient method with support for non-strongly convex composite objectives." Advances in Neural Information Processing Systems. 2014.
[7] Shalev-Shwartz, Shai, and Tong Zhang. "Accelerated mini-batch stochastic dual coordinate ascent." Advances in Neural Information Processing Systems. 2013.
[8] Lei, Lihua, and Michael Jordan. "Less than a Single Pass: Stochastically Controlled Stochastic Gradient." Artificial Intelligence and Statistics. 2017.
[9] Nitanda, Atsushi. “Stochastic proximal gradient descent with acceleration techniques.” Advances in Neural Information Processing Systems. 2014.
[10] Roux, Nicolas L., Mark Schmidt, and Francis R. Bach. "A stochastic gradient method with an exponential convergence _rate for finite training sets." Advances in Neural Information Processing Systems. 2012.

 
 
📖 2018.05.07 意识诞生于上帝沉默时
type
Post
status
Published
date
May 7, 2018
slug
2018.05.07 意识诞生于上帝沉默时
summary
2018.05.07 意识诞生于上帝沉默时
tags
思考
读书
category
胡言乱语系列
icon
password
 
最近西部世界第二季开播了,等了一年,终于等到了。西部世界关于意识的理论用了所谓的二分心智理论,这个理论是美国心理学家朱利安·杰恩斯(Julian Jaynes)在他的神书《二分心智的崩塌:人类意识的起源(The Origin of Consciousness in the Breakdown of the Bicameral Mind)》里提出的,这是个神奇的理论,转发一篇介绍此人及此书的文章。
本文来源于微信公众号‘机器之心’(almosthuman2014)机器之心
本文选自Nautilus,作者VERONIQUE GREENWOOD,机器之心子牙、孟婷 、Salmoner翻译,微胖校对。
译者按:加拿大科幻小说之父Robert J. Sawyer在他的关于网络觉醒故事的全新三部曲《WWW》之《Wake》中讨论了意识起源,其中, 故事主人公 Caitlin花了大量时间去思索Julian Jaynes的著作《The Origin of Consciousness in the Breakdown of the Bicameral Mind》。本文正好对这部神作做了一番介绍,著作主要研究人类意识的起源。该书作者Julian Jaynes认为,直到史诗描述的时代为止,人类思维与现代人的思维大相径庭,当时的人类,缺乏自知、自我意识。他认为,人类服从他们认定为神祗的声音,直到人类思维产生了自我意识为止。其中,《伊利亚特》提供了非常重要的证据:几乎所有行为,都是神灵推动,早期译文中人物也明显缺乏内省。与主流将意识视为生物现象(比如,行为主义)不同,Julian Jaynes将意识起源归于文化(特别是语言的兴起)。如今,他的「奇谈怪论」却成了神经科学家们、哲学家们的热议话题甚至是灵感来源。
20世纪70年代初,朱利安·杰恩斯(Julian Jaynes)带着两个行李箱,开始了在普林斯顿的生活。在当时学生眼中,他绝对是个怪人,有些学生知道他是心理学讲师,低沉的男中音讲起课来滔滔不绝。五十出头的朱利安·杰恩斯嗜酒成性,没有终身教职,显然对终身教职也没什么兴趣。他属于学校边缘人物,那时还是普林斯顿的学生,现在已是佛罗里达州立大学的心理学教授Roy Baumeister回忆道,「学校没有定期付给他报酬」。但是,杰恩斯一直专注于自己的著作,多年来,坚持不懈。
六岁时,杰恩斯就开始被意识体验的奇妙性深深吸引。盯着一朵黄色连翘花时,他会琢磨:如何肯定别人和他所看到的,是一样的黄色?在青年时期,因为反对支援战争,他在宾夕法尼亚监狱坐了三年牢。在服刑期间的一个春天,他观察到在监狱操场的草地上有一条蠕虫:是什么将没有思想的泥土与蠕虫分别开?又是什么让蠕虫与我有所区别?终其一生,他都在思考这类问题,他这这本著作也会激发整整一代人开始思索同样的问题。
当《二分心智的崩塌:人类意识的起源(The Origin of Consciousness in the Breakdown of the Bicameral Mind)》终于在1976年出版时,看上去并不像是一本畅销书,然而,它的确十分好卖。书评见于各类科学杂志和心理学期刊、《时代周刊》、《纽约时报》和《洛杉矶时报》。1978年,该书获得国家图书奖的提名。不断再版发行过程中,杰恩斯也在各地进行巡回演讲。1997年,杰恩斯死于中风,而他的书留传于世。2000年,另一新版上市,销售至今。
在书的开头,杰恩斯问:「意识是自我本身,无所不包,但又什么都不是。——它到底是什么?它来自哪里?它的意义何在?」杰恩斯从历史视角来回答这个问题:人类直到大约3000年前才具有完全的自我意识,在此之前,人类依赖二分心智(bicameral mind)——每当遭遇到困境,一个半脑会听见来自另一半脑的指引,这种指引被视为神的声音。人类社会日趋复杂,这种二分心智也最终坍塌,人类现代自我意识被唤醒,最终具有了内在叙事( an internal narrative)的能力,杰恩斯认为,一切变化源于语言。
这个非同寻常的观点也与当时主流想法格格不入。「古希腊人没有自我意识( ancient Greeks were not self-aware)」的观点让不少人反感。艾伦脑科学研究所( Allen Institute for Brain Science)的首席科学主任Christof Koch谈到:「通过把意识的来源归结于文化,杰恩斯否认了意识是一种生物现象。」
但是,koch和其他神经科学学者和哲学家们都承认,这本狂放不羁的书有它独特的力量。哲学家Daniel Dennett如此评论道,「他是一位传统的、有着思想深度和雄心壮志的业余学者,始终追随着内心的好奇」。杰恩斯试图描述和解释『内在声音( a inner voice)』——我们栖居于斯的内在世界,他的研究引发广泛共鸣。世界各地神经科学实验室间纷纷兴起意识研究,不过,当时科学界还无法深入涉足主观体验研究。但是,杰恩斯在这一课题上表现出色,开启了一扇通往有关什么是「活着」、如何感受「活着」的大门。
杰恩斯是马萨诸塞州西牛顿村的一位神教牧师的儿子。虽然在他两岁时父亲就去世了,但是,父亲留下的48卷布道文一直陪伴着杰恩斯,如父犹在,谆谆教诲。在大学,杰恩斯尝试了哲学和文学,不过,最后决定学习心理学,毕竟,这门学科寻求的是有关物质世界的真实数据。1941年,他进入研究生院,不久,美国加入二战。虽然杰恩斯认为服兵役是不道德的,他还是被分配到了一个公民战争支援营。他当即写信给美国总检察长表示他准备离营,这个战争支援营和他的原则不相容:「我们能够在罪恶的体制逻辑下毁灭罪恶吗?耶稣不这样想......我也不这样想。」结果,他被送往监狱,在那里,他有充足的时间去思考关于意识的问题。「杰恩斯是一个很有原则的人,有些人或许会认为他冲动鲁莽」一个从前的学生和邻居回忆道,「他似乎能从与风车的搏斗中获得力量。」
三年后,杰恩斯获释。他深信动物实验有助于解释意识的最初进化,于是他在耶鲁大学研究生院渡过了接下来的三年。有一阵子,他相信,如果一个动物能够从经历中学习,它就拥有对这个经历的体验,这意味着意识的存在。他让一群草履虫通过迷宫,这个迷宫是用蜡在胶木板上刻出来的,每当它们走错通道,他就吓唬它们。「我天真地假定我是在修撰『意识进化的编年史』,我又继续研究了具有突触神经网络的其它物种,比如,扁形虫、蚯蚓、鱼和爬行动物,它们的确能够『学习』。」他在书中讲述道。「『这也太荒谬了!』当时,我很不安,直到几年之后,我才明白这个假定完全无意义。」许多动物都能够被训练,但它们并不内省。这就是让杰恩斯十分纠结的地方。
与此同时,他也在Frank Beach教授的指导下从事传统的动物母性行为研究。在那个年代,对意识感兴趣并从事这方面的研究,非常困难。当时主流心理学理论之一的行为主义探索的是人和动物对刺激的外显反应。那时,对难以捉摸的思想世界的沉思过时了,以电击作为条件的实验流行起来,行为主义可以被看作是对更早期、更不严谨的心理学思潮的合乎理性的反弹。但是,在杰恩斯大部分的人生中,内在体验远不是苍白的。在心理学界的某些领域,说自己研究意识表明你对神秘主义感兴趣。
1949年,杰恩斯没有拿到博士学位就离开了学校,他拒绝提交他的学位论文。人们并不清楚他这样做的真正原因,有人说,他不能接受论文评审委员会提出的论文修改要求,有的说,他被学术界的等级制度给惹怒了,有的说,他只是厌倦了继续研究。还有种说法是他不愿交25美元的投稿费。(1977年,那时杰恩斯的书正在销售,他在耶鲁拿到了博士学位。)然而,非常清楚的是,研究的停滞不前让他深感挫败。后来,他曾写道:以穿梭在迷宫里的老鼠而不是人类意识为基础的心理学,不过是「冒充科学的蹩脚诗」。
随后,他踏上了一段奇异之旅。1949年秋,他搬到了英国,当起剧作家和演员。随后15年里,他频繁来往于大洋两岸,在戏剧和助理教学角色之间切换,1964年,他终于在普林斯顿大学安顿下来。此后,他进行了大量阅读,深入思考「意识是什么」、「它是如何产生的」。1969年,他开始构思著述,试图从文化的根本流变来解释意识的起源,撇开了他一直依循的「进化论」。从他过去几十年来收集的材料看来,这本著述将会综合运用科学、考古学、人类学和文学等领域的知识。他相信,这条研究进路会直捣问题要害。
一部书的奇迹:虽然1997年去世的杰恩斯从来没有完成过其他书,但是,这本书将会让他名留千古。约翰·厄普代克在《纽约客》中写道:杰恩斯「推论直到公元前2000年人类都没有意识,而是自发地遵从上帝的声音,我们都震惊了。但是,通过了解所有他在古代文学、现代行为主义和诸如催眠、着魔、舌语现象、预言、诗歌和精神分裂症等异常的心理现象中找到的确凿证据,我们不得不接受这一非凡的论题。」
这本书从第一个字开始就显示出了其高远的视角,「啊,这是一个充满了不可见的影象和可闻的沉默的世界,这是个思想的虚幻国度!」杰恩斯开篇写道,「这是一个没有独白和预告的隐秘剧院,是一个充满所有情绪、沉思、谜团的无形大厦,是一个容纳失望和发现的无边胜地。」
为了探索这个内在国度的起源,杰恩斯首先透彻地概括了「意识不是什么」。它不是事物的天然属性。它也不仅仅是学习的过程。奇怪的是,它也不需要大量更为复杂的思维活动。拼拼图、网球发球、甚至是弹钢琴等活动都需要有意识的注意集中,但是,在掌握了一项技能之后,它又消退到模糊的潜意识世界中。思考它反而让它变得难以操作。在杰恩斯看来,此刻发生在你身上的一切,似乎大部分都不是意识的一部分,除非你注意到它们。你能感觉到刚才椅子在推你吗?或者,既然你已经问了自己这个问题,你现在能感觉到吗?
杰恩斯告诉读者,对未来哲学和认知科学学生们来说,书中谈到的意识问题是一个挑战。「它比我们意识到的那部分精神生活还要少,因为我们意识不到那些没有意识到的事。」随后,他十分精彩地论证了他的观点,「这就跟要求我们在一个黑暗的房间里用手电筒寻找那些完全处于光照之外的东西一样。手电筒指向之处都会有光,光亮似乎无处不在。意识看似弥漫在整个精神世界中,但事实并非如此。」
不过,最让杰恩斯吃惊的是:知识甚至创造灵感似乎也不由我们控制。你可以在非思考状态下判断两个杯子哪个更重,你一拿起它们你就知道了。在解决问题的情况下,无论创造与否,我们得到了思考所需要的信息,但是,我们依旧无法解决问题。在随后的洗澡或者散步过程中,我们却想到了解决办法。杰恩斯告诉他的邻居,虽然他现在正看着圣约翰河上的冰块移动,但是,他的理论终会成形。是那些我们没有意识到的东西在推动理论的形成。
杰恩斯尝试这样解释:习惯、本能以及其他过程能处理的事情远比我们认为的多得多,意识仅仅是漂浮在这片汪洋大海上的一层薄冰。「如果我们的推理是正确的,」他写道,「这类人很可能存在,他们同样做着大部分我们会做的事,比如,说话、判断、推理、解决问题等,但是,他们对此却毫无意识。」
杰恩斯相信,在他所定义的意识成为可能之前,必须要有语言的存在。所以,他决定阅读早期的著作文本,包括《伊利亚特》和《奥德赛》,寻找无法自省之人存在的蛛丝马迹——那些如同汪洋大海而非漂浮薄冰的人。他坚信自己在《伊利亚特》中发现了这些人。他写道,《伊利亚特》中的人物是不可内省的,他们不会采取独立行动(根据自己的意思采取行动——译者),仅仅接受神的指引。没有这些声音,英雄就会像木偶一样呆立在特洛伊的海滩上,纹丝不动。
众所周知,说话能力位于大脑左半球,而不是分散在左右两个半球。杰恩斯认为,大脑右半球缺乏语言能力是因为它曾经被用于其他的功能——特别是,用以向左脑语言中心发出警告。这些以幻觉方式出现的信息帮助人类渡过难关,例如,治国决策或者是否踏上冒险之旅。
杰恩斯写道,本能和声音的结合(即所谓的二分意识),只要人类社会等级森严,人类能够自我管理相当长一段时间。但是,大约3000年前,人口过剩,自然灾害、战争的压力大大超过警告之声的极限。二分心智分崩离析,之前能够听到的警告之声完全消失,自我意识开始零零碎碎地回到人们的意识当中。一个更灵活却更艰巨的应对日常生活的方式由此诞生——当神沉默之后混乱接踵而至之时,这种新的应对方式再适合不过了。他说,《奥德赛》中的人物会有内在思维活动(不过,他认为,这是由于后来译者添加上去的,反应的是现代心智。——译者)。伴随着内在叙述以及对来自更高权力指引的渴望,现代心智( modern mind)出现了。
该书余下的400页介绍了杰恩斯在旧约、玛雅石雕和苏美尔著作找到的证据,证明了世界范围内二分心智的分离。他提到大约公元前1230年的一座石雕,亚述王跪在一个空的神的宝座前。这一时期发生在今希腊境内的持续不断的大迁移,被杰恩斯视为二分心智崩塌引发的骚乱。杰恩斯反思了这一转变(二分心智的崩塌——译者)如何可能在今天重演。有感于当下形势,他十分敬畏地写道「公元2000年末,某种意义上,我们仍深处这场通向新的心智的转折中。我们都处在二分坍塌这场转折的残余之中。」「我们的国王、总统和官员过去还听着神的指示,现在只能带着对沉默神灵的宣誓而开始他们的任期。」
这本书全面深刻而且古怪。但是,《二分心智的崩塌:人类意识的起源(The Origin of Consciousness in the Breakdown of the Bicameral Mind) 》非常具有吸引力。部分原因可能在于,许多读者以前从未想过意识是什么。或许这是许多人第一次伸手触碰自己的意识,发现它们并不像自己所期望的那样。杰恩斯的书在特殊的时代确实带来了震撼,此时,这种震撼可能产生独特的强大效力。20世纪70年代,越来越多的人开始对意识的问题感兴趣。鲍迈斯特(Baumeister)非常欣赏杰恩斯,他在这本书出版之前就阅读了它,他说杰恩斯掀起了「精神阶段」的新时代运动。
这本书的语言运用非常好。它具有纳博科夫式的丰富性。他的散文优雅、有力量且具有可信度。它听起来像预言,但感觉却十分真实,并且具有令人难以置信的重量。真理与美丽以一种人类难以分开的方式交织在一起。负责 Storycollider故事系列(springer出品的一个科学主题的故事系列——译者)物理学家本·莉莉( Ben Lillie)回忆他发现杰恩斯书的情景时说:「那时我身处一群喜欢黑色着装、在年鉴和报纸办公室闲逛谈论知识的人当中」莉莉说,「有人在读这本书,我不记得谁是最先读它的人,反正不是我。突然之间我们都认为它听起来不错,就都开始阅读。因为书中的观点是在挑战通识,读者会感觉自己像个反抗者。」
人们很容易发现这本书的逻辑漏洞:首当其冲的就是《伊利亚特》中的人物会自省,虽然杰恩斯认为这些是后来添加或者误译的。但是,这些漏洞不会削弱书的震撼力。对于Aeon(一个在线科学和哲学杂志,也是机器之心非常欣赏的一个在线杂志——译者)创始人保罗•海恩斯这样的读者来说,这本书的吸引力并不主要在于杰恩斯的中心论点。他说,「吸引我的是他的方法和风格,以及文本的启发和怀旧情绪,而不是论点细节,尽管这些细节也很有趣。」「杰恩斯准备从自己的角度探索这个前沿问题,对意识现象的解释并未损及它的神秘性。」
在此期间,过去四十年里,风向变了,科学研究者都寻找最好的问题去发问。诸如艾伦脑科学研究所(Allen Institute for Brain Science)和瑞士联邦理工大学的大脑与心智学院(Brain-Mind Institute of the Swiss Federal Institute of Technology)的一些重大项目,都试图理解脑部结构和功能,试图解开许多疑问,包括何为意识、它是如何生成并直达神经元的。行为经济学已经兴起,作为一个完整的研究领域,它描述和使用了我们对自己行为毫无意识的这些行为方式——这正是杰恩斯这本书的主题——以及这门学科创始人的一些洞见,学科创始人丹尼尔•卡尼曼(Daniel Kahneman)和弗农 •史密斯(Vernon L. Smith),均为诺奖得主。
Eric Schwitzgebel,一位加州大学的哲学教授做了项实验,调查我们如何意识到那些我们并未关注的事情,实验回应了杰恩斯的观点:意识本质上是察知( consciousness is essentially awareness)。 Schwitzgebel 说,「你意识到的唯一的事情就是你刚才打算去做的事情,这种说法不是不合理。但是,我们也能合理的认为,(与此同时)许多事情正在背景里和意识周边上演着。在关注的背后,你正经验着所有这些。」正是这些问题使杰恩斯成为哲学和神经科学的焦点话题。但是,与此同时,杰恩斯的书依然处在科学边缘。 Schwitzgebel 说,「古希腊人没有自我意识,这个观点仍远在主流之外。」
丹尼特(Dennett)称《二分心智的崩塌:人类意识的起源(The Origin of Consciousness in the Breakdown of the Bicameral Mind)》是本「非凡而奇异的书」,他向杰恩斯释放出了最大的善意。他说,「有很多确实好的想法蛰伏于无用的垃圾之中」。他尤其认为杰恩斯的这个观点让他深为叹服:动物与人类的心智是不同的,这一差异源于语言。
丹内特说,「黑猩猩与人类意识的差异如此之大,以至于需要特殊解释,解释需要大量调用人类自然语言的区别。」他挖苦地承认,「问题偏离主流」「我并没有设法就此影响主流 。」
那些无时无刻不被研究意识的神经系统科学家提及的问题,也要归功于杰恩斯的疯狂想法。Antonio Damasio是一位神经科学的教授,南加州大学大脑与创造研究所的主任(the director of the Brain and Creativity Institute at the University of Southern California)。他在2010年的新书《忆起自我(Self Comes to Mind)》中,支持杰恩斯关于发生在人类意识中的相对较近的过去事情的看法。他写道,「随着关于人类和宇宙知识的积累,持续反思能很好的改变自我结构,促使意识过程中相对独立层面产生更为紧密的缝合;大脑活动的协调——首先是被价值所驱动,接着是被理性(reason)——正在对我们有利。」但是,这种支持实属罕见。更为常见的反响是,比如加州大学的荣誉教授、神经思想家 Patricia S. Churchland认为,「他的书是空想。我认为,它并未实质增进我们对意识性质的理解,也未帮助我们理解意识如何从大脑活动中得以产生。」
杰恩斯把他的理论当成是一个科学界的贡献,却对科研界的反应感到失望,尽管公众对他作品很感兴趣。杰恩斯越发地酗酒。他的第二本书,他打算在这本书中进一步推进那些观点,再也没有完成。
尽管作品古怪,但这份遗产还是流传下来。多年之后,丹尼特有时会在他的谈话中提到,他认为杰恩斯意识到了某些事情。后来——每次人群褪去,公开讨论结束之后——几乎都会有人畏缩不前。「现在,我能走出壁橱。」他或者她会说,「我认为杰恩特也是极好的。」
Marcel Kuijsten从事IT,他经营着一家叫做朱利安·杰恩斯社团(the Julian Jaynes Society) 的组织,成员大概有五、六百人,来自世界各地。这个组织的有一个线上成员论坛,讨论杰恩特的理论,2013年,他们首次主办了一次为期两天的会议,地点在西维吉尼亚。他说,「这是一个难忘的经历。」
Kuijsten 认为,许多攻击杰恩斯的人根本不愿花气力去理解讨论的观点,他也承认杰恩斯的论述很难让人转过弯来( hard to get one’s mind around)。他说,「人们带着根深蒂固、先入为主的有关意识的观念来理解杰恩斯。也许,他们只是读了书的背面」。但是,Kuijsten考虑长远。他说,「我不打算在这里改变其他人的想法,这无疑是在浪费时间。我想给那些读过书的和想讨论的人们提供最好信息和资源。」
为了这个目的,Kuijsten和社团发布了一些关于杰恩斯作品的的书以及有关他和他的工作的新文章。无论何时,只要任何有关杰恩斯提出的问题的新发现出版了,Kuijsten都会在网上做好记录。2009年,他强调,脑成像研究表明,听觉幻象源于大脑右侧,随之而来的行为则是在左侧,这听起来与Jaynes的二分心智的理论相似。他希望随着时间流逝,人们能够根据新科学重新审视杰恩斯的观点。
最终,杰恩特的书里提到的广博问题也会同样困惑着神经学家和门外汉。什么时候以及为什么我们开始了内心表述?我们日复一日的无意识经历有多少?有意识和无意识过程之间的界线在哪里?这些问题依旧悬而未决。或许,杰恩斯的奇怪假设永远无助于回答这些问题。但是,许多人——读者,科学家和哲学家——都会感谢他的尝试。