24.1. 可视化概述#

24.1.1. 什么是可视化#

可视化是将不可见或难以直接显示的数据、信息或概念以图形、图表、图像或其他符合人类感知的视觉形式呈现的过程。 通过将人纳入到数据分析流程中,可视化支持用户进行数据科学探索、数据分析、信息传达和决策支持等任务,克服自动化算法在某些复杂分析和决策过程中的局限。

从分析全球股市波动,到研究全球气候和洋流变化,从社会经济发展数据、城市的交通移动数据到个人的健康与运动数据,可视化在各个领域中都展现了重要的意义和价值。 它既可以通过将抽象数据转化为直观的视觉叙述,更加生动地讲述故事或传达信息,也可以帮助科学家、决策者和公众更深入地理解全球气候变化、病毒结构、社会经济数据等复杂信息,发现异常情况、识别趋势和模式,并做出更加明智的决策。 这种人机互动的方式不仅促进了信息的共享和合作,还加强了数据分析的深度和广度,使非专业人士也能轻松理解并应用复杂数据。

从宏观的角度看,可视化的功能可以总结为以下两点:

1. 信息表达和传播

  • 地球演化历史可视化

../../_images/visualization-basics-world_history.png

图 24.1 地球演化历史图。 ©https://www.behance.net/gallery/10901127/History-of-Life#

图 24.1 出自2013年 胡安·大卫·马丁内斯(Juan David Martinez)及其团队的设计,将地球近 46 亿年的进化过程浓缩成这样一张五颜六色的螺旋图。 这张图以螺旋形状展开,以螺旋一端表示地球形成之初,螺旋向外扩展代表时间的流逝。 螺旋上不同颜色的每一段代表了特定的地质时期,描绘了在这些时期内地球地质构造的变化以及不同生物的演化过程。

  • 2020 美国大选可视化

2020年美国总统选举,在主要竞选人共和党的唐纳德·特朗普和民主党乔·拜登之间展开。 选举采用的是选举人团制度,选举人团由538名选举人组成,这个数字等于美国国会议员的总数(435名众议员和100名参议员)加上华盛顿特区的3名选举人。 各州通常采用“赢者通吃”制度,即在该州赢得普选票数最多的候选人将获得该州所有的选举人票。 为了赢得选举,候选人需要至少获得超过半数,即270张选举人票。 因此一些关键的摇摆州如宾夕法尼亚州和密歇根州的结果对总体选举影响极大。 图图 24.2图 24.3 分别展示了两种不同的竞选结果可视化方法。

../../_images/visualization-basics-America2020_raw.png

图 24.2 原始地图直接映射,观感上与实际结果不一致。 ©https://www.politico.com/2020-election/results/president/#

图 24.2 展示了在原始地图上进行颜色编码的结果。 每个州票数占比和实际面积并不匹配,这会导致染色面积与得票情况不一致,从而带来困扰。

../../_images/visualization-basics-America2020_count.png

图 24.3 根据选票数量调整各州面积,观感上与投票数一致。#

因此在实际中,需要选用变形地图,如图图 24.3所示,在部分保留各个州相对地理位置的情况下,根据选票数量调整各州面积,使得面积与票数一致,避免产生误解。

2. 信息分析与推理

  • 拿破仑征俄图

1869 年,法国工程师查尔斯·约瑟夫·米纳德(Charles Joseph Minard)绘制了1812年拿破仑征俄图(Map of Napolean’s Russian Campaign of 1812),如图 24.4,描述了拿破仑在1812 到1813 年进攻俄国时所遭受的灾难性损失。此图将法军东征俄国的过程,精确而巧妙地通过数据可视化的方式展现出来,让人直观感受到拿破仑的40 万大军,如何在长途跋涉和严寒之中逐步溃散。

../../_images/visualization-basics-Napoleon.png

图 24.4 拿破仑征俄图。#

线条宽度的变化代表拿破仑的军队人数变化,黄色为进军路线,黑色为撤退路线,文字标明了行军途经的特定地点、河流以及具体人数。底部温度折线从右到左反映了撤退途中的温度变化。 通过这张图,用户能清晰读出从立陶宛到莫斯科,拿破仑军队位移的经纬度、对应的时间以及温度与军队规模等信息。 可以看到,出征时军队人数42.2 万人,到达莫斯科时还有10 余万人,而活着返回法国的只有1万余人,足以见得拿破仑东征俄国遭受的灾难性损失。 观察黄黑两线交汇处,可以发现活下来的士兵大都中途走岔路返回,前进的大部分都牺牲了。 结合温度变化、河流位置、军队人数,可以看到低温和渡河是导致士兵牺牲的两大因素。

  • 伦敦霍乱地图

十九世纪中叶,霍乱在伦敦几度流行,四万多人死于瘟疫。当时的医学界普遍认为瘟疫是靠笼罩在伦敦上空的“瘴气”传播的,而英国医生约翰·斯诺(John Snow)却认为霍乱是通过水源传播。为了证明这一点,在伦敦爆发霍乱的1854年,他冒着生命危险,走进病情高发的街区,挨家挨户地调查了整片街区的居民死亡情况,并绘制了一张死亡地图。

../../_images/visualization-basics-London.jpg

图 24.5 医生约翰·斯诺在伦敦地图上标注死者住过的地点(局部图)。©From www.theguardian.com#

图 24.5 所示,约翰·斯诺使用点分布图(Dot Distribution Map)在地图上标出了所有死者曾经居住过的确切地点,于是他可以直观地在图上看到疾病爆发的密度和分布。当约翰走访过发病的一整个街区之后,他从图上发现了异常——有一幢房屋的死亡人数远高于其他,而这幢房子紧挨着一个生活水源。经过调查,这个水泵连通河水,那里也是生活污水的排放场所。饮用水被污染了。

../../_images/visualization-basics-London_new.png

图 24.6 为了纪念,有人根据约翰·斯诺的数据,重新标注了疫情区域。 ©From www.r-bloggers.com#

这张地图配合约翰调研的数据,为证明霍乱是经由受污染的水源传播提供了足够的证据。于是受污染的水源被拆掉把手,人们无法再从这里取水。不久后,整个街区的疾病流行得到了遏制。为了纪念,有人根据约翰·斯诺的数据,重新标注了疫情区域,见图 24.6。约翰·斯诺的研究在公共卫生与健康地理学中有重大意义,并被视为流行病学的发端。而死亡地图对人类做出的贡献远远超出了医学范畴。这种方法后来被广泛应用于疾病传播、犯罪、地理分析、建筑学等诸多领域的研究,甚至衍生了一门专门绘制信息地图的学科:GIS(Geographic Information System)。

  • 南丁格尔玫瑰图

南丁格尔玫瑰图诞生于19世纪的克里米亚战争时期,该图表由一位名叫弗洛伦斯·南丁格尔(Florence Nightingale)的英国护士长汇总数据并绘制完成。 这张图表不仅清楚地显示了士兵死亡的原因和时间分布,还揭示出医疗条件的不足和卫生环境的恶劣。 南丁格尔玫瑰图因此成为了统计图表的先驱之一,被广泛地运用于各个领域。

../../_images/visualization-basics-army.png

图 24.7 南丁格尔玫瑰图;蓝色表示死于可预防疾病的士兵人数,红色表示死于枪伤只的人数,黑色表示死于其他意外的人数。#

图 24.7展示了1854年4月到1855年3月这一年间士兵的死亡情况。 图中又分为两张小图左图表示1855年4月到1856年3月的死亡人数,右图表示1854年4月到1855年3月的死亡人数。 对比两张图,可清楚地看到这两年军队死亡人数的变化。

从图中可看出,这一年时间里,士兵的死亡主要不是因为战斗中的枪械伤害(红色部分),而是由于可预防的疾病(蓝色部分)。 特别是冬天的时候 (1854年11月-1855年2月),死于可预防疾病的士兵人数大幅增加。 由此可知,导致士兵大量死亡的主要原因并非是战斗本身,而是战后有效医疗护理的缺乏。 南丁格尔的这一发现不仅推动了军队医疗卫生的改善,也推动了公共卫生和医疗系统的整体改进,挽救了更多可能死于可预防疾病的士兵,对社会有着现实意义和重要价值。

24.1.2. 可视化发展历史#

可视化不仅是一种强大的工具,用于数据分析和决策制定,还是一种有效的传达和理解信息的方式。 可视化的思想在各种领域中都具有广泛的应用,有助于提高工作效率、推动创新和改进决策质量。

因此,尽管可视化作为一门独立的学科,起源于上世纪 80 年代中后期,但是可视化思想的应用却可以追溯到远古时代,例如公元前的中国就已经出现了早期的地图绘制。 在 17、18 世纪,随着测量和制图技术的进步,以及统计学的兴起,可视化迎来了第一个高峰期。那个时期涌现出一批著名的可视化作品,如1786 年William Playfair 发明的条形图和饼图,1869 年Charles Joseph Minard 创作的拿破仑远征图。

20 世纪以后,随着计算机特别是图形显示、人机交互技术的发展,可视化进入了一个崭新的阶段。 1987 年,ACM SIGGRAPH 会议上正式提出” 可视化(Visualization)”的概念。 此后,以IEEE Visualization、EuroVis 等为代表的可视化会议相继出现,一大批可视化理论、工具、系统被研发出来,极大地推动了可视化的发展和应用。 进入 21 世纪,可视化与其他学科的交叉融合进一步加深,可视化分析、可视化数据挖掘等新的研究方向不断涌现,有力支撑了大数据时代数据密集型科学研究范式的转变。

科学可视化、信息可视化和可视分析三个学科方向通常被看成可视化的三个主要分支 [Ward2010]。

  • 科学数据可视化:主要关注于将科学计算和仿真产生的数据转化为图形和视觉表达,以便于研究者理解复杂的物理现象、化学过程或生物结构。常常应用于气候模型的可视化、医疗成像(如MRI或CT扫描)以及大规模天文数据的可视化。

  • 信息数据可视化:专注于将抽象数据和非几何空间数据(如文本数据、社交网络数据、商业和金融信息)转化为图形和视觉格式,帮助用户探索和理解大规模、复杂的抽象数据,发现数据中的关联、模式和趋势,支持数据驱动的决策和分析。

  • 可视分析:结合了数据分析的自动化方法与用户交互,将人的洞察力和经验与计算机的处理能力相结合,支持对复杂问题的理解、推理和决策。旨在通过视觉表示手段加强人的分析推理能力,处理大规模和不确定的数据集。

24.1.3. 可视化需要解决的问题#

可视化技术在数据分析和决策支持中扮演着越来越重要的角色,但同时也面临着诸多挑战。 为了充分发挥可视化的潜力,人们仍需解决以下三个关键问题:数据规模和复杂性、人类视觉感知的利用以及高效分析流程的构建。 具体来说:

1. 如何高效处理多源、大规模、非结构化数据。

随着数据采集和存储技术的进步,可视化任务面临着海量、多样化的数据。 这些数据可能来自不同的来源,如传感器、社交媒体、科学实验等,并且常常是非结构化的,如文本、图像、视频等。 传统的可视化技术难以直接处理如此规模和复杂性的数据。 因此,需要发展新的数据处理和可视化方法,如数据降维、聚类、采样等,以高效地提取和呈现数据中的关键信息。 同时,还需要设计可扩展的可视化系统架构,利用并行计算、流数据处理等技术,实现对大规模数据的实时交互和探索。 而在数据处理技术方面,也需要使用先进的大数据处理框架(如 Apache Hadoop 和 Spark)来支持数据的快速处理和分析,通过对大量数据进行有效的分割和并行处理,显著提高处理效率。 上述方法不仅提升了数据处理的速度,还有助于生成更加清晰易懂的可视化表示。

2. 如何合理利用人类视觉感知的优势进行可视化设计

人类具有强大的视觉感知和处理能力,可以快速识别模式、异常和趋势。 可视化的一个重要目标就是利用这一能力,将抽象的数据转化为直观的视觉表示,以帮助用户理解和分析数据。 然而,人类的视觉感知也有其局限性和偏差。不当的可视化设计可能导致错觉、误解,或是给用户带来过多的感知负担。 因此,设计者应遵循视觉感知的原则,通过颜色、形状和空间布局等元素来优化信息的表达,合理应用这些视觉元素可以提高信息的易读性和吸引力。 例如,明确的颜色对比和合理的图形大小可以帮助用户快速区分不同数据集,而避免使用容易引起视觉混淆的元素可以减少用户的感知负担。 此外,合理的信息布局和层次设计也是避免错觉和误解的关键。 同时,还需要通过用户研究和评估,不断优化可视化设计,提升用户的理解和体验。

3. 如何构建支持用户交互的高效分析流程

可视化的最终目标是支持用户进行有效的数据分析和决策。 然而,现实世界中的分析任务往往是复杂和开放的,难以完全自动化。 因此,需要构建高效的分析流程,将人的智慧和洞察力与计算机的处理能力相结合,形成”human in the loop”的分析范式。 在这一范式下,可视化不仅仅是数据的呈现,更是一个交互式的探索和推理的过程。 通过交互操作,如过滤、聚焦、链接等,用户可以动态地探索数据,提出假设,验证思路,发现新的见解。 同时,将可视化与其他分析技术,如统计建模、机器学习等结合,可以实现更加智能和自动化的分析。 可视分析工具的设计需要考虑这种人机协同的特点,提供灵活、易用的交互机制,同时也要具备一定的自动化分析能力,以应对日益复杂的分析需求。

总之,可视化技术要想真正发挥其在数据分析和决策支持中的作用,就需要解决数据规模和复杂性、人类视觉感知的利用以及高效分析流程的构建这三个关键问题。 这需要可视化研究者和实践者在数据处理、可视化设计和交互技术等方面不断创新,并与其他学科如数据科学、认知科学等深度融合。 只有这样,才能设计出真正有效、易用、智能的可视分析工具,帮助人们应对日益复杂的数据世界,做出更加科学、明智的决策。