北京 Tableau 可视化分析争霸赛作品分享 | 亚军张琴:Film History in IMDB
>>> 北京 Tableau 可视化分析争霸赛
选手统一使用主办方准备的电脑(不能上网),使用主办方统一提供的数据源(Excel格式、IMDB电影数据),现场30分钟内完成可视化分析作品,现场5分钟完成作品阐述。
上一篇,我们分享了北京站 Viz 竞赛冠军赵龙飞的可视化作品:Tableau 让数据分析师成为艺术家
今天,我们为大家分享亚军作品:《Film History in IMDB》。
亚军得主:张琴(在校大学生)
这个 VIZ 只有一个仪表板,由七个图表构成了一个较长的仪表板页面。我们可以用鼠标操作进行从上往下的查看:
与冠军作品不同,这个作品的分析角度不是为电影投资商做决策支持,而是从电影发烧友的角度,深度分析挖掘电影的产业的变迁和现状。
首先,作者使用地图,为我们展示了 IMDB 数据里面,最早的上映电影在哪里,答案是深红色的部分:美国,1916年。
将鼠标停留在地图的任何地方,都会显示出那个国家共计上映电影数和最早上映年份的数据详情。
接着,我们看第二个工作表。作者用了一个突出显示表为我们展示出各种类型的电影随着时间发生的变迁。横坐标是年代、纵坐标是电影类型,这个显而易见也很容易理解。
你可能会好奇,为什么图表左边那一大块的颜色看不出区别。那是因为在1960年之前,各种电影类型的上映数量都非常少,与1990年之后比较,数据的跨度非常大的缘故。
将鼠标停留在任意一个交集的方格里,会显示出对应的那一年那一种类型电影的上映数量。
当然,颜色越深,代表上映数量越多。
再看看后面的几个图表。
用一个直方图来展示IMDB网站里,电影的评分分布情况。横坐标是得分、纵坐标是评分数。可以看出:大部分电影的得分在6-8分之间。
用文字云来展示最受欢迎的导演和演员名字,字体越大颜色越鲜艳代表这个人的脸书粉丝数量越大。可以改变右上角的数值,改变显示出的人名数量多少。
下面这张工作表,用散点图和预测线来展示电影片长和IMDB评分的关系。横坐标是电影片长平均值(分钟)、纵坐标是IMDB的评分平均值。
数据基本都在预测线周围和置信区间范围内,说明片长对评分的影响是有一定规律的。
最后这个图表很容易理解,黑色条状图呈现出那一年电影的总票房情况,黄色散点呈现出那一年电影的总预算,横坐标是年份、纵坐标是票房金额。
两种图结合在一起,用对比度非常强的颜色。非常直观的可以得出结论:
黄色点位置高于黑色条顶端,说明那一年电影预算高于票房收入,电影市场亏本
黄色点位置低于黑色条顶端,说明那一年电影预算低于票房收入,电影市场盈利
将鼠标放在悬浮空中的三个黄色点上,就能发现:2004、2005和2006这三年,电影产业可是巨亏的三年呢。
TIPS:回头看第一个工作表——地图。
我们发现,作者在地图的下端,按照上映的电影数量多少设置了一个渐变色,颜色越深代表该国家上映的电影数量越多。
可能作者只想突显最早的上映记录,所以并没有让地图呈现渐变色的效果。
于是,我们在原来的工作表上做了稍许调整,就可以让地图通过渐变色直观展示:哪些国家的电影上映数量较多、哪些国家的电影上映数量较少。