Netflix:数据科学助力影视内容生产

Netflix:数据科学助力影视内容生产

行业标杆Netflix研究

Netflix自称拥有科技和内容两颗心脏。而今的Netflix,不仅是流媒体播放平台的世界霸主,更是在内容生产领域跻身“好莱坞新六大制片厂”之列。其应用数据科学驱动内容生产的各种高级玩法,堪称业界标杆,亦可成为这一领域数据科学项目的灵感来源。在此,我们为Netflix单独开辟一个系列,作为记录与反思。

开篇

当我们谈论Netflix的时候,我很好奇它是如何将核心竞争力建立在数据之上的。Netflix为人称道的地方,一是其播放平台具备世界一流的推荐算法,二是用数据驱动影视内容生产。而后者让好莱坞在数年以来都避之不及。从传统的电影从业者的理念出发,数据模型难道不是对创造力的禁锢?机器学习主导的电影会不会千篇一律?我也曾有过类似的疑问。然而,通过对Netflix案例浮光掠影的研究,我心头的疑问似乎被解答了。Netflix对数据科学的应用几乎从不涉及艺术创作的本身,而是围绕创作之外的商业决策展开。Netflix试图在电影制作、发行、上映的各个环节加入数据科学的角色。其作用并不是为了取代制片人做决策,而是给予制片人更多的信息支撑,让他在对各种情境各种结果有充分预想之后做出一个有理有据的,更可靠的决策。Netflix对电影行业带来的冲击,本质上是对电影行业商业模型的改变。在整个商业运行体系中,虽然决策者或制片人的局部权力和个人经验的作用有所削弱,但决策全局的稳定性得到了大幅提升。能够找到一种方式平衡影视项目的风险,缩小方差,这对电影行业是一个巨大进步。简而言之,Netflix对数据科学的运用是建立在对人的充分尊重之上,它既不干涉人的灵感创作,也不替代人的综合判断。Netflix所注重的这种“data-driven”,并不是“data-driven content”, 究其根本是“data-driven insights”。

任何一部影视作品的生产都历经着一个复杂历程,交织着艺术创作、商业决策和技术选择。从一个电影或电视项目提案开始,到最终在Netflix平台播放,它通常经历以下流程。在这篇文章中,我们将关注点聚焦在studio production(从电影立项到上映之前的制作阶段),来讨论每个环节中数据科学可以发挥怎样的作用。



拍摄前期:机器学习预测摄制成本

在拍摄前期,制片人和监制面临一系列关键的选择:例如,我们是在加州还是乔治亚拍摄?大场面的拍摄是选择雇佣上千群众演员还是依靠特效?剧组工作时长是一天8小时还是10小时?其中任何一个选择都会对摄制成本,拍摄周期和艺术效果产生长久的影响。长久以来,传统的影视公司主要是依赖决策者的个人经验和直觉进行判断。但在Netflix,机器学习和数据挖掘是传统决策方式的极大补充。

以上提及的问题归根结底是成本预测的问题。用数据科学解决思路使用一系列影片特征建立回归模型,用来预测影片成本。影片特征应至少包括内容特征(例如类型,相似影片等)和摄制特征(拍摄选址,创作风格,摄制进度等)。这个机器学习未必成为制片决策的唯一指标,但可以帮助制片团队了解不同的摄制选择的组合对成本会有什么样的影响,从而找到那个最具有可操作性且在预算之内的组合。

但这类模型操作起来最大的挑战是数据的稀疏性问题。我们知道一个影片的制作成本上到租用楼宇宫殿,下到一颗螺丝钉,门类条目细化起来数量惊人。而且很多条目的成本又跟拍摄地的价格水平息息相关。然而,我们的历史记录中不可能囊括所有可能的拍摄地的所有成本,这就使得如何预测成为问题。与其让成千上万个特征在模型中“暗箱操作”,不如将问题简化。Netflix采取的解决方案是通过数据科学家和业内专家的业务领域知识对影片成本进行层次化归类。例如,如果我们缺少某个拍摄地妆发部门的成本信息,但是可以获得化妆师的单价信息,那么我们利用制片业务知识估计化妆师人力成本在整个妆发部门的比例,从而推算这个类别的整体成本。



Netflix的成本模型为制片人模拟了各种情境之下的不同成本变化。如果说传统制片人在面临拍摄决策时做的是论述题,那么Netflix的制片人面对只是一道选择题。

拍摄中期:自动化优化日程排期

在电影和电视剧剧组中,通常第一助理导演的一个核心任务是排期。排期不仅指拍摄日程,还有工作人员的时间,演员的档期,场地使用拍摄的时间等。即便是熟练工,助理导演也要花上数百小时在这一工作上。毫无疑问,这是对人力工作的一个巨大挑战。

本质上,排期工作是一个有限制条件下的数学优化问题。虽然人的智力决策在这类工作上有不可替代的优势,但这项工作绝对有自动化改进的空间。我们可以将一个基本的排期问题理解为:在L个拍摄地, 在D天内由一组拍摄团队完成N场戏的拍摄。这个优化问题可以进一步具体化。

变量可能包括:

  • 每场戏开拍的时间
  • 拍摄场地合约起始时间
  • 演员合约起始时间
  • 摄制人员合约起始时间

限制条件可能包括:

  • 某个时间段只能拍一场戏
  • 主创和演员工作日需要多少小时的休息
  • 从一个拍摄地到另一个拍摄地需要至少多少小时的转场时间
  • 某个日景必须排到日落

客观条件可能包括:

  • 每日要支付摄制组成员固定的薪酬
  • 每日要支付演员固定的薪酬
  • 每日支付拍摄场地租金

然后,将以上各种细节综合考虑,纳入到数学优化模型,可以得到以日计,甚至以小时计的合理排期。这样的自动化排期有助于立项初期控制预算,也是后续进一步优化排期的起点。对于专业人士,这样的模型可以成为一个互动式的工具,辅助在不同的排期方案中做精准的选择。

后期制作:可视化流程控制

影片主体设置完成之后,后续仍有上百项任务等待着我们,比如剪辑,混音,特性,调色等。从影视公司角度,全盘监控多个影视项目的进程,识别后期进展中的瓶颈和阻碍是一个很大的挑战。Netflix善于利用数据科学工具将流程剖析和可视化,帮助公司在多个项目的同步运行中合理分配资源,识别异常并尽早干预。

例如,Netflix喜欢用Sankey图展示后期制作各个环节的进展,以方便决策者从全局把握各个项目是否如期进行。



又如,基于地理信息的网络图可以将公司资源是如何在各个拍摄地之间调配清晰地勾勒出来。



后期制作:模型指导本土化资源配置

Netflix的内容生产面向全球受众。针对每一个重要市场,影片要进行相应的本土化改造,例如当地语言配音,字幕以及配套的宣传物料制作。但受制于时间,资源,人力和技术限制,Netflix的本土化制作团队必须要定制一个精细的计划,依照一定的顺序制作各个语言的版本。数据科学在这一决策中也起到了关键作用。

这个需求转化为数据科学的问题是:如何预测一部电影/电视剧每种语言版本的观看量。Netflix的通常做法是,利用平台上受众的历史观影数据建模。然后,使用与当前电影/电视剧相似的影片特征进行预测。预测播放量高的语言版本将给与更高的优先级,先行制作。于是,这样一个简单的模型就可以起到指导资源配置的作用。



References

The Netflix Tech Blog, N. T. (2018, March 27). Data Science and the Art of Producing Entertainment at Netflix. Medium. https://netflixtechblog.com/studio-production-data-science-646ee2cc21a1


© 2020. All rights reserved.