好文档 - 专业文书写作范文服务资料分享网站

基于线性回归算法的电影票房预测研究

天下 分享 时间: 加入收藏 我要投稿 点赞

龙源期刊网 http://www.qikan.com.cn

基于线性回归算法的电影票房预测研究

作者:罗干 蒋煜楷 陈文婷 吴镇州 施运梅 宋莹 来源:《电脑知识与技术》2024年第01期

摘要:该次研究利用从豆瓣电影和猫眼电影所爬取的电影基本信息数据和票房数据作为数据集。在进行线性回归训练之前,先将电影基本信息中的非数值型数据转化为数值型数据,然后利用Spark的机器学习库构建了票房预测模型。经过实验分析得出,所构建的预测模型在电影票房的预测上有较高的准确率,可为电影票房分析提供有效的参考信息。 关键词:线性回归模型;电影票房预测;评价;Spark

中图分类号:TP312; ; ; 文献标识码:A; ; ; 文章编号:1009-3044(2024)01-0202-02 1 背景

随着我国经济的发展,人民生活水平不断提高,文化消费有了爆发式的增长,中国的电影市场得以繁荣发展[1]。电影票房的预测也变得越来越有意义,在2013年的时候Google就发布了一篇名为《Quantifying,movie magic with Google Search》[2]的论文,里面提出了线性回归的电影票房预测模型。之后也有很多相关的研究,也取得了一系列的成果,且大多数研究的票房预测模型都没有对外公开信息。此外所采用的数据没有一个后续的更新,不能顺应电影发展脚步[3]。中国电影市场现在还有很多“现象级”[4]的电影,电影票房确实有很多不确定性。 该文将从豆瓣电影和猫眼电影上爬取的2011-2017年的院线电影信息,针对国内电影市场的特点,利用Spark的机器学习库(MLlib)的线性回归算法进行电影最终票房的预测。 2 相关技术介绍

该节将对电影票房预测中使用的主要技术进行简单介绍。 2.1 Spark计算引擎

Spark是在Hadoop MapReduce的基础上提出的新一代大数据分析框架,拥有Hadoop MapReduce所具备的全部优点,并且Spark是将计算结果直接存储在内存中,运算效率更高[5],让它非常适合机器学习与数据挖掘等需要迭代的算法。

Spark主要有三个特点:1)高级API剥离了对集群本身的关注,让开发者可以专注于计算本身。 2)Spark支持交互式计算和复杂算法。3)Spark是通用引擎,可用它来完成SQL查询、文本处理、机器学习等各种各样的运算。 2.2 机器学习库MLlib

基于线性回归算法的电影票房预测研究

龙源期刊网http://www.qikan.com.cn基于线性回归算法的电影票房预测研究作者:罗干蒋煜楷陈文婷吴镇州施运梅宋莹来源:《电脑知识与技术》2024年第01期摘要:该次研究利用从豆瓣电影和猫眼电影所爬取的电影基本信息数据和票房数据作为数据集。在进行线性回归训练之前,先将电影基本信息中的非数值型数据转化为
推荐度:
点击下载文档文档为doc格式
7w7gs41d7g9sc9l3ppnv1xep036fc30199b
领取福利

微信扫码领取福利

微信扫码分享