这是基于spark的电影推荐系统数据集下载,博主一年前写过一个这样的文章,电影推荐也是博主一年前就学习过的,温故而知新,重新拿出来好好重新研究一番。
随着大数据时代的到来,数据当中挖取金子的工作越来越有吸引力。利用Spark在内存迭代运算、机器学习领域强悍性能的优势,使用spark处理数据挖掘问题就显得很有实际价值。这篇文章给大家分享一个spark MLlib 的推荐实战例子。我将会分享怎样用spark MLlib做一个电影评分的推荐系统。使用到的算法是user-based协同过滤。如果对Spark MLlib不太了解的,请阅读我的上一篇博客。
1. 拷贝spark-assembly-1.4.1-hadoop2.6.0.jar到WebContent/WEB-INF/lib目录;
(spark-assembly-1.4.1-hadoop2.6.0.jar文件由原生spark-assembly-1.4.1-hadoop2.6.0.jar删除javax/servlet包获得,由于太大,所以就没有上传了);
2. 拷贝原生spark-assembly-1.4.1-hadoop2.6.0.jar文件到HDFS(目录和代码中一致);
3. 拷贝WebContent/WEB-INF/lib目录中的Spark141-als.jar到HDFS(目录和代码中保持一致);
4. 拷贝Hadoop集群(调用所使用的集群,每个人不一样)配置文件yarn-site.xml到HDFS(目录和代码中保持一致);
5. 修改相关配置文件,由于hadoop相关配置、系统的一些属性需要修改为实际的配置及属性,所以针对这些需要进行修改(后面版本中会对此单独一个配置文件)。