基于联合聚类与用户特征提取的协同过滤推荐算法-王玙.pdf-得力文库

资源描述

《基于联合聚类与用户特征提取的协同过滤推荐算法-王玙.pdf》由会员分享，可在线阅读，更多相关《基于联合聚类与用户特征提取的协同过滤推荐算法-王玙.pdf（7页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、情报学报 2017年8月第36卷第8期 Journal of the China Society for Scientific and Technical Information, Aug. 2017, 36(8): 852-858 收稿日期： 2016-12-13；修回日期： 2017-04-05 基金项目：国家自然科学基金青年基金“大规模动态社交网络社团检测算法研究”（71401130）。作者简介：王玙，女，1980年生，博士，副教授，主要研究领域为数据挖掘，E-mail: ；刘东苏，男，1964年生，博士，教授，硕士生导师，主要研究领域为信息管理。基于联合聚类与用户特征提取的协

2、同过滤推荐算法王玙，刘东苏（西安电子科技大学经济与管理学院，西安 710071）摘要协同过滤利用与目标用户相似性较高的邻居对其他产品的评价来预测目标用户对特定产品的喜好程度，用户间的相似性定义至关重要。传统协同过滤算法定义相似性时不考虑用户偏好，为了解决这一问题，本文提出基于联合聚类的协同过滤算法。该算法利用联合聚类识别用户偏好，定义用户偏好相似性。当可用数据还包括用户的属性信息时，算法提取有共同偏好的用户的公共特征，进一步定义基于属性的相似性，结合属性相似性与打分相似性产生推荐。实验用MovieLens数据验证推荐算法的准确性，实验结果表明本文算法可以处理极度稀疏数据，且预测的打

3、分更加准确，推荐排名靠前的电影更受用户喜爱。关键词信息推荐；协同过滤；联合聚类；偏好相似性；属性相似性 Collaborative Filtering Algorithm Based on Bi-clustering and User Attribution Extraction Wang Yu and Liu Dongsu (School of Economics and Management, Xidian University, Xian 710071) Abstract: In a collaborative filtering system, for a target user,

4、 the potential evaluation of an object is estimated ac-cording to the ratings from users similar to the target user. Thus, the definition of the similarity between users is of significance. Traditional collaborative filtering algorithms do not consider the preference of users when defining the simil

5、arity. To conquer this problem, a collaborative filtering algorithm based on bi-clustering is presented. The pref-erences of users are identified by bi-clustering, and the preferential similarity is defined by the algorithm. When the attributive information of users can be acquired, the common featu

6、res of users sharing the same preference can be extracted. Furthermore, similarity based on attributions is proposed. The recommendations are given by combining the attributive similarity and the rating similarity. Our algorithm is applied to MovieLens data to validate its accuracy. Experiments demo

7、nstrate that compared with other methods, our algorithm can deal with extremely sparse data, predict ratings more accurately, and suggest more movies which the users really like in the top part of the recommendation list. Key words: information recommendation; collaborative filtering; bi-clustering;

8、 preferential similarity; attributive similarity 1 引言随着互联网的快速发展及大数据时代的到来，信息超载1问题日益恶化。为了帮助用户在海量数据中找到感兴趣的内容，信息推荐系统被广泛使用2-5。推荐系统根据用户历史记录，发现用户潜在需求，万方数据第8期王玙等：基于联合聚类与用户特征提取的协同过滤推荐算法 853 成为电子商务、社交网络、搜索引擎等服务必不可少的组成部分。作为推荐系统的核心，准确、高效的信息推荐算法决定了推荐效果的好坏。协同过滤算法6-7由于具备不需考虑被推荐项目的内容、可为用户提供新异推荐、对用户访问网站时的干扰较小、技术

9、易于实现等优势8，成为目前应用最广泛的推荐算法。协同过滤利用与目标用户相似性较高的邻居对其他产品的评价来预测目标用户对特定产品的喜好程度，因此用户间的相似性定义至关重要。目前最常用的是皮尔森相关系数和夹角余弦。学者们针对用户相似性做出了不同的改进。Liu等9基于随机游走，定义了用户间的非对称相似性，提高了推荐结果的准确性与多样性。Choi等10计算用户相似性时考虑所有项目与目标项目的相似程度，与目标项目越相似的项目在最近邻搜寻过程中所起的作用就越大。Kaleli11综合评分相似性、评分不确定度差异两种信息,搜寻目标用户的最近邻。冷亚军等12将产品分为不同的项目类别，把用户-产品打分矩阵转化为

10、用户-项类打分矩阵，再基于用户-项类打分矩阵计算用户间的余弦相似性。在实际中，用户通常会有兴趣偏好。表1所示为电影网站的10个用户对9部电影的打分表，得分为1表示喜欢该电影，为空表示不喜欢。可以看到用户1与3都爱好动作片，用户6与10都更喜欢爱情片，1与10没有明显的共同爱好。有理由认为1与3的相似性应该大于1与10的相似性。然而传统相似性计算方法将每个用户对所有产品的打分看作一个向量，用向量间的相似性定义用户间的相似性。在考虑全部电影的情况下，利用余弦相似性计算可知，用户1和用户3的相似性为0.6，用户6与表 1 用户 -电影打分表动作片爱情片恐怖片 A B C D E F G H

11、 I 1 1 1 1 1 1 2 1 1 1 3 1 1 1 1 1 4 1 1 1 5 1 1 1 6 1 1 1 1 1 7 1 1 1 8 1 1 1 9 1 1 1 10 1 1 1 1 1 用户10的相似性为0.6，用户1与用户10的相似性也为0.6。考虑到用户的兴趣偏好，相比于需要计算用户在所有向量维度下的相似性，只计算用户间在他们共同兴趣所对应的维度下的相似性是更合理的做法。为了发现用户兴趣偏好，需要用到联合聚类方法。联合聚类13-15是将具有类似属性的内容聚集在一起的无监督机器学习方法，能够解决基于维度子集的顶点聚类问题。对用户-产品打分矩阵进行联合聚类分析，可以发现哪些用户

12、在什么产品集合下是相似的，这些产品的集合就代表了用户的偏好。在聚类结果的基础上计算用户间基于产品子空间的相似性，不但能得到更合理的相似性结果，还能部分解决打分矩阵过于稀疏的问题。在大数据时代，可获取的数据种类繁多。除了用户对产品的评分外，还可能得到用户的社交网络信息、用户个人特征信息、用户所处位置等信息。可以利用这些属性信息分析解释聚类结果，提取同一类中用户的共同特征，认为可能是这些共同特征使得他们对这一类产品有所偏好。共同的属性特征可以作为给新用户推荐产品的依据，以缓解冷启动问题。本文认为用户的兴趣是有偏好的，通过对用户-产品打分矩阵联合聚类，挖掘出用户对不同产品的偏好，定义用户之间基于

13、偏好的相似性，继而产生推荐。当可用数据还包括用户属性时，算法可进一步扩展。提取有共同偏好的用户之间的公共属性，作为社团特征。在为用户推荐产品时，可结合用户属性与社团特征的匹配程度产生推荐。本文第2节介绍基于联合聚类的协同过滤推荐算法。第3节对算法进行扩展，提出基于联合聚类与用户特征提取的协同过滤推荐算法。第4节分析实验结果，第5节给出结论和下一步的研究工作方向。 2 基于联合聚类的协同过滤推荐算法 2.1 网络构建本文将用户-产品打分矩阵构建成一个二部图。在一个由m个用户和n个产品构成的推荐系统中，将代表用户的顶点集合表示为12,mUuu u ，代表产品的顶点集合表示为12, , , nI

14、ii i 。初始时，所有的点都是孤立的。如果存在用户iu对产品ji的打分ijr，就在顶点iu和顶点ji之间连接一条边。联合聚类问题就转换为二部图社团发现问题。万方数据854 情报学报第36卷 2.2 二部图社团检测目前针对二部图的社团检测算法不是很多，已有算法通常是对经典社团检测算法的扩充。Barber16将Newman等17提出的模块性指标扩展到二部图中，而这类二部图社团检测算法得到网络的划分，不能发现重叠社团。Lehmann等18通过定义二分圈，将CPM算法19扩展到了二部图中，而与CPM类似，由于对社团结构有较严格的定义，导致很多顶点被丢弃。本文认为二部图中的一条边代表一次

15、选择行为，两条边的相似度代表了两个选择行为的相似度，相似的选择行为的集合就构成了一组用户的兴趣偏好，于是问题转化为相似边的聚类。Ahn等20提出了基于边的社团检测算法，可以很容易地扩展到二部图中。二部图中边ike与jke的相似性定义为： (, ) () ()/ () ()ik jkSe e Ni N j Ni N j （1）其中，()Ni表示顶点i的邻居集合。基于边的相似性，利用单链接分层聚类，可以得到一个分层树。为了确定切割分层树的层次，Ahn提出了两个概念：边密度与划分密度。二部图社团的边密度定义为： (1) (2)(1) (2) (1) (2)1( )22 1)cccccc c cmn

16、nDnn n n- -（2）其中，cm表示社团c中边的数目，(1)cn和(2)cn分别表示社团c中第一类顶点和第二类顶点的个数。整个二部图的划分密度是每个社团密度的加权平均，定义为： 12ccD MmD-（3）其中，M代表二部图的边数。从拓扑结构的角度来看，使得划分密度D最大的层次是最优的切割分层树的层次。虽然在D最大的层次上切割分层树能得到拓扑上的最优社团结构，但这仅仅作为参考，不是切割分层树的唯一选择。在不同的层次上切割分层树，可以得到不同层次的二部图社团划分，真正有意义的社团划分也可能位于最优划分层次之上或者之下。 2.3 用户相似性定义将检测到的所有二部图社团标记为1( , )k

17、iiiCUI，这里k代表找到的社团数。(,)iiicUI代表找到的第i个社团，iUU，表示该社团中的用户集合，iI I ,表示该社团中的产品集合。能够聚在一类说明iU中的用户对iI中的产品是有兴趣偏好的。例如，检测到社团234 136243( , , , , , , , )cuuuiiiii，说明用户234,uuu对产品1362433, ,iiii i的打分是相似的。基于社团检测的结果，我们定义用户间的偏好相似性。假设检测到一个二部图社团(,)iiicUI，用户,piqiuUuU ，piuIPerfer向量代表用户pu对iI中产品的打分构成的向量，用户pu与qu基于产品集合iI的相似性(,)

18、iIpqSuu即是用户pu与qu的偏好相似性，定义为向量piuIPerfer与向量qiuIPerfer的相似性，本文使用向量间的余弦相似性。当两个用户处在同一个社团中，且需打分的产品也在该社团中时，计算用户间的偏好相似性是有意义的。如需评判用户对没有明显偏好的产品的打分时，就需回归到传统协同过滤计算相似性的方法。为了区别于偏好相似性，将其称为全局相似性。用户pu与qu的全局相似性(,)pqSu u定义为用户pu对所有产品的打分向量和用户qu对所有产品的打分向量之间的相似性。 2.4 基于联合聚类的协同过滤推荐算法在预测用户iu对产品ji的得分时，首先判断用户iu与产品ji是否属于同一个二部

19、图社团。如果属于同一个社团，说明用户iu对产品ji是有偏好的，则利用用户iu与该社团中其他用户的偏好相似性来计算打分ijr。如果用户iu与产品ji不在同一个社团里，则利用用户iu与全部用户的全局相似性来计算打分ijr。基于联合聚类的协同过滤推荐算法完整步骤如下：输入：用户打分矩阵mnR，用户iu，产品ji；输出：用户iu对产品ji的打分ijr。步骤：（1）将打分矩阵mnR转换为二部图；（2）利用基于边的社团检测算法检测二部图社团，得到二部图社团集合1, , kCc c ；（3）若存在社团(,)g ggcUI，使得,iguU j giI，计算 (, ) (, ) ggig igij

20、 I i i i j I i iuU uUr S uu r S uu （4）（4）如果用户iu和产品ji不在同一个社团中，计算 (, ) (, ) iiij ii ij iiuU uUr Suu r Suu （5）万方数据第8期王玙等：基于联合聚类与用户特征提取的协同过滤推荐算法 855 3 基于联合聚类与用户特征提取的协同过滤推荐算法在实际应用中，除了用户对产品的评分外，通常系统还会获取一些用户的属性信息，如用户的性别、年龄、职业、所在地、用户在其他网站的购买记录、用户常用标签等。在已知聚类结果的前提下，分析同一个社团中用户的属性，提取他们的共同特征，可以解释他们聚为一类的可能原因

21、也许是因为用户自身的这些共同属性让他们都喜欢这一类产品。当为其他用户推荐产品时，如果他符合这些特征，那么他有可能也喜欢这一类产品。 3.1 用户属性表示我们把系统能够收集到的所有用户属性信息集成到一个树形结构中，称为属性树，图1是属性树的示意图。在这个属性树的例子中，显示的属性包括用户注册时填写的年龄、职业、偏好类型等信息和用户评价产品的常用标签。常用标签可以反映用户的兴趣，如对电影疯狂动物城标注“励志”的用户和标注“搞笑”的用户，他们的兴趣点不同。属性树的叶子节点表示至少有一个用户具有这种属性。利用属性树，每个用户的属性信息都可以用向量表示，向量长度与叶子数相等。当用户具有某个叶子节点

22、描述的属性时，就将该用户属性向量的对应位置置为1，反之置为0。例如，用户iu是年轻的学生，注册时填写喜爱的电影类型是动作片和恐怖片，常用标签为“励志”，那么用户iu的属性向量为( ) (100001011010)iattribute u 。 3.2 社团特征提取在一个二部图社团中，如果某个属性在该社团用户中的出现频率显著大于该属性在全部用户中的出现频率，认为该属性是这个社团的一个特征。提取二部图社团中的所有显著属性，作为社团特征。利用属性树，社团特征也表示为向量形式：如具备该属性，则向量的对应分量为1，反之为0。以图1属性树为例，如果一个社团ic中，大部分用户都是常用“励志”作为标签的年轻人

23、，则该社团的社团特征为( ) (100000000010)iattribute c 。图1 属性树示意图 3.3 基于社团特征的属性相似性定义当用户的打分记录很少、甚至没有，即面临“冷启动”问题时，可以借助用户属性信息产生推荐。计算用户与社团之间的属性相似性，将相似性高的社团中的产品推荐给用户。我们把用户iu与社团gc之间的属性相似性(, )aigSuc定义为向量()gattribute c与向量() ( )igattribute u attribute c之间的相似性。即只关心用户是否具备社团特征中的相应属性，相同的属性数目越多，用户与该社团的属性相似性越大。 3.4 基于联合聚类与

24、用户特征提取的协同过滤推荐算法属性相似性是打分相似性的补充，当为有较多打分记录的用户推荐产品时，应该以打分相似性为主。如果用户iu与产品ji属于同一个二部图社团，说明用户iu对该社团内的产品已经做出足够多的选择，在预测用户iu对产品ji的得分时，仅考虑偏好相似性即可。如果用户iu与产品ji不在同一个社团里，产品ji属于社团gc，结合用户iu与全部用户的全局相似性和用户iu与社团gc的属性相似性来计算万方数据856 情报学报第36卷打分ijr。全局相似性和属性相似性所占比重由用户iu选择过的产品总数()idu决定。基于联合聚类与用户特征提取的协同过滤推荐算法完整步骤如下：输入：用

25、户打分矩阵mnR，所有用户的属性向量，用户iu，产品ji；输出：用户iu对产品ji的打分ijr。步骤：（1）将打分矩阵mnR转换为二部图；（2）利用基于边的社团检测算法对二部图聚类，得到二部图社团集合1, , kCc c ；（3）如果存在社团(,)g ggcUI，使得iu ,g jgUi I，计算 (, ) (, ) ggig igij I i i i j I i iuU uUr S uu r S uu（6）（4）如果用户iu和产品ji不在同一个社团中，产品ji属于社团gc，提取用户属性()iattribute u和社团特征()gattribute c；（5）计算用户iu与社团g

26、c之间的属性相似性(, )aigSuc，计算社团gc中的用户对产品ji的平均打分()gcjavg i，计算 1 (, ) ()()111(,)(,)()1 - giiij a i g c jiii ij iiuU uUirSucaviduSu u r Su udu（7） 4 实验结果与分析 4.1 实验数据本文使用MovieLens站点提供的公开数据集21。该站点由美国Minnesota大学的GroupLens研究小组创建并维护，通过用户对电影的评分进行电影推荐，是目前信息推荐算法测试的标准数据集。截至当前，该站点公布了4组基准数据集。第一组数据集发布于1998年4月，包含1000位用户对1

27、700部电影的100000条评分数据，以及用户的性别、年龄、职业等信息；第二组数据集发布于2003年2月，包含6000位用户对4000部电影的1000000条评分数据；第三组数据集发布于2009年1月，包含72000位用户对10000部电影的10000000条评分和100000个标签数据；第四组数据集发布于2015年4月，包含138000位用户对27000部电影的20000000条评分和465000个标签数据。本文实验使用1998年4月公布的数据集验证算法。实验中将数据集分为训练集和测试集，采用10折交叉验证法测试算法有效性。 4.2 评价指标（1）平均绝对误差平均绝对误差（MAE）22

28、通过计算用户的预测打分与实际评分之间的偏差来度量预测的准确性。MAE值越小，推荐质量越高。假设在测试集中，用户对产品的真实打分集合为12, , , Nrr r，利用训练集计算得到的预测得分为12 , , , Nrr r，则MAE定义为： 1MAE-NiiirrN（8）（2）查准率和查全率查准率（P）和查全率（R）也是评价推荐系统的常用指标23。由于通常用户只关心推荐排名靠前的产品，如top10，所以仅针对排名前K的产品，计算查全率和查准率。将系统中某个用户真正喜欢的产品数标记为lN，算法推荐给用户的前K个产品中用户真正喜欢的产品数标记为rlN，则查准率定义为在算法推荐列表的前K个产品中，用

29、户真正喜欢的产品所占比率：/rlP NK，查全率定义为算法推荐列表前K位中用户喜欢的产品与系统中用户真正喜欢的所有产品的比率：/rl lRN N。MovieLens数据为5分制，在实验中认为35分是用户喜欢的产品，12分是用户不喜欢的产品。本文实验K的取值为10。 4.3 实验结果（1）基于联合聚类的协同过滤推荐算法的实验结果实验比较了传统协同过滤算法CF、基于项类的协同过滤算法ICP、基于随机游走的协同过滤算法NCF与本文提出的基于联合聚类的信息推荐算法BCF在各种指标上的差异。结果如表2所示。表 2 4 种算法的 MAE 值、 P 值、 R 值比较 CF ICP NCF BCF MA

30、E 0.8415 0.8377 2.5890 0.8054 P 0.1000 0.1000 0.1246 0.1323 R 0.1172 0.1180 0.1479 0.1586 实验结果显示，本文算法在各个指标上均优于其他算法。需要说明的是，基于随机游走的协同过万方数据第8期王玙等：基于联合聚类与用户特征提取的协同过滤推荐算法 857 滤算法强调推荐结果的排序，不侧重打分的准确性，所以该算法的MAE值很低。（2）基于联合聚类与用户特征提取的协同过滤推荐算法的实验结果在基于联合聚类与用户特征提取的协同过滤推荐算法中，预测打分时需要结合用户之间基于打分的相似性和用户与社团间基于属性的相似

31、性。用户打过分的产品越多，产生推荐时基于打分的相似性所占比重越大；当给没有选择过任何产品的新用户推荐产品时，仅使用属性相似性也可以计算预测得分。实验使用用户年龄、性别、职业、喜爱电影类型构建用户属性树。算法检测到257个社团，去除没有明显特征的社团和特征数少于5的社团后，得到162个有明显特征的社团。社团特征可以帮助系统为用户推荐信息，例如，在实验找到的一个社团中，大部分用户都在5060岁，职业主要是科学家和作家，喜欢的电影类型是纪录片和推理片，当新用户是一个50多岁的作家，且注册时填写喜欢纪录片和推理片时，可以尝试为其推荐该社团中打分较高的电影。为了说明属性相似性与打分相似性的相关性，实

32、验随机1000次选择用户对(, )ijuu，以iu与ju之间的打分相似性作为横坐标，ju所在社团与iu之间的属性相似性作为纵坐标，得到图2。由图2可以看出，虽然基于属性的相似性整体上高于基于打分的相似性（因为属性向量的维度远小于打分向量的维度），但它们是正相关的，两种相似性的皮尔森相关系数是0.4720，属于中等程度相关。当打分相似性缺失时，用属性相似性作为补充是合理的选择。图2 属性相似性与打分相似性的相关性为了验证推荐算法在打分矩阵极度稀疏的情况下的推荐效果，我们在训练集中随机选择了50位用户，分别删除这些用户已知打分的0%、5%、10%、20%、40%、60%和80%（对应于二部图就

33、是删去相应比例的边），计算他们在不同算法下得到的MAE、P和R值。实验重复100次后，各指标取平均值。图3展示了三种算法在不同条件下的MAE值，由于基于随机游走的协同过滤算法侧重排名，其MAE值没有意义，因此不列入比较范围。如图3所示，本文算法的MAE值随着打分的删除逐渐增大，但在同等条件下均优于传统协同过滤算法。基于项类的协同过滤算法的MAE值最初高于本文算法，但该值随着打分的删除基本没有变化，但这并不是一个好的现象，说明基于项类的相似性敏感性太弱。图3 3种算法的MAE值比较图4和图5分别为本文算法和基于随机游走的协同过滤算法在不同条件下的P值和R值（另外两种算法的P值和R值在很多次的

34、计算结果中为0，不列入比较范围）。可以看到，在绝大多数条件下，本文算法的查全率和查准率都占优，但随着删边比图4 2种算法的P值比较图5 2种算法的R值比较万方数据858 情报学报第36卷例的增多，其衰减速度更快。这说明属性相似性不能完全代替打分相似性。图4和图5中一个有趣的现象是相同算法的P值与R值走势几乎完全一致，R值总是更大一些，这是实验数据本身的特点导致的。在实验所用测试集中，每位用户对10部电影打分，而近80%的用户喜欢8部或9部电影。在分子相同的情况下，计算P值时的分母为10，计算R值时的分母在绝大部分情况下都是8或9，因此P值和R值的变化趋势十分相近，在本文实验结

35、果中，P值与R值之比保持在0.85左右。各种指标的对比结果表明，本文算法的综合推荐效果优于其他算法。 5 总结与展望本文考虑用户偏好，提出了基于联合聚类的协同过滤推荐算法。算法利用基于边的社团检测识别用户偏好，定义了基于偏好的相似性，若待推荐产品属于用户偏好集合，利用偏好相似性预测用户对该产品的打分，否则利用传统协同过滤的相似性来预测用户的打分。当推荐系统还能够获得用户属性信息时，该算法进一步扩展。提取有共同偏好的用户们的属性信息，定义了基于属性的相似性，再结合属性相似性与打分相似性，为用户产生推荐。最后用MovieLens数据集验证推荐算法的准确性，实验结果表明与其他算法相比，我们的算法能

36、够处理极度稀疏数据，且预测的打分更加准确，推荐排名靠前的电影更受用户喜爱。在接下来的工作中，我们准备考虑产品的属性，结合基于内容的推荐算法，提高推荐精度。参考文献 1 Borchers A, Herlocker J, Konstan J, et al. Ganging up on infor-mation overloadJ. Computer, 1998, 31(4): 106-108. 2 Resnick P, Varian H R. Recommender systemsJ. Communica-tions of the ACM, 1997, 40(3): 56-58. 3 S

37、chafer J B, Konstan J A, Riedl J. E-commerce recommendation applicationsJ. Applications of Data Mining to Electronic Com-merce, 2001, 5(1): 115-153. 4 刘建国, 周涛, 汪秉宏. 个性化推荐系统的研究进展J. 自然科学进展, 2009, 19(1): 1-15. 5 L L Y, Medo M, Yeung C H, et al. Recommender systemsJ. Physics Reports, 2012, 519(1): 1-49.

38、 6 Resnick P, Iacovou N, Suchak M, et al. GroupLens: an open architecture for collaborative filtering of netnewsC/Proceedings of the 1994 ACM Conference on Computer Supported Coopera- tive Work. New York: ACM Press, 1994: 175-186. 7 Konstan J A, Miller B N, Maltz D, et al. GroupLens: applying collab

39、orative filtering to usenet newsJ. Communications of the ACM, 1997, 40(3): 77-87. 8 冷亚军, 陆青, 梁昌勇. 协同过滤推荐技术综述J. 模式识别与人工智能, 2014, 27(8): 720-734. 9 Liu J G, Shi K R, Guo Q. Solving the accuracy-diversity dilemma via directed random walksJ. Physical Review E, Statistical, Nonlinear, and Soft Matter Phy

40、sics, 2012, 85(1): 016118. 10 Choi K, Suh Y. A new similarity function for selecting neighbors for each target item in collaborative filteringJ. Knowledge-Based Systems, 2013, 37: 146-153. 11 Kaleli C. An entropy-based neighbor selection approach for col-laborative filteringJ. Knowledge-Based System

41、s, 2014, 56: 273-280. 12 冷亚军, 梁昌勇, 张恩桥, 等. 基于项类偏好的协同过滤推荐算法J. 情报学报, 2011, 30(7): 714-720. 13 Madeira S C, Oliveira A L. Biclustering algorithms for biological data analysis: a surveyJ. IEEE/ACM Transactions on Computa-tional Biology and Bioinformatics, 2004, 1(1): 24-45. 14 Dhillon I S. Co-clustering

42、 documents and words using bipartite spectral graph partitioningR. Austin: University of Texas at Austin, 2001. 15 Dhillon I S, Mallela S, Modha D S. Information-theoretic co- clusteringC/Proceedings of the Ninth ACM SIGKDD Interna-tional Conference on Knowledge Discovery and Data Mining. New York:

43、ACM Press, 2003: 89-98. 16 Barber M J. Modularity and community detection in bipartite networksJ. Physical Review E, Statistical, Nonlinear, and Soft Matter Physics, 2007, 76(6): 066102. 17 Newman M E, Girvan M. Finding and evaluating community structure in networksJ. Physical Review E, Statistical,

44、 Nonlinear, and Soft Matter Physics, 2004, 69(2): 026113. 18 Lehmann S, Schwartz M, Hansen L K. Biclique communitiesJ. Physical Review E, Statistical, Nonlinear, and Soft Matter Phys-ics, 2008, 78(1): 016108. 19 Palla G, Dernyi I, Farkas I, et al. Uncovering the overlapping community structure of co

45、mplex networks in nature and soci-etyJ. Nature, 2005, 435(7043): 814-818. 20 Ahn Y Y, Bagrow J P, Lehmann S. Link communities reveal multis-cale complexity in networksJ. Nature, 2010, 466(7307): 761-764. 21 MovieLens website. EB/OL. http:/movielens.org. 22 Billsus D, Pazzani M J. Learning collaborat

46、ive information fil-tersC/Proceedings of the Fifteenth International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers, 1998: 46-54. 23 Zhou T, Jiang L L, Su R Q, et al. Effect of initial configuration on network-based recommendationJ. Europhysics Letters, 2008, 81(5): 58004. （责任编辑马兰）万方数据

展开阅读全文