语境
该数据集由三个文件组成:一个包含行为数据的文件 (events.csv)、一个包含项目属性的文件 (item properties.сsv) 和一个描述类别树的文件 (category tree.сsv)。数据是从现实世界的电子商务网站收集的。它是原始数据,即没有任何内容转换,但是,由于机密问题,所有值都经过哈希处理。发布的目的是激发具有隐式反馈的推荐系统领域的研究。
内容
行为数据,即点击、添加到购物车、交易等事件,代表在 4.5 个月内收集的交互。访问者可以进行三种类型的事件,即“查看”、“添加到购物车”或“交易”。总共有 2 756 101 个事件,包括 2 664 312 次观看、69 332 次添加到购物车和 1 407 580 名独立访客产生的 22 457 次交易。对于大约 90% 的事件,可以在“item_properties.csv”文件中找到相应的属性。
例如:
- “1439694000000,1,view,100”表示visitorId = 1,在1439694000000(Unix时间戳)点击id = 100的项目
- “1439694000000,2,transaction,1000,234”表示visitorId = 2购买了id = 1000的物品,交易id = 234 at 1439694000000(Unix时间戳)
带有项目属性的文件 (item_properties.csv) 包括 20 275 902 行,即不同的属性,描述了 417 053 个唯一项目。由于文件大小限制,文件被分为 2 个文件。由于项目的属性可能随时间变化(例如,价格随时间变化),文件中的每一行都有对应的时间戳。换句话说,该文件由文件中每周的连接快照和行为数据组成。但是,如果项目的属性在观察期内保持不变,则文件中将只存在一个快照值。
例如,我们有单个项目的三个属性和 4 个每周快照,如下所示:
timestamp,itemid,property,value
1439694000000,1,100,1000
1439695000000,1,100,1000
1439696000000,1,100,1000
1439697000000,1,100,1000
1439694000000,1,200,1000
1439695000000,1,200,1100
1439696000000,1,200,1200
1439697000000,1,200,1300
1439694000000,1,300,1000
1439695000000,1,300,1000
1439696000000,1,300,1100
1439697000000,1,300,1100
致谢
Retailrocket(retailrocket.io)通过多个渠道提供个性化的实时推荐,帮助网络购物者做出更好的购物决策,每月独立用户超过 100 MM,在全球拥有 1000 多个零售合作伙伴。
官方地址:https://www.kaggle.com/retailrocket/ecommerce-dataset
数据使用声明:
一、数据来源与展示说明:
1、该数据来自于互联网数据采集或服务商的提供,本平台为用户提供数据集的展示与浏览。
2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
3、数据集基本信息来自数据原地址或数据提供方提供的信息,如数据集描述中有描述差异,请以数据原地址或服务商原地址为准。
二、所有权说明:
1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。
三、数据转载说明:
1、如您需要转载本站数据,请保留原数据地址及相关版权声明。
四、侵权与处理说明:
1、如本站中的部分数据涉及侵权展示,请及时联系本站,我们会安排进行数据下线。