数据集商城 Dataset Marketplace
共 22 个高质量数据集,覆盖多个行业领域 22 high-quality datasets across multiple industries
社交网络中的意见动态
了解用户如何通过与社交网络中的朋友和邻居的互动来形成和更新他们的意见是在线广告、推荐和营销应用程序的一个基本问题。在我们的研究中,我们使用 Amazon Mechanical Turk 进行了广泛的用户研究,作为其中的一部分,我们测量了参与者对汽车和汽水品牌、绿色能源、有机食品等各种主题的采用和意见变化。实验包括以下步骤1. 要求用户就给定的主题给出她天生的(开始的)意见。2. 向她展示一组参与实验的其他用户的意见。3. 再次询问她对这个话题的看法。这些是匿名用户,数量约为 200。
FIRE 视网膜眼底病变图像数据
FIRE 是一个视网膜眼底图像数据集,包含 129张 眼底视网膜图像,由不同特征组合成 134对 图像组合。这些图像组合根据特质被划分为3类。眼底图像由 Nidek AFC-210 眼底照相机采集,分辨率为2912x2912,视觉仰角为40度。图像由 Papageorgiou Hospital 医院和Aristotle University of Thessaloniki大学共同构建,由于Thessaloniki 大学采集自39名患者。
JRC Names各国语言专有实体名称
JRC Names 是一个跨语言实体名称语料库,该语料库包含了大量跨语言人名和组织名称(称之为“实体”),包括不同语言的实体名称,包括汉语、英语、拉丁语、希腊语、阿拉伯语、斯拉夫语、日本语等。2016年之后,JRC Names还关联了其它附加信息,如每个实体在每种语言中出现的频率和时间段等。
Crowd Segmentation 高密度人群视频数据
Crowd Segmentation Dataset 是一个高密度人群和移动物体视频数据,视频来自BBC Motion Gallery 和 Getty Images 网站。
Sinhala TTS 语音识别数据
Sinhala TTS 是一个高质量僧伽罗语语音识别数据,由谷歌工作人员在斯里兰卡收集。
ReDial 数据集(推荐对话)
ReDial(推荐对话)是一个带注释的对话数据集,用户可以在其中相互推荐电影。该数据集由蒙特利尔理工学院、MILA 魁北克人工智能研究所、微软蒙特利尔研究院、蒙特利尔 HEC 和 Element AI 的一组研究人员收集。
Microsoft Research 顺序问答 (SQA) 数据集
最近在问答语义解析方面的工作集中在冗长而复杂的问题上,如果在两个人之间的正常对话中询问,其中许多问题似乎不自然。为了探索对话式 QA 设置,我们提出了一个更现实的任务:回答一系列简单但相互关联的问题。我们通过要求众包工作人员分解来自 WikiTableQuestions (WTQ) 的 2,022 个问题来创建 SQA,其中包含关于来自 Wikipedia 的表格的高度组合问题。我们让三名工作人员分解每个 WTQ 问题,得到一个包含 6,066 个序列的数据集,总共包含 17,553 个问题。每个问题还与表格中单元格位置形式的答案相关联。
FB15K-237 知识库完成
该数据集包含知识库关系三元组和 Freebase 实体对的文本提及,如 (Toutanova and Chen CVSM-2015) 和 (Toutanova et al. EMNLP-2015) 中发表的工作所使用。知识库三元组是 FB15K 集(Bordes 等人,NIPS-2013)的一个子集,最初源自 Freebase。文本提及来自 ClueWeb12 语料库中的 2 亿个句子以及 FACC1 Freebase 实体提及注释。可以在随附的自述文件中找到更多详细信息。
MSR GPS 隐私
微软研究人员约翰克鲁姆和他的合作者从华盛顿西雅图地区的 21 名携带 GPS 接收器的人那里收集了 GPS 数据。提供数据的用户同意在删除某些地理区域后共享数据。这涵盖了 GPS 数据隐私保护的关键研究,如相应论文“探索位置混淆的最终用户偏好、基于位置的服务和位置的价值”,第十二届 ACM 无处不在计算国际会议(UbiComp 2010),九月2010 年 2 月 26 日至 30 日。该论文已被引用数十次,其中包括以这项重要工作为基础的研究,以进一步推动基于位置的服务提供商的地理隐私保护领域。
Geolife GPS轨迹数据集
这个 GPS 轨迹数据集是在(微软亚洲研究院)Geolife 项目中由 178 位用户在四年多的时间(2007 年 4 月至 2011 年 10 月)收集的。该数据集的 GPS 轨迹由一系列带时间戳的点表示,每个点都包含纬度、经度和高度的信息。该数据集包含 17,621 条轨迹,总距离为 1,251,654 公里,总持续时间为 48,203 小时。这些轨迹由不同的 GPS 记录器和 GPS 电话记录,并且具有多种采样率。91% 的轨迹记录在密集表示中,例如每 1~5 秒或每点每 5~10 米。该数据集记录了广泛的用户户外运动,不仅包括回家上班等日常生活,还包括一些娱乐和体育活动,如购物、观光、餐饮、徒步旅行和骑自行车。该轨迹数据集可用于许多研究领域,例如移动模式挖掘、用户活动识别、基于位置的社交网络、位置隐私和位置推荐。
MSR 3D 视频数据集
该数据包括从 8 个摄像机拍摄的 100 张图像序列,这些图像显示了论文“使用分层表示的高质量视频视图插值”中的霹雳舞和芭蕾舞场景,Zitnick 等人,SIGGRAPH 2004。根据立体图计算的深度图是还包括每个相机以及校准参数。
数字孪生
Human3.6M数据集,即50万张3D人体姿态数据。
SWU医疗图像数据
从某医院采集了真实的阀门基础数据、胸片、肠炎照片等脱敏数据3000条。
钢产品数据集
钢筋的图片和标定数据。
城管监控视频数据库
市政施工、道路休整、窨井施工等实际场景的图片数据,某区城市管理局构建的城管监控视频数据
安防监控
Set5、Set14、B100、Urban100和Manga109五个超分辨重建研究的常用数据集。
阀门故障诊断的数据集
阀门故障诊断的数据集
水运码头监测数据
水运码头监测数据
数据中心运维数据
包括某大型数据中心,服务器、网络设备和存储设备等基础架构系统的日常运维数据,包括异常错误、运行环境日志等日志型数据
消费行为脱敏数据
包括某金融服务系统中脱敏后的业务数据;场景环境为某大型商业综合设施内金融服务流量日志等脱敏数据。
高能耗冶炼数据
某硅钢冶炼炉连续2个月的冶炼数据,包括电耗功率,投料数量,产出物成分分析,投料时间记录等冶炼工艺流程相关数据
光伏绿电运行数据
北纬31度附近某光伏电站连续12个月的运行数据,包括不同时段的发电出力数据,所有逆变设备端的电压、电流数据。
没有找到匹配的数据集No datasets found