转至内容
转至导航栏
转至主菜单
转至动作菜单
转至快速搜索

跳到banner的尾部回到标题开始

数据挖掘 – 相似集计算(LSH)

转至元数据结尾

由同芮瑶创建, 最后修改于一月 19, 2022

转至元数据起始

概述

使用训练好的LSH模型，对两份数据中的向量进行相似度匹配，把相似度距离低于预设阈值的组合输出到结果。

输入/输出

输入	三个输入端口，输入1接收训练好的LSH模型，输入2和3接收要进行匹配的数据。
输出	一个输出端口，用于输出匹配后的结果。

参数设置

参数名称	说明	备注
相似阈值	设置相似度距离阈值	距离低于阈值的组合才会被输出

示例

效果

分别接入LSH模型，数据1和数据2，其中数据1和数据2都已使用词向量模型对其文本进行转换。把相似阈值设为0.45，输出结果中返回了两份数据中所有相似度距离小于该阈值的组合，其中数据1中的列会被标记为datasetA，数据2中的列会被标记为datasetB，如下图：

注意事项

数据1和数据2中必须包含训练LSH模型时使用的列名。如下图，实验图中特征选择节点使用了 content_seg_words_filtered_wordToVec 列，进行LSH模型的训练，那么在相似集计算节点，会对两份数据中的对应列作相似度匹配。

无标签

基于 Atlassian Confluence 7.4.10 技术构建
由 Atlassian 合流7.4.10 打印
报告缺陷
Atlassian 新闻

产品介绍
大数据分析平台
数据化运营平台
大数据挖掘平台
SaaS分析云平台

产品服务
公司官网
体验中心
试用申请
在线咨询

其他版本Wiki
V10 帮助中心
V9 帮助中心
FAQ 中心
更多历史版本

关注我们

服务支持

文档反馈

文档反馈

鼠标选中内容，快速反馈问题