频道导航

如何在MySQL中有效地找到重复的blob行？

2019-05-14 MySQL 前端之家

前端之家收集整理的这篇文章主要介绍了如何在MySQL中有效地找到重复的blob行？，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我有一张表格

CREATE TABLE data
{
   pk INT PRIMARY KEY AUTO_INCREMENT,dt BLOB
};

它在blob列中有大约160,000行和大约2GB的数据(平均每个blob 14kb).另一个表在此表中有外键.

像3000个blob这样的东西是相同的.所以我想要的是一个查询,它将给我一个重新映射表,允许我删除重复项.

天真的方法在30-40k行上花了大约一个小时：

SELECT a.pk,MIN(b.pk) 
    FROM data AS a 
    JOIN data AS b
  ON a.dt=b.dt
  WHERE b.pk < a.pk
  GROUP BY a.pk;

出于其他原因,我碰巧有一个具有blob大小的表：

CREATE TABLE sizes
(
   fk INT,// note: non-unique
   sz INT
   // other cols
);

通过为sz构建fk和另一个的索引,直接查询需要大约24秒,每行50k行：

SELECT da.pk,MIN(db.pk) 
  FROM data AS da
  JOIN data AS db
  JOIN sizes AS sa
  JOIN sizes AS sb
  ON
        sa.size=sb.size
    AND da.pk=sa.fk
    AND db.pk=sb.fk
  WHERE
        sb.fk


然而,这是在da(数据表)上进行全表扫描.鉴于命中率应该相当低,我认为索引扫描会更好.考虑到这一点,添加了第三个数据副本作为第5个连接来获得它,并且丢失了大约3秒.
好的问题是：我会比第二次选择好得多吗？如果是这样,怎么样？
一个必然结果是：如果我有一个表,其中键列的使用非常繁重,但其余部分应该很少使用,我是否会更好地添加该表的另一个连接以鼓励索引扫描与完整表扫描？
#MysqL@irc.freenode.net上的Xgc指出,添加一个像size这样的实用程序表但在fk上有一个唯一约束可能会有很大帮助.一些有趣的触发器和什么不可能使它甚至不坏以保持最新.


最佳答案
您始终可以为数据使用散列函数(MD5或SHA1),然后比较散列.
问题是你是否可以在数据库中保存哈希值？
 原文链接：https://www.f2er.com/mysql/433307.html


      blob
      
                 
        上一篇：MySQL中的两列主键下一篇：无法在Windows 10上的MySQL 8.x中设


          
          
          
            
              


            
          

          
            
              
                  
    猜你在找的MySQL相关文章

                                    Mysql通过frm和ibd恢复数据库
                                昨天的考试过程中，有个考点的服务器蓝屏重启后发现Mysql启动不了(5.6.45 x32版本，使用in...
                                作者：踏平扶桑 时间：2024-09-29
                                
                            

                                    MySQL 数据库中的数据类型
                                整数类型 标准 SQL 中支持 INTEGER 和 SMALLINT 这两种类型，MySQL 数据库除了支持这两种类...
                                作者：低吟不作语 时间：2024-09-28
                                
                            

                                    MySQL Select 语句执行顺序
                                一条 SQL 查询语句结构如下： SELECT DISTINCT &lt;select_list&gt; FROM &lt...
                                作者：低吟不作语 时间：2024-09-28
                                
                            

                                    MySQL 数据备份与恢复
                                数据备份 1. 备份数据库 使用 mysqldump 命令可以将数据库中的数据备份成一个文本文件，表...
                                作者：低吟不作语 时间：2024-09-28
                                
                            

                                    MySQL 大表拆分
                                概述 在实际工作中，在关系数据库（MySQL、PostgreSQL）的单表数据量上亿后，往往会出现查...
                                作者：低吟不作语 时间：2024-09-28
                                
                            




                                    MySQL 索引详解
                                索引的含义和特点 索引是创建在表上的，是对数据库表中一列或多列的值进行排序的一种数据结...
                                作者：低吟不作语 时间：2024-09-28
                                
                            

                                    MySQL 索引失效场景总结
                                查询条件有 or 假设在 customer_name 字段设置了普通索引，执行以下 sql： # type: ref, p...
                                作者：低吟不作语 时间：2024-09-28
                                
                            

                                    MySQL 主从复制
                                概述 MySQL 的高可用主要通过主从复制来实现，同时在主从复制的基础上可以构建一个 MySQL ...
                                作者：低吟不作语 时间：2024-09-28
                                
                            

                                    MySQL 日志管理
                                概述 日志文件记录 MySQL 数据库运行期间发生的变化，当数据库遭到意外的损害时，可以通过...
                                作者：低吟不作语 时间：2024-09-28
                                
                            

                                    MySQL 事务和锁
                                事务概述 当多个用户访问同一份数据时，一个用户在更改数据的过程中，可能有其他用户同时发...
                                作者：低吟不作语 时间：2024-09-28


        
        
        
        
          
          
            
              
                编程分类
                MySQLMsSQLOracleSqlitePostgre SQLMariadbMongoDBNoSQLHBaseJDBC
                
              
            
          
          
         
          
            
               



              
            
          
          
          
          
          
            
              
                最新文章
                • Mysql通过frm和ibd恢复数据
• MySQL 数据库中的数据类型
• MySQL Select 语句执行顺序
• MySQL 数据备份与恢复
• MySQL 大表拆分
• MySQL 触发器
• MySQL 索引详解
• MySQL 索引失效场景总结
• MySQL 主从复制
• MySQL 日志管理

              
            
          
          


          
          
            
              
                热门标签
                  
                    更多 ►
                
                undo日志persistent-cmysql-error-postal-codesql-match-almysql-5.6mysql-8.0database-tri安装路径系统错误data_dir丢失文件主从同步sql_mode数据库目录匿名用户character_seID归零数据库位置查询表重复字段查询字段截断日志SUSPECT7391Remote ServeLinked Serve玄学问题登录不上开启远程访问



     
    
        
             
                最近更新
· jQuery选择伪元素：after10-20
· JavaScript随机颜色生成器10-20
· JavaScript指数10-20
· addResourceHandlers无法解析静态资源10-20
· 如何将字节数组转换为MultipartFile10-20
· 在java中如何创建一个文件并写入内容？10-20
· 星号*在Python中是什么意思？10-20
· Flask框架：MVC模式10-20
· 在JavaScript对象数组中按ID查找对象10-20
· 使用Javascript / jQuery下载文件10-20

            
           
                好站推荐
 菜鸟教程
 编程之家
 前端之家

            
                商务合作
                联系我们
            

        
        
            Copyright © 2019 前端之家. 当前版本 V7.0.16

            前端之家 版权所有 
            闽ICP备13020303号-10