java – 在clojure中构建bloom过滤器时使用什么哈希技术?

我想在Clojure中构建一个bloom过滤器,但是对于基于JVM的语言可能可用的所有哈希库,我并不太了解.

在Clojure中我应该使用最快的(相对于最准确的)bloom地图实现?

解决方法

所以关于bloom过滤器的有趣的事情是,要有效地工作,他们需要多个哈希函数.

Java Struts已经有一个内置的哈希函数,可以使用 – String.hashCode()返回一个32位整数散列.对于大多数目的,这是一个好的哈希码,可能这是足够的:如果您将其分成2个独立的16位哈希码,例如,这可能足以让您的布隆滤镜工作.你可能会碰到一些碰撞,但这很好 – 绽放过滤器预计会有一些碰撞.

如果没有,你可能想要自己滚动,在这种情况下,我建议使用String.getChars()访问原始的char数据,然后使用它来计算多个哈希码.

Clojure代码让你开始(只是总结字符值):

(let [s "Hello"
      n (count s)
      cs (char-array n)]
  (.getChars s 0 n cs 0)
  (areduce cs i v 0 (+ v (int (aget cs i)))))
=> 500

注意使用Clojure的Java互操作调用getChars,并使用areduce给你一个非常快的迭代字符数组.

您可能也对我在Github:https://github.com/MagnusS/Java-BloomFilter上发现的Java bloom过滤器实现感兴趣.哈希码实现一目了然,但它使用一个字节数组,我认为比使用字符的效率要低一些,因为需要处理字符编码开销.

相关文章

ArrayList简介:ArrayList 的底层是数组队列,相当于动态数组。与 Java 中的数组相比,它的容量能动态增...
一、进程与线程 进程:是代码在数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位。 线程...
本文为博客园作者所写: 一寸HUI,个人博客地址:https://www.cnblogs.com/zsql/ 简单的一个类...
#############java面向对象详解#############1、面向对象基本概念2、类与对象3、类和对象的定义格式4、...
一、什么是异常? 异常就是有异于常态,和正常情况不一样,有错误出错。在java中,阻止当前方法或作用域...
Collection接口 Collection接口 Collection接口 Collection是最基本的集合接口,一个Collection代表一组...