]> git.lizzy.rs Git - rust.git/blob - src/libcollections/hash/sip.rs
485dc8c5959b74f3d5dae4650bd8451e8398fbcb
[rust.git] / src / libcollections / hash / sip.rs
1 // Copyright 2012-2014 The Rust Project Developers. See the COPYRIGHT
2 // file at the top-level directory of this distribution and at
3 // http://rust-lang.org/COPYRIGHT.
4 //
5 // Licensed under the Apache License, Version 2.0 <LICENSE-APACHE or
6 // http://www.apache.org/licenses/LICENSE-2.0> or the MIT license
7 // <LICENSE-MIT or http://opensource.org/licenses/MIT>, at your
8 // option. This file may not be copied, modified, or distributed
9 // except according to those terms.
10 //
11 // ignore-lexer-test FIXME #15883
12
13 /*!
14  * Implementation of SipHash 2-4
15  *
16  * See: http://131002.net/siphash/
17  *
18  * Consider this as a main "general-purpose" hash for all hashtables: it
19  * runs at good speed (competitive with spooky and city) and permits
20  * strong _keyed_ hashing. Key your hashtables from a strong RNG,
21  * such as `rand::Rng`.
22  *
23  * Although the SipHash algorithm is considered to be cryptographically
24  * strong, this implementation has not been reviewed for such purposes.
25  * As such, all cryptographic uses of this implementation are strongly
26  * discouraged.
27  */
28
29 use core::prelude::*;
30
31 use core::default::Default;
32
33 use super::{Hash, Hasher, Writer};
34
35 /// `SipState` computes a SipHash 2-4 hash over a stream of bytes.
36 pub struct SipState {
37     k0: u64,
38     k1: u64,
39     length: uint, // how many bytes we've processed
40     v0: u64,      // hash state
41     v1: u64,
42     v2: u64,
43     v3: u64,
44     tail: u64, // unprocessed bytes le
45     ntail: uint,  // how many bytes in tail are valid
46 }
47
48 // sadly, these macro definitions can't appear later,
49 // because they're needed in the following defs;
50 // this design could be improved.
51
52 macro_rules! u8to64_le (
53     ($buf:expr, $i:expr) =>
54     ($buf[0+$i] as u64 |
55      $buf[1+$i] as u64 << 8 |
56      $buf[2+$i] as u64 << 16 |
57      $buf[3+$i] as u64 << 24 |
58      $buf[4+$i] as u64 << 32 |
59      $buf[5+$i] as u64 << 40 |
60      $buf[6+$i] as u64 << 48 |
61      $buf[7+$i] as u64 << 56);
62     ($buf:expr, $i:expr, $len:expr) =>
63     ({
64         let mut t = 0;
65         let mut out = 0u64;
66         while t < $len {
67             out |= $buf[t+$i] as u64 << t*8;
68             t += 1;
69         }
70         out
71     });
72 )
73
74 macro_rules! rotl (
75     ($x:expr, $b:expr) =>
76     (($x << $b) | ($x >> (64 - $b)))
77 )
78
79 macro_rules! compress (
80     ($v0:expr, $v1:expr, $v2:expr, $v3:expr) =>
81     ({
82         $v0 += $v1; $v1 = rotl!($v1, 13); $v1 ^= $v0;
83         $v0 = rotl!($v0, 32);
84         $v2 += $v3; $v3 = rotl!($v3, 16); $v3 ^= $v2;
85         $v0 += $v3; $v3 = rotl!($v3, 21); $v3 ^= $v0;
86         $v2 += $v1; $v1 = rotl!($v1, 17); $v1 ^= $v2;
87         $v2 = rotl!($v2, 32);
88     })
89 )
90
91 impl SipState {
92     /// Create a `SipState` that is keyed off the provided keys.
93     #[inline]
94     pub fn new() -> SipState {
95         SipState::new_with_keys(0, 0)
96     }
97
98     /// Create a `SipState` that is keyed off the provided keys.
99     #[inline]
100     pub fn new_with_keys(key0: u64, key1: u64) -> SipState {
101         let mut state = SipState {
102             k0: key0,
103             k1: key1,
104             length: 0,
105             v0: 0,
106             v1: 0,
107             v2: 0,
108             v3: 0,
109             tail: 0,
110             ntail: 0,
111         };
112         state.reset();
113         state
114     }
115
116     /// Reset the state back to it's initial state.
117     #[inline]
118     pub fn reset(&mut self) {
119         self.length = 0;
120         self.v0 = self.k0 ^ 0x736f6d6570736575;
121         self.v1 = self.k1 ^ 0x646f72616e646f6d;
122         self.v2 = self.k0 ^ 0x6c7967656e657261;
123         self.v3 = self.k1 ^ 0x7465646279746573;
124         self.ntail = 0;
125     }
126
127     /// Return the computed hash.
128     #[inline]
129     pub fn result(&self) -> u64 {
130         let mut v0 = self.v0;
131         let mut v1 = self.v1;
132         let mut v2 = self.v2;
133         let mut v3 = self.v3;
134
135         let b: u64 = ((self.length as u64 & 0xff) << 56) | self.tail;
136
137         v3 ^= b;
138         compress!(v0, v1, v2, v3);
139         compress!(v0, v1, v2, v3);
140         v0 ^= b;
141
142         v2 ^= 0xff;
143         compress!(v0, v1, v2, v3);
144         compress!(v0, v1, v2, v3);
145         compress!(v0, v1, v2, v3);
146         compress!(v0, v1, v2, v3);
147
148         v0 ^ v1 ^ v2 ^ v3
149     }
150 }
151
152 impl Writer for SipState {
153     #[inline]
154     fn write(&mut self, msg: &[u8]) {
155         let length = msg.len();
156         self.length += length;
157
158         let mut needed = 0u;
159
160         if self.ntail != 0 {
161             needed = 8 - self.ntail;
162             if length < needed {
163                 self.tail |= u8to64_le!(msg, 0, length) << 8*self.ntail;
164                 self.ntail += length;
165                 return
166             }
167
168             let m = self.tail | u8to64_le!(msg, 0, needed) << 8*self.ntail;
169
170             self.v3 ^= m;
171             compress!(self.v0, self.v1, self.v2, self.v3);
172             compress!(self.v0, self.v1, self.v2, self.v3);
173             self.v0 ^= m;
174
175             self.ntail = 0;
176         }
177
178         // Buffered tail is now flushed, process new input.
179         let len = length - needed;
180         let end = len & (!0x7);
181         let left = len & 0x7;
182
183         let mut i = needed;
184         while i < end {
185             let mi = u8to64_le!(msg, i);
186
187             self.v3 ^= mi;
188             compress!(self.v0, self.v1, self.v2, self.v3);
189             compress!(self.v0, self.v1, self.v2, self.v3);
190             self.v0 ^= mi;
191
192             i += 8;
193         }
194
195         self.tail = u8to64_le!(msg, i, left);
196         self.ntail = left;
197     }
198 }
199
200 impl Clone for SipState {
201     #[inline]
202     fn clone(&self) -> SipState {
203         *self
204     }
205 }
206
207 impl Default for SipState {
208     #[inline]
209     fn default() -> SipState {
210         SipState::new()
211     }
212 }
213
214 /// `SipHasher` computes the SipHash algorithm from a stream of bytes.
215 #[deriving(Clone)]
216 pub struct SipHasher {
217     k0: u64,
218     k1: u64,
219 }
220
221 impl SipHasher {
222     /// Create a `Sip`.
223     #[inline]
224     pub fn new() -> SipHasher {
225         SipHasher::new_with_keys(0, 0)
226     }
227
228     /// Create a `Sip` that is keyed off the provided keys.
229     #[inline]
230     pub fn new_with_keys(key0: u64, key1: u64) -> SipHasher {
231         SipHasher {
232             k0: key0,
233             k1: key1,
234         }
235     }
236 }
237
238 impl Hasher<SipState> for SipHasher {
239     #[inline]
240     fn hash<T: Hash<SipState>>(&self, value: &T) -> u64 {
241         let mut state = SipState::new_with_keys(self.k0, self.k1);
242         value.hash(&mut state);
243         state.result()
244     }
245 }
246
247 impl Default for SipHasher {
248     #[inline]
249     fn default() -> SipHasher {
250         SipHasher::new()
251     }
252 }
253
254 /// Hash a value using the SipHash algorithm.
255 #[inline]
256 pub fn hash<T: Hash<SipState>>(value: &T) -> u64 {
257     let mut state = SipState::new();
258     value.hash(&mut state);
259     state.result()
260 }
261
262 /// Hash a value with the SipHash algorithm with the provided keys.
263 #[inline]
264 pub fn hash_with_keys<T: Hash<SipState>>(k0: u64, k1: u64, value: &T) -> u64 {
265     let mut state = SipState::new_with_keys(k0, k1);
266     value.hash(&mut state);
267     state.result()
268 }
269
270 #[cfg(test)]
271 mod tests {
272     use test::Bencher;
273     use std::prelude::*;
274     use std::fmt;
275
276     use str::Str;
277     use string::String;
278     use slice::{Vector, ImmutableVector};
279     use vec::Vec;
280
281     use super::super::{Hash, Writer};
282     use super::{SipState, hash, hash_with_keys};
283
284     use MutableSeq;
285
286     // Hash just the bytes of the slice, without length prefix
287     struct Bytes<'a>(&'a [u8]);
288
289     impl<'a, S: Writer> Hash<S> for Bytes<'a> {
290         #[allow(unused_must_use)]
291         fn hash(&self, state: &mut S) {
292             let Bytes(v) = *self;
293             state.write(v);
294         }
295     }
296
297     #[test]
298     #[allow(unused_must_use)]
299     fn test_siphash() {
300         let vecs : [[u8, ..8], ..64] = [
301             [ 0x31, 0x0e, 0x0e, 0xdd, 0x47, 0xdb, 0x6f, 0x72, ],
302             [ 0xfd, 0x67, 0xdc, 0x93, 0xc5, 0x39, 0xf8, 0x74, ],
303             [ 0x5a, 0x4f, 0xa9, 0xd9, 0x09, 0x80, 0x6c, 0x0d, ],
304             [ 0x2d, 0x7e, 0xfb, 0xd7, 0x96, 0x66, 0x67, 0x85, ],
305             [ 0xb7, 0x87, 0x71, 0x27, 0xe0, 0x94, 0x27, 0xcf, ],
306             [ 0x8d, 0xa6, 0x99, 0xcd, 0x64, 0x55, 0x76, 0x18, ],
307             [ 0xce, 0xe3, 0xfe, 0x58, 0x6e, 0x46, 0xc9, 0xcb, ],
308             [ 0x37, 0xd1, 0x01, 0x8b, 0xf5, 0x00, 0x02, 0xab, ],
309             [ 0x62, 0x24, 0x93, 0x9a, 0x79, 0xf5, 0xf5, 0x93, ],
310             [ 0xb0, 0xe4, 0xa9, 0x0b, 0xdf, 0x82, 0x00, 0x9e, ],
311             [ 0xf3, 0xb9, 0xdd, 0x94, 0xc5, 0xbb, 0x5d, 0x7a, ],
312             [ 0xa7, 0xad, 0x6b, 0x22, 0x46, 0x2f, 0xb3, 0xf4, ],
313             [ 0xfb, 0xe5, 0x0e, 0x86, 0xbc, 0x8f, 0x1e, 0x75, ],
314             [ 0x90, 0x3d, 0x84, 0xc0, 0x27, 0x56, 0xea, 0x14, ],
315             [ 0xee, 0xf2, 0x7a, 0x8e, 0x90, 0xca, 0x23, 0xf7, ],
316             [ 0xe5, 0x45, 0xbe, 0x49, 0x61, 0xca, 0x29, 0xa1, ],
317             [ 0xdb, 0x9b, 0xc2, 0x57, 0x7f, 0xcc, 0x2a, 0x3f, ],
318             [ 0x94, 0x47, 0xbe, 0x2c, 0xf5, 0xe9, 0x9a, 0x69, ],
319             [ 0x9c, 0xd3, 0x8d, 0x96, 0xf0, 0xb3, 0xc1, 0x4b, ],
320             [ 0xbd, 0x61, 0x79, 0xa7, 0x1d, 0xc9, 0x6d, 0xbb, ],
321             [ 0x98, 0xee, 0xa2, 0x1a, 0xf2, 0x5c, 0xd6, 0xbe, ],
322             [ 0xc7, 0x67, 0x3b, 0x2e, 0xb0, 0xcb, 0xf2, 0xd0, ],
323             [ 0x88, 0x3e, 0xa3, 0xe3, 0x95, 0x67, 0x53, 0x93, ],
324             [ 0xc8, 0xce, 0x5c, 0xcd, 0x8c, 0x03, 0x0c, 0xa8, ],
325             [ 0x94, 0xaf, 0x49, 0xf6, 0xc6, 0x50, 0xad, 0xb8, ],
326             [ 0xea, 0xb8, 0x85, 0x8a, 0xde, 0x92, 0xe1, 0xbc, ],
327             [ 0xf3, 0x15, 0xbb, 0x5b, 0xb8, 0x35, 0xd8, 0x17, ],
328             [ 0xad, 0xcf, 0x6b, 0x07, 0x63, 0x61, 0x2e, 0x2f, ],
329             [ 0xa5, 0xc9, 0x1d, 0xa7, 0xac, 0xaa, 0x4d, 0xde, ],
330             [ 0x71, 0x65, 0x95, 0x87, 0x66, 0x50, 0xa2, 0xa6, ],
331             [ 0x28, 0xef, 0x49, 0x5c, 0x53, 0xa3, 0x87, 0xad, ],
332             [ 0x42, 0xc3, 0x41, 0xd8, 0xfa, 0x92, 0xd8, 0x32, ],
333             [ 0xce, 0x7c, 0xf2, 0x72, 0x2f, 0x51, 0x27, 0x71, ],
334             [ 0xe3, 0x78, 0x59, 0xf9, 0x46, 0x23, 0xf3, 0xa7, ],
335             [ 0x38, 0x12, 0x05, 0xbb, 0x1a, 0xb0, 0xe0, 0x12, ],
336             [ 0xae, 0x97, 0xa1, 0x0f, 0xd4, 0x34, 0xe0, 0x15, ],
337             [ 0xb4, 0xa3, 0x15, 0x08, 0xbe, 0xff, 0x4d, 0x31, ],
338             [ 0x81, 0x39, 0x62, 0x29, 0xf0, 0x90, 0x79, 0x02, ],
339             [ 0x4d, 0x0c, 0xf4, 0x9e, 0xe5, 0xd4, 0xdc, 0xca, ],
340             [ 0x5c, 0x73, 0x33, 0x6a, 0x76, 0xd8, 0xbf, 0x9a, ],
341             [ 0xd0, 0xa7, 0x04, 0x53, 0x6b, 0xa9, 0x3e, 0x0e, ],
342             [ 0x92, 0x59, 0x58, 0xfc, 0xd6, 0x42, 0x0c, 0xad, ],
343             [ 0xa9, 0x15, 0xc2, 0x9b, 0xc8, 0x06, 0x73, 0x18, ],
344             [ 0x95, 0x2b, 0x79, 0xf3, 0xbc, 0x0a, 0xa6, 0xd4, ],
345             [ 0xf2, 0x1d, 0xf2, 0xe4, 0x1d, 0x45, 0x35, 0xf9, ],
346             [ 0x87, 0x57, 0x75, 0x19, 0x04, 0x8f, 0x53, 0xa9, ],
347             [ 0x10, 0xa5, 0x6c, 0xf5, 0xdf, 0xcd, 0x9a, 0xdb, ],
348             [ 0xeb, 0x75, 0x09, 0x5c, 0xcd, 0x98, 0x6c, 0xd0, ],
349             [ 0x51, 0xa9, 0xcb, 0x9e, 0xcb, 0xa3, 0x12, 0xe6, ],
350             [ 0x96, 0xaf, 0xad, 0xfc, 0x2c, 0xe6, 0x66, 0xc7, ],
351             [ 0x72, 0xfe, 0x52, 0x97, 0x5a, 0x43, 0x64, 0xee, ],
352             [ 0x5a, 0x16, 0x45, 0xb2, 0x76, 0xd5, 0x92, 0xa1, ],
353             [ 0xb2, 0x74, 0xcb, 0x8e, 0xbf, 0x87, 0x87, 0x0a, ],
354             [ 0x6f, 0x9b, 0xb4, 0x20, 0x3d, 0xe7, 0xb3, 0x81, ],
355             [ 0xea, 0xec, 0xb2, 0xa3, 0x0b, 0x22, 0xa8, 0x7f, ],
356             [ 0x99, 0x24, 0xa4, 0x3c, 0xc1, 0x31, 0x57, 0x24, ],
357             [ 0xbd, 0x83, 0x8d, 0x3a, 0xaf, 0xbf, 0x8d, 0xb7, ],
358             [ 0x0b, 0x1a, 0x2a, 0x32, 0x65, 0xd5, 0x1a, 0xea, ],
359             [ 0x13, 0x50, 0x79, 0xa3, 0x23, 0x1c, 0xe6, 0x60, ],
360             [ 0x93, 0x2b, 0x28, 0x46, 0xe4, 0xd7, 0x06, 0x66, ],
361             [ 0xe1, 0x91, 0x5f, 0x5c, 0xb1, 0xec, 0xa4, 0x6c, ],
362             [ 0xf3, 0x25, 0x96, 0x5c, 0xa1, 0x6d, 0x62, 0x9f, ],
363             [ 0x57, 0x5f, 0xf2, 0x8e, 0x60, 0x38, 0x1b, 0xe5, ],
364             [ 0x72, 0x45, 0x06, 0xeb, 0x4c, 0x32, 0x8a, 0x95, ]
365         ];
366
367         let k0 = 0x_07_06_05_04_03_02_01_00_u64;
368         let k1 = 0x_0f_0e_0d_0c_0b_0a_09_08_u64;
369         let mut buf = Vec::new();
370         let mut t = 0;
371         let mut state_inc = SipState::new_with_keys(k0, k1);
372         let mut state_full = SipState::new_with_keys(k0, k1);
373
374         fn to_hex_str(r: &[u8, ..8]) -> String {
375             let mut s = String::new();
376             for b in r.iter() {
377                 s.push_str(format!("{}", fmt::radix(*b, 16)).as_slice());
378             }
379             s
380         }
381
382         fn result_bytes(h: u64) -> Vec<u8> {
383             vec![(h >> 0) as u8,
384               (h >> 8) as u8,
385               (h >> 16) as u8,
386               (h >> 24) as u8,
387               (h >> 32) as u8,
388               (h >> 40) as u8,
389               (h >> 48) as u8,
390               (h >> 56) as u8,
391             ]
392         }
393
394         fn result_str(h: u64) -> String {
395             let r = result_bytes(h);
396             let mut s = String::new();
397             for b in r.iter() {
398                 s.push_str(format!("{}", fmt::radix(*b, 16)).as_slice());
399             }
400             s
401         }
402
403         while t < 64 {
404             debug!("siphash test {}: {}", t, buf);
405             let vec = u8to64_le!(vecs[t], 0);
406             let out = hash_with_keys(k0, k1, &Bytes(buf.as_slice()));
407             debug!("got {:?}, expected {:?}", out, vec);
408             assert_eq!(vec, out);
409
410             state_full.reset();
411             state_full.write(buf.as_slice());
412             let f = result_str(state_full.result());
413             let i = result_str(state_inc.result());
414             let v = to_hex_str(&vecs[t]);
415             debug!("{}: ({}) => inc={} full={}", t, v, i, f);
416
417             debug!("full state {:?}", state_full);
418             debug!("inc  state {:?}", state_inc);
419
420             assert_eq!(f, i);
421             assert_eq!(f, v);
422
423             buf.push(t as u8);
424             state_inc.write([t as u8]);
425
426             t += 1;
427         }
428     }
429
430     #[test] #[cfg(target_arch = "arm")]
431     fn test_hash_uint() {
432         let val = 0xdeadbeef_deadbeef_u64;
433         assert!(hash(&(val as u64)) != hash(&(val as uint)));
434         assert_eq!(hash(&(val as u32)), hash(&(val as uint)));
435     }
436     #[test] #[cfg(target_arch = "x86_64")]
437     fn test_hash_uint() {
438         let val = 0xdeadbeef_deadbeef_u64;
439         assert_eq!(hash(&(val as u64)), hash(&(val as uint)));
440         assert!(hash(&(val as u32)) != hash(&(val as uint)));
441     }
442     #[test] #[cfg(target_arch = "x86")]
443     fn test_hash_uint() {
444         let val = 0xdeadbeef_deadbeef_u64;
445         assert!(hash(&(val as u64)) != hash(&(val as uint)));
446         assert_eq!(hash(&(val as u32)), hash(&(val as uint)));
447     }
448
449     #[test]
450     fn test_hash_idempotent() {
451         let val64 = 0xdeadbeef_deadbeef_u64;
452         assert_eq!(hash(&val64), hash(&val64));
453         let val32 = 0xdeadbeef_u32;
454         assert_eq!(hash(&val32), hash(&val32));
455     }
456
457     #[test]
458     fn test_hash_no_bytes_dropped_64() {
459         let val = 0xdeadbeef_deadbeef_u64;
460
461         assert!(hash(&val) != hash(&zero_byte(val, 0)));
462         assert!(hash(&val) != hash(&zero_byte(val, 1)));
463         assert!(hash(&val) != hash(&zero_byte(val, 2)));
464         assert!(hash(&val) != hash(&zero_byte(val, 3)));
465         assert!(hash(&val) != hash(&zero_byte(val, 4)));
466         assert!(hash(&val) != hash(&zero_byte(val, 5)));
467         assert!(hash(&val) != hash(&zero_byte(val, 6)));
468         assert!(hash(&val) != hash(&zero_byte(val, 7)));
469
470         fn zero_byte(val: u64, byte: uint) -> u64 {
471             assert!(byte < 8);
472             val & !(0xff << (byte * 8))
473         }
474     }
475
476     #[test]
477     fn test_hash_no_bytes_dropped_32() {
478         let val = 0xdeadbeef_u32;
479
480         assert!(hash(&val) != hash(&zero_byte(val, 0)));
481         assert!(hash(&val) != hash(&zero_byte(val, 1)));
482         assert!(hash(&val) != hash(&zero_byte(val, 2)));
483         assert!(hash(&val) != hash(&zero_byte(val, 3)));
484
485         fn zero_byte(val: u32, byte: uint) -> u32 {
486             assert!(byte < 4);
487             val & !(0xff << (byte * 8))
488         }
489     }
490
491     #[test]
492     fn test_hash_no_concat_alias() {
493         let s = ("aa", "bb");
494         let t = ("aabb", "");
495         let u = ("a", "abb");
496
497         assert!(s != t && t != u);
498         assert!(hash(&s) != hash(&t) && hash(&s) != hash(&u));
499
500         let v = (&[1u8], &[0u8, 0], &[0u8]);
501         let w = (&[1u8, 0, 0, 0], &[], &[]);
502
503         assert!(v != w);
504         assert!(hash(&v) != hash(&w));
505     }
506
507     #[bench]
508     fn bench_str_under_8_bytes(b: &mut Bencher) {
509         let s = "foo";
510         b.iter(|| {
511             assert_eq!(hash(&s), 16262950014981195938);
512         })
513     }
514
515     #[bench]
516     fn bench_str_of_8_bytes(b: &mut Bencher) {
517         let s = "foobar78";
518         b.iter(|| {
519             assert_eq!(hash(&s), 4898293253460910787);
520         })
521     }
522
523     #[bench]
524     fn bench_str_over_8_bytes(b: &mut Bencher) {
525         let s = "foobarbaz0";
526         b.iter(|| {
527             assert_eq!(hash(&s), 10581415515220175264);
528         })
529     }
530
531     #[bench]
532     fn bench_long_str(b: &mut Bencher) {
533         let s = "Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor \
534 incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud \
535 exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute \
536 irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla \
537 pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui \
538 officia deserunt mollit anim id est laborum.";
539         b.iter(|| {
540             assert_eq!(hash(&s), 17717065544121360093);
541         })
542     }
543
544     #[bench]
545     fn bench_u64(b: &mut Bencher) {
546         let u = 16262950014981195938u64;
547         b.iter(|| {
548             assert_eq!(hash(&u), 5254097107239593357);
549         })
550     }
551 }