当前位置: 华文星空 > 知识

为什么 360 面试官说 Trie 树没用?

2018-03-09知识

说句实话,工程上来说,和hash比起来,trie就是没有用的东西。这个可以说很深刻地表现出了一个学生和一个软件工程师的思维差异。

你可能很清楚,hash类的算法都有可能因为碰撞而退化,而trie是稳定的复杂度,简直太招人喜欢了。

但是工程师99.9%的情况下都会用hash。因为,hash函数、map、set,都有内置库,所有语言都有。

这意味着一个功能用hash就是五行代码,甚至体现不出用了hash,而用trie,你要么先交一份trie开源库的分析选型比较报告来,要么自己撸一个,附带着先写一千行的单元测试用例,再跑个压测。万一将来换个语言,请从头再来。

是的,就是这么简单,工程师才不会考虑碰撞,他们甚至不关心rehash、hash实现这些细节,许多语言内置的hash实现已经考虑了防止恶意碰撞了,而随机碰撞,没有那么巧的事情。写出简单可用能快速上线的代码要更重要。

你看出来了,学术关心理论最优,工程关心实践最优。

你可能愤愤不平,为啥标准库不把trie加进去?那你有没有想过这些问题呢?

1. 如果字符串不是常见的英文小写字母,而是unicode呢?

2. 如果这些字符串超级长,甚至有傻子拿来了一千个文本文件,每个有100KB呢?

3. 字符串现在多得不能忍了,需要分布式处理,你要怎么设计一个分布式的trie(要记得trie的节点分布可能是高度不均衡的)?

所以,工程看重什么也是有道理的。

当然trie自然不是真的没用,它支持前缀匹配,支持范围查找,这些都有独特的应用,比如数据库里字符串类型的索引就经常实现为前缀树(另一种常见实现自然就是hash)。但说实话,不会有工程师认为这是两种可以相互竞争的技术。