倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。
有两种不同的反向索引形式:
- 一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。
- 一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文档中的位置。[1]
后者的形式提供了更多的兼容性(比如短语搜索),但是需要更多的时间和空间来创建。
例子
以英文为例,下面是要被索引的文本:
-
T0 =
"it is what it is"
-
T1 =
"what is it"
-
T2 =
"it is a banana"
我们就能得到下面的反向文件索引:
"a": {2}
"banana": {2}
"is": {0, 1, 2}
"it": {0, 1, 2}
"what": {0, 1}
检索的条件"what"
, "is"
和 "it"
将对应这个集合:。
对相同的文字,我们得到后面这些完全反向索引,有文档数量和当前查询的单词结果组成的的成对数据。 同样,文档数量和当前查询的单词结果都从零开始。所以,"banana": {(2, 3)}
就是说 "banana"在第三个文档里 (T2),而且在第三个文档的位置是第四个单词(地址为 3)。
"a": {(2, 2)}
"banana": {(2, 3)}
"is": {(0, 1), (0, 4), (1, 1), (2, 1)}
"it": {(0, 0), (0, 3), (1, 2), (2, 0)}
"what": {(0, 2), (1, 0)}
如果我们执行短语搜索"what is it"
我们得到这个短语的全部单词各自的结果所在文档为文档0和文档1。但是这个短语检索的连续的条件仅仅在文档1得到。
分享到:
相关推荐
大数据实验报告Hadoop编程实现InvertedIndex文档倒排索引程序附源码.doc
倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。 ...
使用spark sql模拟带倒排索引的简单搜索引擎演示: :
Lucene-Inverted-Index 信息检索倒排索引作业 要求有检索界面 中文语料支持
TI-Inverted F Antenna Dimensions
倒排索引源于实际应用中需要根据属性的值...由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。
倒排索引(Inverted Index)被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射,是目前几乎所有支持全文索引的搜索引擎都需要依赖的一个数据结构。资源中包含了MapReduce实现的文档倒排索引...
hadoop jar /target/inverted-index-example-1.0.jar com.hadoop.example.InvertedIndexJob /sampleInput.txt /output/inverted 将输出复制到本地文件系统 hadoop dfs -getmerge /output/inverted $HOME/output/...
倒排索引该项目是为反向索引实现的,它将从目录中读取所有.txt文件,并按字母顺序列出所有单词,以提供每个文件中每个单词的位置和外观。 输入参数在JSON文件中传递,该文件包含用于从每个文件中提取单词的定界符,...
倒排索引源码 java react-native-recyclerview-list ReactNative 的 RecyclerView 实现,克服了FlatList 、 VirtualizedList和ListView一些限制。 支持的 React Native 版本 组件版本 注册护士版本 0.1.x 0.45, 0.46...
#倒排索引示例 用 JAVA 编写的 MapReduce 作业以生成倒排索引。 ##创建罐子 mvn clean package ##用法 hadoop -jar jarfile com.globant.training.invertedIndex.InvertedIndexDriver <hdfs> <hdfs> ##输出...
这个资源是我自己在ACM花钱买的额……,倒排文档的经典文章,看了它你就会知道怎么写倒排文档了
倒立摆,先进PID控制及其MATLAB仿真,涉及matlabGUI开发
structure called the inverted multi-index generalizes the inverted index idea by replacing the standard quantization within inverted indices with product quantization. For very similar retrieval ...
倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。这篇文章主要介绍了Python倒排索引之查找...
import fii from 'fergies-inverted-index' const db = fii ( ) db . PUT ( [ /* my array of objects to be searched */ ] ) . then ( doStuff ) 查询索引 // (given objects that contain: { land: , colour: , ...
Hadoop mapreduce 实现InvertedIndexer倒排索引,能用。
这是用飞思卡尔单片机MC9S12XS128实现的一级倒立摆,里面有详细的解释,基本都有注解。 机械上包括:一个直流电机,一个电位器检测摆杆角度,一个两相编码器反馈转角。 软件上采用了四倍化编码器,将原来编码器的...
2013-MOTL-coupled-fed inverted-Fantenna using an inverted-f coupled feed for small-size ltewwan tablet computer antenna