Commits

Shoji KUMAGAI committed 2688b95

2010.10.10 shkumagai Remove old file.

  • Participants
  • Parent commits 262f89c

Comments (0)

Files changed (1)

File source/chapter01/01bool.rst

-
-================
-1 ブーリアン検索
-================
-
-.. The meaning of the term information retrieval can be very broad. Just getting a credit
-   card out of your wallet so that you can type in the card number is a form of information
-   retrieval. However, as an academic field of study, information retrieval might be
-   defined thus:
-     Information retrieval (IR) is finding material (usually documents) of an unstructured
-     nature (usually text) that satisfies an information need from within large collections
-     (usually stored on computers).
-
-:term:`情報検索` という用語は非常に広い意味を持ちます。カード番号を入力するのに、クレジットカードを\
-財布から取り出すのも *情報検索* の一形態です。しかし学術研究分野において、情報検索とは以下の\
-ように定義されます:
-
-  情報検索 (IR) とは、(通常はコンピュータに保存されている) 大規模なコレクションの中から、情報の\
-  ニーズを満たす構造化されていない種類 (通常はテキスト) の材料 (通常は文書) を発見することである。
-
-.. As defined in this way, information retrieval used to be an activity that only a few
-   people engaged in: reference librarians, paralegals, and similar professional
-   searchers. Now the world has changed, and hundreds of millions of people engage in
-   information retrieval every day when they use a web search engine or search their
-   email.[1]_
-   Information retrieval is fast becoming the dominant form of information access,
-   overtaking traditional database-style searching (the sort that is going on when a
-   clerk says to you: “I’m sorry, I can only look up your order if you can give me your
-   Order ID”).
-
-こう定義されるように、 *情報検索* は図書館の司書や法律関係者又は同様の専門的な調査員等の活動に\
-従事する、ごく少数の人々に使われていました。今日、世界は変わり、何億もの人々が日々Web検索や\
-自身のEメールを検索をすることで *情報検索* に関わっています。 [1]_ 情報検索は従来のデータ\
-ベース形式の検索(並べ替えは従業員があなたに言う時に起こる: "申し訳ありません。あなたの注文IDを\
-頂ければご注文を参照することができます。")を抜いて、急速に情報アクセスの支配的な形態と\
-なっています。
-
-.. IR can also cover other kinds of data and information problems beyond that specified
-   in the core definition above. The term “unstructured data” refers to data which does
-   not have clear, semantically overt, easy-for-a-computer structure. It is the opposite
-   of structured data, the canonical example of which is a relational database, of the
-   sort companies usually use to maintain product inventories and personnel records.
-   In reality, almost no data are truly “unstructured”. This is definitely true of all
-   text data if you count the latent linguistic structure of human languages. But even
-   accepting that the intended notion of structure is overt structure, most text has
-   structure, such as headings and paragraphs and footnotes, which is commonly represented
-   in documents by explicit markup (such as the coding underlying webpages).
-   IR is also used to facilitate “semistructured” search such as finding a document
-   where the title contains Java and the body contains threading.
-
-*情報検索* は上述の定義の範囲を越えた、他の種類のデータや情報の問題もカバーすることができます。\
-*非構造化データ* という用語は明確な, 意味的に明白な, コンピュータにとって扱いやすい構造を\
-持たないデータを指します。これは構造化データ (妥当な例として、企業などで製品の在庫や人員の記録を\
-維持管理するためにしばしば利用されているリレーショナルデータベース等) とは正反対です。\
-実際のところ、本当に *構造化されていない* データというものは、ほぼありません。人間の話す言葉の\
-潜在的な言語構造をテキストデータとみなすのであれば、確かにそのとおりなのです。\
-しかし、意図された構造の概念とは明確な構造であるということさえ認めてしまえば、大部分のテキストは\
-見出し、段落、脚注といった構造をもっており、それらは (Webページの基礎となる記法のような) \
-明示的なマークアップによって文書の中に表現されています。\
-*情報検索* は 「タイトルに ``Java`` を含み、且つ本文に ``Threading`` を含む」文書を探すような\
-*準構造化された* 検索を手助けすることにも利用されています。
-
-.. The field of information retrieval also covers supporting users in browsing or
-   filtering document collections or further processing a set of retrieved documents.
-   Given a set of documents, clustering is the task of coming up with a good grouping of
-   the documents based on their contents. It is similar to arranging books on a bookshelf 
-   according to their topic. Given a set of topics, standing information needs, or other 
-   categories (such as suitability of texts for different age groups), classification is 
-   the task of deciding which class(es), if any, each of a set of documents belongs to. 
-   It is often approached by first manually classifying some documents and then hoping to 
-   be able to classify new documents automatically.
-
-情報検索の分野では、ブラウジングや文書コレクションのフィルタリング、検索したドキュメント集合の\
-さらなる処理等を行うユーザーの支援もカバーしています。ある文書の集合が与えられたとき、それらの\
-内容に基づいて文書を適切にグループ化する作業がクラスタリングです。これは本棚の中の本を\
-それぞれのトピックに従って並べ替えることに似ています。あるトピックの集合が与えられたとき、\
-情報のニーズもしくは(年齢層別のテキストの適合性のような)他のカテゴリの視点から、集合に属する\
-それぞれの文書が、もしあればどの類に属するのかを決定する作業が分類です。これは多くの場合、\
-最初に手動でいくつかの文書を分類することによって、新しい文書が自動的に分類できることを期待する\
-ことで近似されます。
-
-.. Information retrieval systems can also be distinguished by the scale at which they
-   operate, and it is useful to distinguish three prominent scales. In web search,
-   the system has to provide search over billions of documents stored on millions of
-   computers. Distinctive issues are needing to gather documents for indexing, being
-   able to build systems that work efficiently at this enormous scale, and handling
-   particular aspects of the web, such as the exploitation of hypertext and not being
-   fooled by site providers manipulating page content in an attempt to boost their search
-   engine rankings, given the commercial importance of the web. We focus on all these
-   issues in Chapters 18–21. At the other extreme is personal information retrieval.
-   In the last few years, consumer operating systems have integrated information retrieval
-   (such as Apple’s Mac OS X Spotlight or Windows Vista’s Instant Search). Email programs
-   usually not only provide search but also text classification: they at least provide
-   a spam (junk mail) filter, and commonly also provide either manual or automatic means
-   for classifying mail so that it can be placed directly into particular folders.
-   Distinctive issues here include handling the broad range of document types on
-   a typical personal computer, and making the search system maintenance free and
-   sufficiently lightweight in terms of startup, processing, and disk space usage that it
-   can run on one machine without annoying its owner. In between is the space of
-   enterprise, institutional, and domain-specific search, where retrieval might be
-   provided for collections such as a corporation’s internal documents, a database of
-   patents, or research articles on biochemistry. In this case, the documents will
-   typically be stored on centralized file systems and one or a handful of dedicated
-   machines will provide search over the collection. This book contains techniques of
-   value over this whole spectrum, but our coverage of some aspects of parallel and
-   distributed search in web-scale search systems is comparatively light owing to the
-   relatively small published literature on the details of such systems. However,
-   outside of a handful of web search companies, a software developer is most likely to
-   encounter the personal search and enterprise scenarios.
-
-情報検索システムは、それらが動作する規模によって区別することができ、顕著な3つの規模を区別する\
-のに役に立ちます。Web検索の場合、システムは何百万というコンピュータに格納された何十億以上の\
-文書の検索を提供しなければなりあません。特有の問題はインデキシングのために文書を集める必要が\
-あること、このずば抜けた規模で効率よく可動するシステムを構築できること、Webの商業的重要性から\
-ハイパーテキストの利己的な利用やサーチエンジンのランキングを向上させるためのサイト提供者による\
-内容操作によってダマされないようにする等、Web特有の状況を扱うことです。私たちはこれらの問題\
-すべてについて、18章から21章で焦点を当てます。\
-もう一つの極端な事例は、個人向け情報検索です。\
-ここ数年、コンシューマーオペレーティングシステムには情報検索機能が統合されています\
-(Apple MacOS X のSpotlightやWindows VistaのInstant Searchなど)。Eメールプログラムはたいてい\
-検索だけでなく、テキスト分類も提供します。少なくともスパム(迷惑メール)フィルター、また\
-一般的には、直接特定のフォルダにメールを配置するための手動または自動の手段を提供します。\
-ここでの特有の問題は、典型的なパーソナルコンピュータにある幅広い種類の文書を扱うこと、\
-メンテナンスフリーであり、且つマシン上で所有者をイライラさせる事なく実行することができる程度に\
-起動、処理そしてディスクスペース使用量の面で十分に軽量であることを含んでいます。\
-この中間が企業の内部文書、特許データベースもしくは生化学の研究論文のようなコレクションを\
-提供するような企業、機関およびドメイン独自検索の領域です。この場合、文書はたいてい集中化した\
-ファイルシステム上に格納されており、一つまたは少数の専用端末でコレクション全体の検索を\
-提供しています。この本はこれらの分布全体に価値のある技術を含んでいますが、Webスケール検索\
-システムでの並列・分散検索のいくつかの局面の網羅性は、そのようなシステムの詳細に関する\
-比較的小規模な公表済みの文献があるため、いくぶん軽めです。しかし、一握りのWebサーチ企業の\
-外では、ソフトウェア技術者が最もパーソナルサーチや企業のシナリオに遭遇しそうです。
-
-.. In this chapter we begin with a very simple example of an information retrieval problem,
-   and introduce the idea of a term-document matrix (Section 1.1) and the central inverted
-   index data structure (Section 1.2). We will then examine the Boolean retrieval model
-   and how Boolean queries are processed (Sections 1.3 and 1.4).
-
-この章では、情報検索の問題のとても簡単な例で始め、用語-文書マトリックスのideaの紹介 (1.1節) と、\
-集中転置インデックスデータ構造 (1.2節) を紹介します。それからブーリアン検索モデルと
-ブーリアンクエリがどう処理されるかについてのテストを行ないます (1.3節 と 1.4節)。
-
-
-.. toctree::
-   :maxdepth: 1
-
-   an_example_information_retrieval_problem
-..   a_first_take_at_building_an_inverted_index
-..   processing_boolean_queries
-..   the_extended_boolean_model_versus_ranked_retrieval
-..   references_and_further_reading
-
-
-.. In modern parlance, the word “search” has tended to replace “(information) retrieval”; 
-   the term “search” is quite ambiguous, but in context we use the two synonymously.
-.. [1] 近代的な用語では、"検索 (search)" という単語が "(情報)検索" に置き換わる傾向にあります。\
-       "検索" という語はかなり曖昧ですが、私たちは文脈の中で2つを同じ意味で使用します。
-