Sprawkクローラ

トランス マキーナWebマイニングツールは、言語データを収集するウェブサイトのコレクションを"クロール"することができます. Googleが検索のためのデータを収集するのと同じように、NaturalCrawlerは、用語とコンテキスト、単語やフレーズの使用状況に関する情報を収集するために使用され. NaturalCrawlerから収集したデータは、 トランス マキナ補完するために使用されているのsprawkサービス 、また、企業のWebサイトA上の"言語監査"を実行するために使用することができる"あなたのオンライン聴衆にコミュニケーションの一貫性に報告を.

要約

データベーステーブルにサイトからテキスト(や文章)を抽出、特定のWebサイトまたはURLを探索することができますウェブ "クローラー"や "スパイダー".

テキストは後で使用されます:

  • 単語の出現頻度を計算する
  • コモンズフレーズや単語の組み合わせを決定する
  • 共起した単語を決定する
  • 文脈処理と検出

クモはその進捗状況を追跡することができている:

  • それはすでに処理されたページを知って
  • ページの "TODOリスト"にあるかを知る
それは開始および停止情報を失うことなく、ダブル処理を避けることができすることができるように (同じページが複数回処理されている、したがって、周波数データをスキュー)

さらに、フィルタは不要なデータを削除するには、URLごとに定義することができるようになります. たとえば、www.dn.se視力では、フィルタがよう言葉 "ニュース"、 "スポーツ"、 "天気"などは前の文の抽出にページヘッダやメニューをされていません削除することを事前に適用されるべきであるすべての単一ページの周波数カウントに含まれている.

それが重要なCPUと帯域幅を必要とするので、クモは、サーバー環境で実行するように設計されてい. クモは、JSP /サーブレットなどの動的なWebページを介して介して他のJavaプログラムから呼び出すことができるJavaライブラリのセットです。.

各ページを訪問した場合、次の詳細が記録されます。:

  • URL
  • 日付/時刻を訪問
  • ページのタイトル
  • ブランクの言語 (不明な場合は空白)
  • ページから抽出された段落/文章

オンラインインターフェイス

インタフェースにより:

  • 新規の作成は、クロール
  • クロール現在の進行状況を表示する
  • 検索現在のページのリストを表示および検索
  • 保留中のページのリストを表示および検索
  • 特定のページから抽出された文章を表示する (上記のリストからリンクされている)