Sprawk chenilles

outil de trans machina de l 'exploration du Web est capable de "ramper" des collections de site Web qui recueillent des données linguistiques. Tout comme Google collecte des données pour la recherche, NaturalCrawler est utilisé pour collecter des informations sur parole et l'usage phrase, de la terminologie et le contexte. Les données recueillies à partir du NaturalCrawler est utilisé en complément transmachinaL ' sprawk service et peut également être utilisé pour effectuer des «vérifications langue" sur les rapports d'entreprise de sites web â 'sur la cohérence de la communication à votre public en ligne.

Résumé

Un Web "crawler" ou "araignée" qui peut explorer un site Web donné ou url, d'extraire le texte (et phrases) à partir du site dans une table de base de données.

Le texte sera ensuite utilisé pour:

  • le calcul de la fréquence des mots
  • déterminer phrases commons et des combinaisons de mots
  • mots qui déterminent qui coexistent
  • traitement de contexte et de la détection

L'araignée est en mesure de suivre sa progression:

  • savoir quelles pages il a déjà traité
  • savoir quelles pages sont dans son "todo-list"
de sorte qu'il peut être démarré et arrêté sans perte d'information et peut éviter la double traitement (où la même page est traitée plus d'une fois, ce qui fausse les données de fréquence)

En outre, les filtres doivent pouvoir être défini sur une base par-url pour supprimer les données indésirables. Par exemple, sur la vue www.dn.se, un filtre doit être pré-appliquée qui supprime l'en-tête de page et des menus avant l'extraction phrase de sorte que les mots «nouvelles», «sport», «conditions météorologiques», etc ne sont pas inclus dans les chiffres de fréquence pour chaque page.

L'araignée est conçu pour être exécuté dans un environnement serveur, car il faudra CPU et de bande passante importante. L'araignée est un ensemble de librairies Java qui peuvent être appelées à partir d'autres programmes Java sur via des pages Web dynamiques, tels que JSP / Servlets.

Lorsque chaque page est visitée, les détails suivants sont enregistrés:

  • l'url
  • la date / heure visité
  • le titre de la page
  • la langue de l'ébauche (vide si inconnu)
  • les paragraphes ou de phrases extraites de la page

Interface en ligne

L'interface permet:

  • la création de nouvelles analyses
  • visualisant l'évolution du courant rampe
  • liste affichage et la recherche de pages actuelles recherche
  • affichage et la recherche la liste des pages en attente
  • phrases extraites visualisation partir de certaines pages (liée à partir de listes ci-dessus)