Sprawk chenilles
Outil de transmachina l 'exploration du Web est en mesure de «ramper» des collections de site Web qui recueillent des données linguistiques. Tout comme Google collecte de données pour la recherche, NaturalCrawler est utilisé pour collecter des informations sur le mot et l'utilisation phrase, de la terminologie et le contexte. Les données recueillies à partir du NaturalCrawler est utilisé en complément transmachinaL ' sprawk service et peut également être utilisé pour effectuer des «vérifications langue" rapports d'entreprise de sites web â 'sur la cohérence de la communication à votre audience en ligne.
Résumé
Un web "crawler" ou "araignée" qui peut explorer un site Web donné ou url, extraire text (et les peines) du site dans une table de base de données.
Le texte sera ensuite utilisé pour:
- calculer la fréquence des mots
- déterminer phrases commons et des combinaisons de mots
- mots qui déterminent qui coexistent
- traitement de contexte et de la détection
L'araignée est en mesure de suivre sa progression:
- savoir quelles pages il a déjà traité
- savoir quelles pages sont dans son "todo-list"
En outre, les filtres doivent pouvoir être défini sur une base par-url pour supprimer les données indésirables. Par exemple, sur le www.dn.se vue, un filtre doit être pré-appliquée qui supprime l''en-tête et la page des menus avant l''extraction de la phrase de sorte que les mots "nouvelles", "sports", "temps", etc ne sont pas inclus dans comptes de fréquence pour chaque page unique.
L'araignée est conçu pour être exécuté dans un environnement serveur, car il faudra du CPU et de bande passante importante. L'araignée est un ensemble de bibliothèques Java qui peuvent être appelées à partir d'autres programmes Java sur des pages web dynamiques via telles que JSP / servlets.
Lorsque chaque page est visitée, les détails suivants sont enregistrés:
- l'url
- la date / heure visité
- le titre de la page
- la langue de l'ébauche (vide si inconnu)
- les paragraphes / phrases extraites de la page
Interface en ligne
L'interface permet:
- la création de nouveaux rampe
- visualisant l'évolution du courant rampe
- liste affichage et la recherche de pages actuelles recherche
- affichage et la recherche la liste des pages en attente
- phrases extraites visualisation partir de certaines pages (liée à partir de listes ci-dessus)
