Sprawk Crawler
Web trans machina 's herramienta de minería es capaz de "rastrear" las colecciones de sitio web que recogen datos lingüísticos. Al igual que Google recopilar datos para la búsqueda, NaturalCrawler se utiliza para recopilar información sobre el uso de la palabra y frase, la terminología y el contexto. Los datos recogidos de la NaturalCrawler se usa para complementar transmachina'S sprawk servicio y también se puede utilizar para realizar "auditorías de idioma" en la presentación de informes sitios web corporativa â 'en la coherencia de la comunicación con su audiencia en línea.
Resumen
Una web "crawler" o "araña" que puede explorar un determinado sitio web o url, extraer el texto (y oraciones) del sitio en una tabla de base de datos.
El texto se utilizarán posteriormente para:
- cálculo de frecuencias de palabras
- la determinación de los bienes comunes frases y combinaciones de palabras
- palabras que determinan que co-ocurren
- contexto de procesamiento y detección
La araña se podrá realizar un seguimiento de su progreso:
- saber qué páginas que ya ha procesado
- saber qué páginas están en su "todo-list"
Además, los filtros deben ser capaces de ser definido en una base por-url para remove los datos no deseados. Por ejemplo, en el www.dn.se vista, un filtro debe ser pre-aplicada que elimina el encabezado de página y los menús antes de la extracción oración para que las palabras "noticias", "deporte", "tiempo", etc no están incluidos en recuentos de frecuencia para cada página.
La araña está diseñado para ejecutarse en un entorno de servidor ya que requerirá importantes CPU y ancho de banda. La araña es un conjunto de bibliotecas Java que pueden ser llamados desde programas Java sobre otros a través de páginas web dinámicas, tales como JSP / Servlets.
Cuando cada página es visitada, los siguientes datos se registran:
- la url
- la fecha / hora de visita
- el título de la página
- el lenguaje de la pieza en bruto (en blanco si se desconoce)
- los párrafos / frases extraídas de la página
Interfaz de Línea
La interfaz permite:
- la creación de nuevos rastreos
- ver el progreso de la corriente arrastra
- lista de visualización y búsqueda de páginas actuales buscado
- visualización y búsqueda de lista de páginas pendientes
- frases extraídas de visualización de ciertas páginas (vinculado desde listas anteriores)
