Sprawk Crawler
trans machina 's Web Mining Tool ist in der Lage, "kriechen" Sammlungen von Webseiten sammeln linguistischen Daten. Ähnlich wie Google für die Suche von Daten zu sammeln, wird NaturalCrawler verwendet, um Informationen über Wort und Satz Nutzung sammeln, Terminologie und Kontext. Daten aus dem NaturalCrawler gesammelt wird verwendet, um zu ergänzen transmachina'S sprawk Service und kann auch zur "Sprache Audits" auf Corporate Websites â 'Berichterstellung durchführten auf Konsistenz der Kommunikation, um Ihre Online-Publikum werden.
Zusammenfassung
Ein Web "Crawler" oder "Spinne", die eine bestimmte Website oder URL erkunden kann, extrahiert den Text (und Sätze) von der Website in einer Datenbank-Tabelle.
Der Text wird später verwendet werden für:
- Berechnung Wort Frequenzen
- Bestimmung Commons Phrasen und Wortkombinationen
- Bestimmung Worten, dass die Zusammenarbeit auftreten
- Kontext-Erkennung und Verarbeitung
Die Spinne ist in der Lage, ihre Fortschritte zu verfolgen:
- wissen, welche Seiten sie bereits verarbeitet
- wissen, welche Seiten in seiner "Todo-Liste"
Darüber hinaus sollte Filter können auf einer Pro-URL-Basis, um unerwünschte Daten zu entfernen definiert werden. Zum Beispiel auf der www.dn.se Sicht, sollte ein Filter vorher aufgetragen werden, die entfernt den Seitenkopf und Menüs vor der Extraktion Satz, so dass die Worte "News", "Sport", "Wetter" etc. sind nicht enthalten in Häufigkeitszählungen für jede einzelne Seite.
Die Spinne wurde entwickelt, um in einer Server-Umgebung ausgeführt werden, da es erhebliche CPU und Bandbreite erfordern. Die Spinne ist ein Satz von Java-Bibliotheken, die von anderen Java-Programmen über über dynamische Web-Seiten wie JSP / Servlets aufgerufen werden können.
Wenn jede Seite besucht wird, werden die folgenden Details aufgezeichnet:
- Die URL
- Datum / Uhrzeit besucht
- der Titel der Seite
- die Sprache des Rohlings (leer, wenn unbekannt)
- die Absätze / Sätze aus der Seite extrahiert
Online-Schnittstelle
Die Schnittstelle ermöglicht:
- die Schaffung neuer kriecht
- Anzeigen des Verlaufs von Strom kriecht
- Anzeige und zur Suche Liste der aktuellen Seiten gesucht
- Anzeige und zur Suche Liste der anstehenden Seiten
- Betrachten Sätze von bestimmten Seiten extrahiert (verknüpft Listen von oben)
