Sprawk Bandfordon
transmachina s webb gruvdrift verktyg kan "krypa" samlingar av webbplatsen samlar språkliga data. Ungefär som Google samlar in data för att söka, är NaturalCrawler används för att samla information om ord och fras användning, terminologi och sammanhang. Uppgifter som samlats in från NaturalCrawler används för att komplettera transmachina s Sprawk tjänst och kan även användas för att utföra "språkrevisioner" på företagens webbplatser â "rapportering om konsekvensen i kommunikationen till din online publik.
Sammanfattning
En web "crawler" eller "spindel" som kan utforska en viss webbplats eller webbadress, extrahera text (och meningar) från sajten till en databastabell.
Texten kommer senare att användas för:
- beräkning ord frekvenser
- bestämma commons fraser och ordkombinationer
- att bestämma ord som samarbete förekommer
- sammanhang bearbetning och detektion
Spindeln är att kunna följa sina framsteg:
- vet vilka sidor man redan har bearbetat
- vet vilka sidor som i sin "TODO-lista"
Dessutom bör filter kunna definieras på ett per-url grund för att ta bort oönskade data. Till exempel, om www.dn.se sikte, bör ett filter i förväg anbringas som tar bort sidhuvud och menyer innan meningen utvinningen så att orden "nyheter", "sport", "väder" etc. ingår inte i frekvens räknas för varje enskild sida.
Spindeln är konstruerad för att köras i en server miljö, eftersom det kommer att kräva betydande CPU och bandbredd. Spindeln är en uppsättning Java-bibliotek som kan anropas från andra Java-program över via dynamiska webbsidor som JSP / servlets.
När varje sida besöks, är följande uppgifter registreras:
- url
- datum / tid besökt
- titeln på sidan
- språket i den tomma (tomt om okända)
- punkterna / meningar utvinns från sidan
Online gränssnitt
Gränssnittet gör det möjligt för:
- skapandet av nya genomsökningar
- visa utvecklingen av nuvarande genomsökningar
- visning och sökning lista över aktuella sidor sökte
- visning och sökning lista över pågående sidor
- ser meningar ur vissa sidor (länkade från listorna ovan)
