Sprawk Bandfordon

transmachina s webb gruvdrift verktyg kan "krypa" samlingar av webbplatsen samlar språkliga data. Ungefär som Google samlar in data för att söka, är NaturalCrawler används för att samla information om ord och fras användning, terminologi och sammanhang. Uppgifter som samlats in från NaturalCrawler används för att komplettera transmachina s Sprawk tjänst och kan även användas för att utföra "språkrevisioner" på företagens webbplatser â "rapportering om konsekvensen i kommunikationen till din online publik.

Sammanfattning

En web "crawler" eller "spindel" som kan utforska en viss webbplats eller webbadress, extrahera text (och meningar) från sajten till en databastabell.

Texten kommer senare att användas för:

  • beräkning ord frekvenser
  • bestämma commons fraser och ordkombinationer
  • att bestämma ord som samarbete förekommer
  • sammanhang bearbetning och detektion

Spindeln är att kunna följa sina framsteg:

  • vet vilka sidor man redan har bearbetat
  • vet vilka sidor som i sin "TODO-lista"
så att den kan startas och stoppas utan att förlora information och kan undvika dubbel-behandling (där samma sidan bearbetas mer än en gång, vilket skevning frekvensdata)

Dessutom bör filter kunna definieras på ett per-url grund för att ta bort oönskade data. Till exempel, om www.dn.se sikte, bör ett filter i förväg anbringas som tar bort sidhuvud och menyer innan meningen utvinningen så att orden "nyheter", "sport", "väder" etc. ingår inte i frekvens räknas för varje enskild sida.

Spindeln är konstruerad för att köras i en server miljö, eftersom det kommer att kräva betydande CPU och bandbredd. Spindeln är en uppsättning Java-bibliotek som kan anropas från andra Java-program över via dynamiska webbsidor som JSP / servlets.

När varje sida besöks, är följande uppgifter registreras:

  • url
  • datum / tid besökt
  • titeln på sidan
  • språket i den tomma (tomt om okända)
  • punkterna / meningar utvinns från sidan

Online gränssnitt

Gränssnittet gör det möjligt för:

  • skapandet av nya genomsökningar
  • visa utvecklingen av nuvarande genomsökningar
  • visning och sökning lista över aktuella sidor sökte
  • visning och sökning lista över pågående sidor
  • ser meningar ur vissa sidor (länkade från listorna ovan)