Sprawk Bandfordon

trans machina 's Web mining verktyg är kan "krypa" samlingar av webbplatsen samla språkliga data. Ungefär som Google samlar in uppgifter för att söka, är NaturalCrawler används för att samla information om ord och fras användning, terminologi och sammanhang. Uppgifter som samlats in från NaturalCrawler används som komplement till trans machina 's sprawk tjänsten och kan även användas för att utföra "språkrevisioner" på företagens webbplatser en "rapportering om konsekvent kommunikation till din online publiken.

Sammanfattning

En web "crawler" eller "spider" som kan utforska en viss webbplats eller URL-adress, extrahera text (och meningar) från platsen i en databastabell.

Texten kommer senare att användas för:

  • beräkning ord frekvenser
  • bestämma commons fraser och ordkombinationer
  • avgör ord som co-uppstå
  • sammanhanget bearbetning och detektion

Spindeln är att kunna spåra dess framsteg:

  • vet vilka sidor man redan har bearbetat
  • veta vilka sidor är i sin "TODO-lista"
så att den kan startas och stoppas utan att förlora information och kan undvika dubbel-behandling (där samma sidan bearbetas mer än en gång, vilket skevning frekvensdata)

Dessutom bör filter kunna definieras på ett per-url grund för att ta bort oönskade data. Till exempel på www.dn.se syn, bör ett filter i förväg tillämpas som tar bort sidhuvudet och menyerna innan att döma extraktion, så att orden "nyheter", "sport", "väder" etc. är inte ingår i frekvens räknas för varje enskild sida.

Spindeln är konstruerad för att köras i en server miljö, eftersom det kommer att kräva betydande CPU och bandbredd. Spindeln är en uppsättning Java bibliotek som kan anropas från andra Java-program under via dynamiska webbsidor som JSP / servlets.

När varje sida besöks, följande uppgifter registreras:

  • url
  • datum / tid besökt
  • titeln på sidan
  • språket av ämnet (blank if unknown)
  • punkterna / meningar utvinns från sidan

Online gränssnitt

Gränssnittet gör det möjligt för:

  • skapandet av nya genomsökningar
  • visa utvecklingen av nuvarande genomsökningar
  • visa och söka lista över aktuella sidor sökte
  • visa och söka lista över pågående sidor
  • tittar meningar extraherade från vissa sidor (linked from lists above)