System and method for locating pages on the world wide web...

G - Physics – 06 – F

Patent

Rate now

  [ 0.00 ] – not rated yet Voters 0   Comments 0

Details

G06F 17/30 (2006.01)

Patent

CA 2240350

A Web crawler system and method for quickly fetching and analyzing Web pages on the World Wide Web or from computers connected by a network, includes a hash table stored in a random access memory (RAM) and a sequential Web information disk file. For every Web page known to the system, the Web crawler system stores an entry in the sequential disk file as well as a smaller entry in the hash table. The hash table entry includes a fingerprint value, a fetched flag that is set true only if the corresponding Web page has been successfully fetched, and a file location indicator that indicates where the corresponding entry is stored in the sequential disk file. Each sequential disk file entry includes the URL of a corresponding Web page, plus fetch status information concerning that Web page. All accesses to the Web information disk file are made sequentially via an input buffer such that a large number of entries from the sequential disk file are moved into the input buffer as single I/O operation. The sequential disk file is then accessed from the input buffer. Similarly, all new entries to be added to the sequential file are stored in an append buffer, and the contents of the append buffer are added to the end of the sequential whenever the append buffer is filled. In this way random access to the Web information disk file is eliminated, and latency caused by disk access limitations is minimized.

Cette invention concerne un dispositif de type "chercheur Web", ainsi que le procédé correspondant, conçus pour l'extraction rapide et l'analyse de pages Web sur le "World Wide Web" ou de documents d'un réseau d'ordinateurs. Ledit dispositif comporte une table de hachage stockée en mémoire vive (RAM) et un fichier disque séquentiel contenant des informations relatives au Web. Pour chaque page Web connue du système, le dispositif de type chercheur Web enregistre une donnée dans le fichier disque séquentiel de même qu'une donnée de moindre taille dans la table de hachage. La donnée de la table de hachage comporte une valeur d'empreinte, un fanion d'extraction qui est mis à 1 seulement lorsque la page Web correspondante a été extraite avec succès, ainsi qu'un indicateur de localisation du fichier qui indique où la donnée correspondante est stockée dans le fichier disque séquentiel. Chaque donnée relative à un fichier disque séquentiel comporte l'adresse URL de la page Web correspondante, associée à une information relative au statut d'extraction de la page Web. Tous les accès au fichier disque contenant les informations relatives au Web sont effectués séquentiellement par l'intermédiaire d'un tampon d'entrée de telle sorte qu'un grand nombre de données du fichier séquentiel disque sont transférées dans ledit tampon d'entrée en une opération d'entrée-sortie unique. Il est ensuite possible d'accéder au fichier disque séquentiel à partir du tampon d'entrée. De manière analogue, toutes les nouvelles données à ajouter au fichier séquentiel sont stockées dans un tampon d'ajouts, les éléments contenus dans le tampon d'ajouts étant ajoutés à la fin du fichier séquentiel dès que ledit tampon d'ajouts est rempli. De cette manière, on supprime l'accès aléatoire au fichier disque d'informations du Web et l'on minimise le temps d'attente engendré par les limitations d'accès au disque.

LandOfFree

Say what you really think

Search LandOfFree.com for Canadian inventors and patents. Rate them and share your experience with other people.

Rating

System and method for locating pages on the world wide web... does not yet have a rating. At this time, there are no reviews or comments for this patent.

If you have personal experience with System and method for locating pages on the world wide web..., we encourage you to share that experience with our LandOfFree.com community. Your opinion is very important and System and method for locating pages on the world wide web... will most certainly appreciate the feedback.

Rate now

     

Profile ID: LFCA-PAI-O-1818837

  Search
All data on this website is collected from public sources. Our data reflects the most accurate information available at the time of publication.