Semalt Ekspertindən Chrome Veb Scraper Təlimatı

Google Chrome-dan istifadə edirsinizsə, brauzeriniz üçün veb səhifələrin qırılmasına kömək edə biləcək bir genişləndirmə var. '' Sındırıcı '' olaraq bilinir və problem olmadan istifadə edilə bilər. Scrapper bir veb sayt məzmununu qırmaqda və nəticələrin Google sənədlərinə yüklənməsində kömək edəcəkdir.
Scraper uzantısından istifadə edərək veb saytı necə qırdırmaq olar?
1. Google Chrome-da Chrome Veb Mağazasını seçin;
2. Genişləndirmələrdə '' Scrappper '' üçün axtarış aparın;
3. İlk axtarış nəticəsi '' Scrappper '' olaraq bilinən uzantıdır;
4. '' Chrome'a əlavə et 'olaraq göstərilən düyməni seçin;
5. İngiltərə millət vəkillərinin siyahısına qayıt;
6. Aşağıdakı linki vurun;
7. İndi bir millət vəkili axtarın və girişin qeyd olunduğundan əmin olun;

8. "Scrape Oxşar ..." seçimini seçmək üçün sağ vurun;

9. Skarlama üçün konsol başqa bir pəncərədə açılacaq;
10. Qırıntı konsolundakı qırılmış məzmuna baxın;
11. Məzmunun Google Cədvəl şəklində saxlanmasını təmin etmək üçün "Google Sənədlərə Saxla ..." seçin.
Geniş qırıntı
Bu reseptə yapışmadan əvvəl HTML əsaslarını anlamaq faydalıdır. Məsələn, bu link vasitəsilə HTML-yə qısa bir giriş oxuya bilərsiniz
Təsəvvür edək ki, məşhur İtalyan aktrisa Asiya Argento-nun rol aldığı bütün filmlərə maraq göstəririk.
1. IMDB-də aktyorların çox ətraflı bir arxivi var. Asia Argento saytı: http://www.imdb.com/name/nm0000782/;
2. Burada aktrisanın oynadığı bütün rollara baxa bilərsiniz. Bizi maraqlandıran məlumatları yığmağa başlayaq;
3. Yuxarıda göstərildiyi kimi qaşınmağa çalışın;
4. Siyahının bir az təhrif olunduğunu görəcəksiniz. Buradakı siyahının fərqli quruluşa sahib olması ilə əlaqədardır;
5. kazıyıcı konsoluna baş vurun. Yuxarı solda, XPath deyən kiçik qutu görəcəksiniz;
6. Xpath XML və HTML üçün işləyən bir növ sorğu dili;
7. XPath, maraqlandığınız səhifənin hissələrini tapmağa kömək edə bilər. Növbəti şey uyğun element tapmaq və bunun üçün XPath yazmaqdır;
8. İndi masamızı təşkil edək;
9. Bütün məlumatlara sahib olan mövcud XPath'ımızın "// div [3] / div [3] / div [2] / div" olduğunu görürsünüz.
10. XPath, HTML sənədinə baxmaq və üçüncü elementi, sonra ikinci elementi və sonra hamısını seçmək üçün Sistemə məlumat verir;
11. Lakin, məlumatlarımızın ayrılmasını istərdik;
12. Bunu etmək üçün konsoldakı sütunlar bölməsindən istifadə edin;
13. Gəlin başlığımızı tapaq RİR‚в‚њ Başlığı görmək üçün Inspect Element istifadə edin;
14. Bir etiket daxilində başlığı yoxlayın. Etiketi XPath'a əlavə edin;

15. İfadə lazımi şəkildə işləyir, buna görə onu ilk sütununuz halına gətirin;
16. "Sütunlar" hissəsində birinci sütunun adını "başlıq" ilə əvəz edin;
17. Ona XPath əlavə edin;
18. Sütun hissəsində XPaths nisbi və "./b" <b> elementini seçəcək deməkdir
19. Başlıq sütunu üçün XPath-da "./b" əlavə edin və "qırıntı" seçin;

20. İndi bir il davam edək. İllər bir arada tapıla bilər;
21. Başlığınız üçün sütunun yanında kiçik bir artı seçərək yeni bir sütun yaradın;
22. XPath "./span" istifadə edərək "il" üçün bir sütun yaradın;
23. Qırıntıları vurun və ilin necə əlavə olunduğuna baxın;
24. Bitdi!