Demo Dùng PHP Crawler Để Lấy Dữ Liệu Tự Động Từ Một Website

Hôm nay chúng ta sẽ tìm hiểu crawler là gì và demo dùng PHP Crawler để lấy dữ liệu từ một website một cách tự động.

I. Crawler là gì ?

Crawler là 1 từ để ám chỉ các công cụ (phần mềm, modules, plugins… hay đơn giản chỉ là 1 funtion nho nhỏ) có chức năng chính là tự động phân tích dữ liệu từ nguồn nội dung sau đó bóc tách những thông tin cần thiết theo tiêu chí mà nó được lập trình viên hệ thống thiết lập.

II. Dùng thư viện PHPCrawl để lấy dữ liệu tự động từ website

1. Về PHPCrawl

PHPCrawl là một thư viện phát triển cho việc crawling/spidering websites viết bằng ngôn ngữ PHP. Các bạn có thể tham khảo thêm tại: http://phpcrawl.cuab.de/.

2. Demo dùng PHPCrawl để lấy dữ liệu tự động từ một website

Trước tiên, các bạn có tải thư viện PHPCrawl tại đây, sau đó giải nén vào localhost của bạn. Chúng ta có thể chạy ngay file example.php và xem kết quả, nhưng để đơn giản cho các bạn mới tìm hiểu, các bạn có thể sủa file example.php bằng đoạn code dưới mà tôi đã giải thích rõ ràng.

Để hiểu rõ hơn, các bạn có thể xem thêm các phương thức của PHPCrawl tại đây và các phương thức của lớp PHPCrawlerDocumentInfo tại đây.

Kết quả:

crawler

 

Các bạn có thấy chúng ta vẫn chưa lấy hết links trên trang phpcoban.com do chúng ta setTrafficLimit(1000 * 1024), các bạn có thể bỏ dòng $crawler->setTrafficLimit(1000 * 1024) và xem kết quả rất thú vị. :)).

Như vậy, chúng ta đã lấy được các links trên trang  phpcoban.comGiờ chúng ta sẽ kết hợp thư viện simple_html_dom để phân tích dữ liệu trên các links chúng ta vừa thu thập được.

Các bạn tải thư viện simple_html_dom tại đây.
Bây giờ chúng ta sẽ lấy title trên các links mà ta thu thập được trong quá trình crawler.

Các bạn sửa lại file example.php

Các bạn có thể xem các phương thức thư viện simple_html_dom tại đây.
Chúng ta chạy file example.php và xem kết quả:

crawler-title

 

 

Như vậy, chúng ta đã tìm hiểu được crawler là gì và cách lấy dữ liệu tự động từ một website. Bài tiếp theo chúng ta sẽ tìm hiểu Phân tích dữ liệu từ PHPcrawler và lưu vào Database.

You may also like...

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">