SpiderDuck: Trình lấy URL theo thời gian thực của Twitter

nội dung

Các tweet thường chứa URL hoặc liên kết đến nhiều nội dung khác nhau trên web, bao gồm hình ảnh, video, bài báo tin tức và bài viết blog. SpiderDuck là một dịch vụ tại Twitter lấy tất cả các URL được chia sẻ trong các tweet theo thời gian thực, phân tích nội dung đã tải xuống để trích xuất siêu dữ liệu quan tâm và làm cho siêu dữ liệu đó có sẵn cho các dịch vụ Twitter khác tiêu thụ trong vòng vài giây.

Nhiều đội ngũ tại Twitter cần truy cập nội dung liên kết, thường là theo thời gian thực, để cải thiện các sản phẩm của Twitter. Ví dụ:

  • Tìm kiếm để lập chỉ mục các URL đã được giải quyết và cải thiện độ liên quan
  • Khách hàng để hiển thị một số loại phương tiện nhất định, chẳng hạn như ảnh, bên cạnh Tweet
  • Nút Tweet để đếm số lần mỗi URL đã được chia sẻ trên Twitter
  • Tin cậy & An toàn để hỗ trợ trong việc phát hiện phần mềm độc hại và spam
  • Phân tích để hiển thị một loạt các thống kê tổng hợp về các liên kết được chia sẻ trên Twitter

Bối cảnh

Tóm tắt
SpiderDuck là dịch vụ của Twitter giúp thu thập và phân tích các URL được chia sẻ trong các Tweet theo thời gian thực. Dịch vụ này giải quyết những hạn chế của hệ thống trước đó bằng cách tải nội dung và lưu trữ thông tin metadata. SpiderDuck bao gồm các thành phần chính như Kestrel (hệ thống hàng đợi tin nhắn), Schedulers (các tác vụ xác định và lên lịch tải URL), Fetchers (máy chủ thực hiện yêu cầu HTTP), và các kho lưu trữ metadata và nội dung. Hệ thống này được thiết kế để mở rộng theo nhu cầu của Twitter, xử lý các URL một cách nhanh chóng và hiệu quả. Các Fetchers thực hiện việc tải URL, kiểm tra và tuân thủ các quy tắc robots.txt, đồng thời áp dụng giới hạn tốc độ để tránh quá tải cho các máy chủ web. SpiderDuck không chỉ cải thiện khả năng tìm kiếm và hiển thị nội dung mà còn hỗ trợ các nhóm khác trong việc phát hiện malware và thống kê liên kết được chia sẻ.