Trang chủ Tin Tức Cộng đồng Reddit muốn tải về hơn 10 tỷ video YouTube, trong...

Cộng đồng Reddit muốn tải về hơn 10 tỷ video YouTube, trong một dự án lưu trữ dữ liệu khổng lồ

14441
Diễn đàn Reddit có một cộng đồng những kẻ lưu trữ dữ liệu, được gọi là r/datahoarders. Cộng đồng này của Reddit được biết đến với các dự án lưu trữ dữ liệu khổng lồ từ mạng internet. Tuy nhiên bây giờ họ muốn thực hiện một dự án điên rồ hơn, đó là lưu trữ toàn bộ video của YouTube nhằm bảo vệ chúng.
Đó là một ý tưởng kỳ lạ, nhưng lại hoàn toàn có ý nghĩa. Bởi các video trên YouTube một ngày nào đó có thể bị xóa và biến mất vĩnh viễn. Có thể do nhiều nguyên nhân khác nhau, ví dụ như kênh YouTube đó bị đóng cửa.

 Vì vậy mà vào tháng 7, một thành viên của Reddit có nickname “traal” đã chia sẻ ý tưởng của mình trong nhóm cộng đồng r/datahoarders. Anh chàng này muốn lưu trữ toàn bộ siêu dữ liệu của nền tảng YouTube, không chỉ có video mà còn bao gồm cả các mô tả, tiêu đề, hình ảnh đại diện và cả phụ đề nếu có.
Ý tưởng mới nghe có vẻ khá điên rồ, bởi YouTube lưu trữ hàng tỷ video và cứ mỗi phút lại có thêm 300 giờ video mới được đăng lên. Tuy nhiên có một số thành viên của Reddit lại rất ủng hộ, trong đó có một thành viên là “-Archivist”. “-Archivist” là ban quản trị của subreddit này, đồng thời cũng là thành viên hoạt động tích cực nhất. Anh chàng này cũng là người điều hành dự án The Eye, một dự án lưu trữ siêu dữ liệu liên quan đến chủ đề DIY. Anh chàng này cũng thường nhận được lời nhờ vả để lưu trữ các kênh YouTube có nguy cơ bị đóng cửa và xóa bỏ các video. Ví dụ như khi kênh YouTube InfoWars có nguy cơ bị đóng cửa cách đây vài tháng, “-Archivist” đã được nhờ để tải về và lưu trữ hơn 33.000 video. Mặc dù kênh YouTube này đã không bị đóng cửa, nhưng “-Archivist” cũng đã hoàn thành việc lưu trữ một lượng video khổng lồ.

Nhưng đó mới chỉ là một phần rất nhỏ, nếu so với dự án lưu trữ toàn bộ video trên YouTube sắp tới. Theo ước tính của “-Archivist”, YouTube hiện có thể có hơn 10 tỷ video và mỗi video có ít nhất 5 file siêu dữ liệu gồm phụ đề, hình đại diện, mô tả, chú thích và tập tin JSON chứa các thông tin kỹ thuật khác. Một số video khác có hàng tá file siêu dữ liệu, tùy thuộc vào việc video đó có bao nhiêu phụ đề ngôn ngữ khác nhau. Điều đó có nghĩa là “-Archivist” phải tải về ít nhất là 50 tỷ file dữ liệu, hoặc thậm chí có thể hơn gấp nhiều lần. Tuy nhiên theo “-Archivist”, việc tải số lượng file khổng lồ này chưa phải là vấn đề rắc rối nhất. Mà vấn đề khiến anh đau đầu là làm thế nào quản lý được số lượng file này. “Khi bạn có khoảng 10GB dữ liệu gồm có 10 triệu file, bạn đang gặp rắc rối lớn”. Theo “-Archivist”, hầu hết các hệ điều hành và công cụ quản lý không cho phép người dùng mở các thư mục chứa hơn 50.000 file, không nói đến hàng chục triệu file dữ liệu. Điều đó có nghĩa để quản lý được tất cả các dữ liệu này, cần có những thiết bị lưu trữ đặc biệt và người quản lý cũng cần có kiến thức sâu rộng về cơ sở dữ liệu.

 Bên cạnh đó, một vấn đề khác là làm thế nào để tìm kiếm được tất cả các video trên YouTube. YouTube có khoảng hơn 1 tỷ người dùng, ước tính khoảng 100 triệu kênh. Một công cụ do “-Archivist” và cộng tác viên của anh tạo ra có thể giúp rà soát địa chỉ ID của các kênh YouTube, để từ đó bắt đầu việc tìm kiếm và tải video.
Nhưng tốc độ của quá trình này chỉ khoảng 35.000 – 50.000 ID mỗi ngày. Với tốc độ này, phải mất tới một năm chỉ để lấy được ID của 10 triệu kênh YouTube, chưa tính đến thời gian để trích xuất các file dữ liệu. Hiện tại, anh chàng này vẫn đang tìm cách để thu thập các file dữ liệu từ YouTube sao cho hiệu quả nhất và không mất quá nhiều thời gian. Tiếp sau đó mới là làm sao lưu trữ và chia sẻ các video này cho tất cả mọi người thuộc thế hệ sau. Biếu đâu một ngày nào đó YouTube sẽ đóng cửa, và đây sẽ là khối tài sản vô giá. Tham khảo: motherboard