Đó là một ý tưởng kỳ lạ, nhưng lại hoàn toàn có ý nghĩa. Bởi các video trên YouTube một ngày nào đó có thể bị xóa và biến mất vĩnh viễn. Có thể do nhiều nguyên nhân khác nhau, ví dụ như kênh YouTube đó bị đóng cửa.
Ý tưởng mới nghe có vẻ khá điên rồ, bởi YouTube lưu trữ hàng tỷ video và cứ mỗi phút lại có thêm 300 giờ video mới được đăng lên. Tuy nhiên có một số thành viên của Reddit lại rất ủng hộ, trong đó có một thành viên là “-Archivist”. “-Archivist” là ban quản trị của subreddit này, đồng thời cũng là thành viên hoạt động tích cực nhất. Anh chàng này cũng là người điều hành dự án The Eye, một dự án lưu trữ siêu dữ liệu liên quan đến chủ đề DIY. Anh chàng này cũng thường nhận được lời nhờ vả để lưu trữ các kênh YouTube có nguy cơ bị đóng cửa và xóa bỏ các video. Ví dụ như khi kênh YouTube InfoWars có nguy cơ bị đóng cửa cách đây vài tháng, “-Archivist” đã được nhờ để tải về và lưu trữ hơn 33.000 video. Mặc dù kênh YouTube này đã không bị đóng cửa, nhưng “-Archivist” cũng đã hoàn thành việc lưu trữ một lượng video khổng lồ.
Nhưng đó mới chỉ là một phần rất nhỏ, nếu so với dự án lưu trữ toàn bộ video trên YouTube sắp tới. Theo ước tính của “-Archivist”, YouTube hiện có thể có hơn 10 tỷ video và mỗi video có ít nhất 5 file siêu dữ liệu gồm phụ đề, hình đại diện, mô tả, chú thích và tập tin JSON chứa các thông tin kỹ thuật khác. Một số video khác có hàng tá file siêu dữ liệu, tùy thuộc vào việc video đó có bao nhiêu phụ đề ngôn ngữ khác nhau. Điều đó có nghĩa là “-Archivist” phải tải về ít nhất là 50 tỷ file dữ liệu, hoặc thậm chí có thể hơn gấp nhiều lần. Tuy nhiên theo “-Archivist”, việc tải số lượng file khổng lồ này chưa phải là vấn đề rắc rối nhất. Mà vấn đề khiến anh đau đầu là làm thế nào quản lý được số lượng file này. “Khi bạn có khoảng 10GB dữ liệu gồm có 10 triệu file, bạn đang gặp rắc rối lớn”. Theo “-Archivist”, hầu hết các hệ điều hành và công cụ quản lý không cho phép người dùng mở các thư mục chứa hơn 50.000 file, không nói đến hàng chục triệu file dữ liệu. Điều đó có nghĩa để quản lý được tất cả các dữ liệu này, cần có những thiết bị lưu trữ đặc biệt và người quản lý cũng cần có kiến thức sâu rộng về cơ sở dữ liệu.
Nhưng tốc độ của quá trình này chỉ khoảng 35.000 – 50.000 ID mỗi ngày. Với tốc độ này, phải mất tới một năm chỉ để lấy được ID của 10 triệu kênh YouTube, chưa tính đến thời gian để trích xuất các file dữ liệu. Hiện tại, anh chàng này vẫn đang tìm cách để thu thập các file dữ liệu từ YouTube sao cho hiệu quả nhất và không mất quá nhiều thời gian. Tiếp sau đó mới là làm sao lưu trữ và chia sẻ các video này cho tất cả mọi người thuộc thế hệ sau. Biếu đâu một ngày nào đó YouTube sẽ đóng cửa, và đây sẽ là khối tài sản vô giá. Tham khảo: motherboard