Đã thấy một phân tích thú vị về chiến lược kiến trúc suy luận của một nhà cung cấp đám mây lớn.
Chúng đang chạy với một thiết lập mô-đun - chia các tác vụ suy luận thành các thành phần riêng biệt thay vì các máy chủ nguyên khối. Di chuyển thông minh để mở rộng quy mô.
Lớp định tuyến nhận biết KV-cache, có nghĩa là nó biết chính xác vị trí của các cặp khóa-giá trị được lưu trong bộ nhớ đệm trước khi chuyển hướng yêu cầu. Cắt giảm đáng kể tính toán dư thừa.
Điều thu hút sự chú ý của tôi: cơ sở hạ tầng của họ được xây dựng có mục đích để phục vụ lưu lượng sản xuất, không phải khối lượng công việc đào tạo. Con thú hoàn toàn khác.
Ngôi sao bắc đẩu của họ? Độ trễ nhất quán khi được tải trong thế giới thực. Không theo đuổi điểm chuẩn tổng hợp trông đẹp trên giấy tờ nhưng lại sụp đổ dưới áp lực.
Điều này cộng hưởng với cách các mạng phi tập trung cần suy nghĩ về kiến trúc nút - độ tin cậy so với các chỉ số phù phiếm.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
13 thích
Phần thưởng
13
4
Đăng lại
Retweed
Bình luận
0/400
potentially_notable
· 7giờ trước
Kiến trúc mô-đun ngày càng trở nên chi tiết hơn và tôi cảm thấy rằng khả năng cạnh tranh thực sự vẫn nằm ở độ trễ nhất quán
Xem bản gốcTrả lời0
SatoshiChallenger
· 7giờ trước
Trớ trêu thay, chỉ mất mười năm để nhà máy lớn cuối cùng hiểu rằng môi trường sản xuất và phòng thí nghiệm là hai thứ khác nhau.
Xem bản gốcTrả lời0
hodl_therapist
· 8giờ trước
Định tuyến nhận biết KV-Cache thực sự là một điều tuyệt vời, thực tế hơn nhiều so với những điểm chuẩn khoe khoang đó
Xem bản gốcTrả lời0
LiquidationSurvivor
· 8giờ trước
Định tuyến nhận biết KV-Cache thực sự tuyệt vời, nhưng thành thật mà nói, cơ sở hạ tầng của các nhà sản xuất lớn từ lâu đã làm được điều này... Điều quan trọng là xem ai có thể ổn định độ trễ
Đã thấy một phân tích thú vị về chiến lược kiến trúc suy luận của một nhà cung cấp đám mây lớn.
Chúng đang chạy với một thiết lập mô-đun - chia các tác vụ suy luận thành các thành phần riêng biệt thay vì các máy chủ nguyên khối. Di chuyển thông minh để mở rộng quy mô.
Lớp định tuyến nhận biết KV-cache, có nghĩa là nó biết chính xác vị trí của các cặp khóa-giá trị được lưu trong bộ nhớ đệm trước khi chuyển hướng yêu cầu. Cắt giảm đáng kể tính toán dư thừa.
Điều thu hút sự chú ý của tôi: cơ sở hạ tầng của họ được xây dựng có mục đích để phục vụ lưu lượng sản xuất, không phải khối lượng công việc đào tạo. Con thú hoàn toàn khác.
Ngôi sao bắc đẩu của họ? Độ trễ nhất quán khi được tải trong thế giới thực. Không theo đuổi điểm chuẩn tổng hợp trông đẹp trên giấy tờ nhưng lại sụp đổ dưới áp lực.
Điều này cộng hưởng với cách các mạng phi tập trung cần suy nghĩ về kiến trúc nút - độ tin cậy so với các chỉ số phù phiếm.