09/10/2020

Lượt xem 1141

10 bộ vi xử lý hàng đầu để tăng tốc AI tại điểm cuối

Mặc dù sự tăng tốc của trí tuệ nhân tạo và các ứng dụng học máy vẫn còn là một lĩnh vực tương đối mới, nhưng có rất nhiều bộ vi xử lý xuất hiện để tăng tốc hầu hết mọi khối lượng công việc của mạng nơ-ron. Hãy cùng Nexcom.vn tham khảo những bộ vi xử lý hàng đầu được tích hợp trong ứng dụng AI dưới đây.

Intel Movidius Myriad X

Được phát triển bởi Movidius, công ty khởi nghiệp đến từ Ireland được Intel mua lại vào năm 2016, Myriad X là đơn vị xử lý thị giác thế hệ thứ ba của công ty và là đơn vị đầu tiên có công cụ tính toán mạng nơ-ron chuyên dụng, cung cấp 1 tera-hoạt động mỗi giây (TOPS) tính toán mạng nơ ron sâu (DNN) chuyên dụng. Công cụ tính toán nơ-ron giao tiếp trực tiếp với kết cấu bộ nhớ thông minh thông lượng cao để tránh tắc nghẽn bộ nhớ khi truyền dữ liệu. Nó hỗ trợ tính toán FP16 và INT8. Myriad X cũng có một cụm 16 lõi SHAVE độc quyền và các bộ tăng tốc tầm nhìn được nâng cấp và mở rộng.

Myriad X xây dựng trong Intel’s Neural Compute Stick 2, một nền tảng đánh giá hiệu quả dưới dạng ổ USB. Nó có thể được cắm vào bất kỳ máy trạm nào để cho phép các ứng dụng AI và thị giác máy tính chạy trên phần cứng Movidius chuyên dụng nhanh chóng.

NXP Semiconductors i.MX 8M Plus

I.MX 8M Plus là bộ xử lý ứng dụng không đồng nhất có IP bộ tăng tốc mạng nơ-ron chuyên dụng của VeriSilicon (Vivante VIP8000). Nó cung cấp khả năng tăng tốc 2,3 TOPS để suy luận các thiết bị điểm cuối trong internet vạn vật tiêu dùng và công nghiệp, đủ để nhận dạng nhiều đối tượng, nhận dạng giọng nói của 40.000 từ hoặc thậm chí là hình ảnh y tế (MobileNet v1 với tốc độ 500 hình ảnh mỗi giây).

Ngoài bộ xử lý mạng nơ-ron, i.MX 8M Plus còn có hệ thống con Arm Cortex-A53 lõi tứ chạy ở tốc độ 2 GHz, cùng với hệ thống con thời gian thực Cortex-M7. Đối với các ứng dụng thị giác, có hai bộ xử lý tín hiệu hình ảnh hỗ trợ hai camera độ nét cao cho tầm nhìn âm thanh nổi hoặc một camera 12 megapixel (MP) duy nhất. Đối với thoại, thiết bị bao gồm bộ xử lý tín hiệu kỹ thuật số âm thanh HiFi4 800 MHz (DSP) để xử lý trước và sau dữ liệu thoại.

XMOS xcore.ai

Xcore.ai được thiết kế để cho phép điều khiển bằng giọng nói trong các ứng dụng trí tuệ nhân tạo của vạn vật (AIoT). Một bộ xử lý chéo (với hiệu suất của bộ xử lý ứng dụng và hoạt động thời gian thực, công suất thấp của bộ vi điều khiển), thiết bị này được thiết kế để máy học suy luận về tín hiệu thoại.

Nó dựa trên kiến trúc Xcore độc quyền của XMOS, bản thân nó được xây dựng trên các block xây dựng được gọi là lõi logic có thể được sử dụng cho I/O, DSP, chức năng điều khiển hoặc tăng tốc AI. Có 16 lõi trong số này trên mỗi chip xcore.ai và các nhà thiết kế có thể chọn số lượng để phân bổ cho mỗi chức năng. Việc ánh xạ các chức năng khác nhau tới các lõi logic trong phần firmware cho phép tạo ra một “virtual SoC,” hoàn toàn được viết bằng phần mềm. XMOS đã thêm khả năng đường ống vectơ vào Xcore cho khối lượng công việc học máy.

Xcore.ai hỗ trợ mạng 32-bit, 16-bit, 8-bit và 1-bit (binarized), cung cấp 3.200 MIPS, 51.2 GMACC và 1.600 MFLOPS. Nó có 1 Mbyte SRAM nhúng cộng với giao diện DDR năng lượng thấp để mở rộng.

Texas Instruments Inc. TDA4VM

Là một phần của Sê-ri Jacinto 7 dành cho hệ thống hỗ trợ lái xe tiên tiến (ADAS) trên ô tô, TDA4VM là hệ thống trên chip (SoC) đầu tiên của TI có tích hợp bộ tăng tốc học sâu chuyên dụng trên chip. Khối này dựa trên C7x DSP cộng với một máy gia tốc nhân ma trận (MMA) được phát triển trong nhà.

SoC có thể xử lý luồng video từ một camera phía trước lên đến 8 MP hoặc kết hợp từ bốn đến sáu camera 3 MP cùng với cảm biến radar, LiDAR và siêu âm. Ví dụ, MMA có thể được sử dụng để thực hiện hợp nhất cảm biến trên các đầu vào này trong hệ thống đỗ xe có người phục vụ tự động.

TDA4VM được thiết kế cho các thiết kế ADAS từ 5 đến 20W. Thiết bị đang ở giai đoạn tiền sản xuất nhưng hiện đã có sẵn các bộ phát triển.

Nvidia Corp. Jetson Nano

Jetson Nano là một mô-đun đơn vị xử lý đồ họa (GPU) nhỏ của Nvidia nhưng mạnh mẽ dành cho các ứng dụng AI trong thiết bị điểm cuối. Được xây dựng trên cùng một kiến trúc Maxwell như các thành viên lớn hơn của gia đình Jetson (AGX Xavier và TX2), GPU trên mô-đun Nano có 128 lõi và có khả năng 0,5 TFLOPS, đủ để chạy nhiều mạng nơ-ron trên một số luồng dữ liệu từ cao- cảm biến hình ảnh độ phân giải, theo công ty. Nó tiêu thụ ít, chỉ 5W khi sử dụng. Mô-đun này cũng có CPU Arm Cortex-A57 lõi tứ.

Giống như các bộ phận khác trong phạm vi của Nvidia, Jetson Nano sử dụng CUDA X - bộ sưu tập thư viện tăng tốc của Nvidia dành cho mạng nơ-ron.

Kneron Inc. KL520

Sản phẩm đầu tiên từ công ty khởi nghiệp Mỹ-Đài Loan Kneron là bộ xử lý mạng nơ-ron KL520, được thiết kế để xử lý hình ảnh và nhận dạng khuôn mặt trong các ứng dụng như nhà thông minh, hệ thống an ninh và thiết bị di động. Nó được tối ưu hóa để chạy mạng nơ-ron phức hợp (CNN).

KL520 có thể chạy 0,3 TOPS và tiêu thụ 0,5 W (tương đương 0,6 TOPS / W), công ty cho biết là đủ để nhận dạng khuôn mặt chính xác, do hiệu suất MAC của chip cao (trên 90%). Kiến trúc chip có thể cấu hình lại và có thể được điều chỉnh cho phù hợp với các mô hình CNN khác nhau. Trình biên dịch bổ sung của công ty cũng sử dụng các kỹ thuật nén để chạy các mô hình lớn hơn trong tài nguyên của chip nhằm tiết kiệm năng lượng và chi phí. KL520 hiện có sẵn và cũng có thể được tìm thấy trên accelerator card của nhà sản xuất AAEON (M2AI-2280-520).

Gyrfalcon Lightspeeur 5801

Được thiết kế cho thị trường điện tử tiêu dùng, Gyrfalcon’s Lightspeeur 5801 cung cấp 2,8 TOPS ở mức tiêu thụ điện 224 mW (tương đương 12,6 TOPS / W) với độ trễ 4 ms. Gyrfalcon sử dụng kỹ thuật bộ xử lý trong bộ nhớ đặc biệt tiết kiệm điện so với các kiến trúc khác. Mức tiêu thụ điện thực sự có thể được đánh đổi với tốc độ đồng hồ bằng cách thay đổi tốc độ đồng hồ từ 50 đến 200 MHz. Lightspeeur 5801 chứa 10 MB bộ nhớ, vì vậy toàn bộ mô hình có thể nằm gọn trên chip.

Bộ phận này là chip sản xuất thứ tư của công ty và đã được tìm thấy trong điện thoại thông minh tầm trung Q70 của LG, nơi xử lý suy luận cho các hiệu ứng máy ảnh.

 

Eta Compute ECM3532

Sản phẩm sản xuất đầu tiên của Eta Compute, ECM3532, được thiết kế để tăng tốc AI trong các thiết kế sử dụng pin hoặc thu năng lượng cho IoT. Có thể đạt được các ứng dụng luôn mở trong xử lý hình ảnh và kết hợp cảm biến với ngân sách điện năng thấp nhất là 100 µW.

Con chip này có hai lõi - lõi vi điều khiển Arm Cortex-M3 và lõi NXP CoolFlux DSP.

Syntiant Corp. NDP100

Bộ vi xử lý Syntiant’s NDP100 của công ty khởi nghiệp Hoa Kỳ được thiết kế cho máy học suy luận về lệnh thoại trong các ứng dụng có nguồn điện hạn hẹp. Silicon dựa trên bộ xử lý trong bộ nhớ của nó tiêu thụ ít hơn 140 µW công suất hoạt động và có thể chạy các mô hình để phát hiện từ khóa, phát hiện từ đánh thức, nhận dạng người nói hoặc phân loại sự kiện.

Theo Syntiant, sản phẩm sẽ được sử dụng để cho phép thao tác rảnh tay với các thiết bị tiêu dùng như tai nghe nhét tai, máy trợ thính, đồng hồ thông minh và điều khiển từ xa.

GreenWaves Technologies GAP9

GAP9, bộ xử lý ứng dụng tiêu thụ điện năng cực thấp đầu tiên của công ty khởi nghiệp GreenWaves của Pháp, có một cụm tính toán mạnh mẽ gồm chín lõi RISC-V có tập lệnh đã được tùy chỉnh rất nhiều để tối ưu hóa điện năng tiêu thụ. Nó có giao diện âm thanh đa kênh hai chiều và 1,6 MB RAM bên trong.

GAP9 có thể xử lý khối lượng công việc mạng nơ-ron cho hình ảnh, âm thanh và cảm biến rung trong các thiết bị IoT chạy bằng pin. Các số liệu của GreenWaves có GAP9 chạy MobileNet V1 trên hình ảnh 160 × 160, với tỷ lệ kênh là 0,25 chỉ trong 12 ms và với mức tiêu thụ điện là 806 μW / khung hình / giây.

-EE Times-