Điểm nổi bật trong hội thảo AI trong thực tế

Damani Brown
Damani Brown
Melissa Mitchell
Melissa Mitchell
Mari Viana
Mari Viana

Ngày xuất bản: 14 tháng 10 năm 2025

Chúng tôi đã hợp tác với một nhóm các công ty khởi nghiệp ở Thành phố New York để tổ chức một hội thảo kỹ thuật về "AI trong thực tế". Mục tiêu rất đơn giản: minh hoạ cách AI phía máy khách và các API AI tích hợp có thể được tích hợp trực tiếp vào sản phẩm của họ để tăng tốc độ, quyền riêng tư và mang lại trải nghiệm người dùng tốt hơn.

Tổng cộng, chúng tôi đã tiếp đón 24 nhà phát triển đến từ 8 công ty khởi nghiệp sáng tạo. Phiên buổi sáng có các buổi nói chuyện của các chuyên gia về sản phẩm và kỹ thuật, đề cập đến tiềm năng to lớn của mô hình nguồn mở, mô hình trên thiết bị và tầm quan trọng chiến lược của việc đưa AI trực tiếp vào nền tảng web. Sau đó, các chuyên gia kỹ thuật đã đưa ra hướng dẫn thực tế để bắt đầu sử dụng các API AI tích hợp.

Người tham dự nhận thấy sự kiện này có giá trị cao và nhận thấy rằng việc sử dụng các API này rất dễ dàng, bất kể kiến thức hiện có của họ về học máy. Họ cũng khám phá ra các trường hợp sử dụng mới cho ứng dụng của mình thông qua thử nghiệm. Chúng tôi rất vui khi xác thực được tài liệu của mình. Một nhóm thậm chí còn giúp chúng tôi xác định và tái tạo một lỗi phức tạp, nhờ đó chúng tôi có thể gửi bản sửa lỗi.

Những người tham dự đã phát triển thành công 10 nguyên mẫu bằng AI phía máy khách. Hãy xem một số dự án của họ và tìm hiểu về trải nghiệm của họ tại sự kiện này.

Tính năng phát hiện sự kiện của bộ chuyển đổi bằng Prompt API

Mục tiêu của Adapter là xây dựng "Trung tâm kiểm soát cho cuộc sống hằng ngày của chúng ta, giúp tối đa hoá thời gian rảnh chứ không phải thời gian sử dụng thiết bị". Họ đã tạo một tiện ích chứng minh khái niệm với 2 chức năng:

  • Tính năng phát hiện sự kiện thông minh và phù hợp giúp xác định các sự kiện trong một trang web trong khi duyệt web (hoà nhạc, nhà hàng, sự kiện), sau đó điều chỉnh các sự kiện đó theo bối cảnh cá nhân, bao gồm cả tình trạng rảnh/bận trong lịch cá nhân, các lựa chọn ưu tiên trong cuộc sống và tín hiệu xã hội theo thời gian thực, tất cả đều được xử lý cục bộ.
  • Tính năng sắp xếp lại nội dung theo thời gian thực giúp cá nhân hoá thứ tự nội dung trên một trang web theo sở thích cá nhân của bạn theo yêu cầu.

Adapter đã sử dụng Prompt API để phân tích cú pháp, suy luận và gọi các công cụ, cũng như Writer API để tạo văn bản cục bộ.

"Chúng tôi đang thực hiện quy trình suy luận phức tạp và quy trình làm việc nhiều bước ở rìa với những hạn chế về quyền riêng tư. Điều này cho phép các ứng dụng trí tuệ cá nhân không thực tế khi mọi suy luận đều có nghĩa là dữ liệu vận chuyển trên các mạng trong khi tăng cường tính toán từ xa." – Dillon Ponzo, Kỹ sư sáng lập của Adapter

Các API AI tích hợp sẵn của Chrome cho phép các mô hình đơn giản xử lý dữ liệu trên thiết bị, đồng thời bảo đảm quyền riêng tư theo mặc định. Các kỹ sư sáng lập của Adapter là Aidan Crank và Dillon Ponzo coi đây là bằng chứng xác nhận triết lý kiến trúc của họ.

Crank giải thích: "Hầu hết các tiện ích AI đều nắm bắt ngữ cảnh và gửi ngữ cảnh đó đi nơi khác". Trước khi gia nhập Adapter, Crank từng làm việc về kỹ thuật học máy quy mô lớn tại AWS. "AI tích hợp sẵn trong Chrome đảo ngược mô hình đó. Dữ liệu cá nhân của bạn vẫn nằm trên thiết bị, nhưng bạn sẽ có được những trải nghiệm thông minh mà trước đây không thể có được."

Adam Ghetti, người đồng sáng lập Adapter (công ty trước đây của ông là Ionic Security đã tiên phong về bảo mật tự động dựa trên dữ liệu ở quy mô lớn), nhận thấy những tác động sâu sắc hơn: "Quyền riêng tư không phải là một tính năng mà bạn thêm vào; đó là một cấu trúc mà bạn chọn. AI tích hợp sẵn trong Chrome giúp kiến trúc đó trở nên thiết thực."

Khi Chrome mở rộng các chức năng này bằng khả năng hỗ trợ đa phương thức và các API phong phú hơn, thì thiết bị sẽ không chỉ bắt kịp đám mây. Đối với AI cá nhân và riêng tư, chúng ta cần vượt qua AI khi cần thiết.

Sublayer phân loại hình ảnh bằng Prompt API để cải thiện các biến thể

Sublayer đã tạo ra một ứng dụng thú vị có tên là Photoslider, được thiết kế để mang đến một cách thức hoàn toàn mới cho bạn tương tác và tạo các phiên bản của hình ảnh.

Để sử dụng PhotoSlider, người dùng tải ảnh lên hoặc chụp ảnh mới rồi nhấp vào Phân tích. Prompt API sẽ gửi những hình ảnh này đến mô hình để phân tích, yêu cầu mô hình xác định 3 thuộc tính chính và gán cho những thuộc tính đó một giá trị từ 1 đến 10. Ví dụ: một thuộc tính có thể là "truyền thống" hoặc "độ sáng".

Ở giao diện người dùng, người dùng sẽ thấy hình ảnh và các thanh trượt để điều chỉnh giá trị hoặc thêm các thuộc tính mới có giá trị tuỳ chỉnh. Yêu cầu thay đổi và hình ảnh sẽ được gửi đến AI phía máy chủ, nhờ đó, một mô hình lớn hơn có khả năng xuất dữ liệu đa phương thức có thể tạo ra một hình ảnh hoàn toàn mới dựa trên các thông số đã thay đổi. Bạn có thể lặp lại quy trình lặp đi lặp lại này vô số lần, giúp bạn kiểm soát hoàn toàn cho đến khi đạt được hình ảnh lý tưởng.

Scott Werner, Giám đốc điều hành của Sublayer, bày tỏ sự nhiệt tình của mình: "Chúng tôi thực sự muốn tìm hiểu về suy luận cục bộ. Việc cung cấp sẵn tính năng này trong trình duyệt trên máy của người dùng theo mặc định dễ dàng hơn rất nhiều so với việc yêu cầu người dùng tự tìm hiểu những điều phức tạp khi cài đặt trực tiếp các mô hình."

Echo3D xử lý các mô hình 3D thành dữ liệu có thể tìm kiếm phong phú

Echo3D cung cấp một nền tảng và API để các doanh nghiệp lưu trữ, bảo mật và chia sẻ các mô hình và bản quét 3D một cách liền mạch trên nhiều nhóm và tổ chức. Các quy trình 3D và văn bản nâng cao của họ xử lý hiệu quả các mô hình 3D thành dữ liệu phong phú, có thể tìm kiếm.

Tại sự kiện này, echo3D đã phát triển các công cụ 3D-to-text-to-3D (3D sang văn bản sang 3D) giúp nâng cao khả năng hiểu biết về hình ảnh của các thành phần. Họ đã sử dụng Prompt API để tự động hoá việc gắn thẻ mô hình, phát hiện nội dung trùng lặp và đơn giản hoá việc lập danh mục cũng như lập tài liệu cho các thư viện 3D rộng lớn.

{
  "description": "A 3D model of a large, tan-colored sandcastle with one main
    tower, four small towers, and staircases wrapping around. The towers
    have multiple windows. There is a main gate.",
  "tags": ["sand","castle","gate","tan","tower","staircase"]
}

Nhờ đó, mỗi tài sản đều có nội dung mô tả phong phú, nhất quán và có thể tìm kiếm được, giúp toàn bộ thư viện của người dùng trở nên ngăn nắp và dễ truy cập hơn. Ngoài ra, việc này giúp tiết kiệm dung lượng lưu trữ và ngăn chặn xung đột về phiên bản do các tệp dư thừa gây ra.

"Nhóm chúng tôi thực sự đánh giá cao sự kiện này. Chúng tôi đặc biệt ấn tượng với sự dễ dàng khi tích hợp các tính năng AI vào các ứng dụng web bằng AI tích hợp. Khả năng tạo mẫu và triển khai các tính năng AI an toàn phía máy khách trong một khoảng thời gian ngắn như vậy là một lợi thế đáng kể." – Alon Grinshpoon, Giám đốc điều hành tại echo3D

Spot2 tạo siêu dữ liệu có cấu trúc từ hình ảnh được tải lên

Ứng dụng Spot2 liệt kê các bất động sản cho thuê ở Thành phố Mexico. Thường thì khi các cơ sở lưu trú này được liệt kê, trang thông tin sẽ thiếu siêu dữ liệu quan trọng và các thông tin có giá trị khác. Các chi tiết này rất đa dạng, tuỳ thuộc vào mức độ chú ý đến từng chi tiết của nhà cung cấp. Spot2 đã dành cả ngày để nâng cao chất lượng dữ liệu bằng Prompt API.

Nhóm của họ đã phát triển một tính năng để tự động xử lý và sắp xếp cách siêu dữ liệu trang thông tin được cấu trúc. Quá trình này diễn ra ngay khi ảnh được tải lên, giúp đảm bảo tính đầy đủ và nhất quán. Bằng cách thực hiện tác vụ này ở phía máy khách thay vì phía máy chủ, tính năng này sẽ tiết kiệm chi phí.

Nếu được ra mắt, tính năng này hứa hẹn sẽ có tác động kép: cải thiện đáng kể chất lượng dữ liệu và giảm đáng kể chi phí vận hành. "Chúng tôi dự đoán rằng trang thông tin có chất lượng cao hơn cũng sẽ giúp tăng tỷ lệ chuyển đổi."

Hãy tham gia cùng chúng tôi vào lần tới