Captions hiện có 3 triệu nhà sáng tạo nội dung đăng ký sử dụng và đạt mức định giá 250 triệu đô la Mỹ sau vòng gọi vốn Series B mới đây.
Gaurav Misra, đồng sáng lập kiêm CEO Captions, đưa ra đoạn video của một người đàn ông đang hướng dẫn cách làm món bánh Fajita từ Mexico bằng nồi chiên không dầu. Phát trên Captions – ứng dụng chỉnh sửa video ứng dụng trí tuệ nhân tạo (AI), đoạn video này tự động tạo ra phần phụ đề theo phông chữ in đậm.
Sau đó Misra giới thiệu cách công cụ chuyển ngữ trên Captions có thể dịch phần phụ đề sang ngôn ngữ khác, cụ thể là tiếng Hindi (Ấn Độ), cho toàn bộ video. Qua một loạt thao tác kéo thả chuột, Misra đã trình diễn các tính năng tự động điều chỉnh âm lượng, màu sắc của phông nền, xóa một vài chữ nhất định và thêm hiệu ứng chuyển cảnh trên Captions.
Theo Gaurav Misra, phần giới thiệu trên nhằm nhấn mạnh cách công ty khởi nghiệp của anh có thể giúp những nhà sáng tạo nội dung dễ dàng tiếp cận nhiều người xem hơn nữa. Hôm 22.6, công ty khởi nghiệp về chỉnh sửa video thông báo đã huy động thành công 25 triệu đô la Mỹ từ vòng gọi vốn Series B do Kleiner Perkins – quỹ đầu tư mạo hiểm đặt tại thung lũng Silicon dẫn dắt.
Vòng gọi vốn này có có sự tham gia từ Sequoia Capital, Andreessen Horowitz và SV Angel, định giá Captions ở mức 250 triệu đô la Mỹ và nâng tổng số vốn công ty nhận về lên 40 triệu đô la Mỹ.
Captions có khởi nguồn từ khoảng thời gian Gaurav Misra làm trưởng nhóm thiết kế phần mềm cho Snap Inc. từ năm 2016-2021. Khi đó, anh đã chứng kiến sự phát triển của các nền tảng mạng xã hội chia sẻ video, từ TikTok với những đoạn video nhảy nhót cho đến Instagram Reels và YouTube Shorts.
Anh còn ghi nhận sự nổi lên từ một loại hình mới là “video độc thoại,” nơi những nhà sáng tạo nội dung nói chuyện trước ống kính, đang thu hút sự chú ý. Năm 2020, Misra rời Snap và đồng sáng lập Captions với Dwight Churchill, người đã từ bỏ công việc tại Goldman Sachs. Cả hai quen biết nhau khi còn làm việc cho Localytics.
Misra cho biết, đến nay Captions đã ghi nhận khoảng 3 triệu nhà sáng tạo nội dung sử dụng ứng dụng này để tự động tạo phần chú thích và chỉnh sửa video theo nhiều nội dung như golf, bất động sản và hàng không. Captions có khoảng 100 ngàn người dùng hằng ngày và khoảng một triệu video được dựng trên ứng dụng này mỗi tháng.
Quỹ đầu tư mạo hiểm Kleiner Perkins lạc quan về loại hình video độc thoại. Giám đốc của Kleiner Perkins, Everett Randle từng dẫn dắt vòng huy động tài chính của Synthesia, công ty khởi nghiệp về dựng video bằng AI và nền tảng quay video Loom.
“Gaurav tiếp cận chúng tôi và đưa ra mức định giá mà anh ấy cho là hợp lý dành cho Captions cùng với sức hút, khả năng sinh lời và tầm nhìn trong khi duy trì nhiều lợi ích cho các nhà đầu tư. Và chúng tôi đã đồng ý đầu tư vào công ty,” Randle cho biết.
Tuy vậy, công ty có trụ sở tại New York, Mỹ không phải cái tên duy nhất có mặt trên thị trường. Captions đang cạnh tranh với những công ty đã khẳng định tên tuổi như CapCut – ứng dụng chỉnh sửa video của Bytedance, đạt 200 triệu người dùng và Adobe với công cụ AI riêng Firefly.
Những năm gần đây còn ghi nhận sự vươn lên của những công ty khởi nghiệp ứng dụng AI trong chỉnh sửa video và âm thanh. Đơn cử như Descript, công ty đã nhận về hàng triệu đô la Mỹ từ các quỹ đầu tư mạo hiểm.
Trao đổi với Forbes, Misra chia sẻ Captions có hướng đi khác biệt về phần mềm chỉnh sửa video, khi công cụ trên Captions dành riêng cho việc dựng các video độc thoại. Phần lớn việc chỉnh sửa video hiện nay tập trung vào tính thẩm mỹ như lọc ảnh và màu. Trong khi đó, chúng tôi thiên về hỗ trợ truyền tải ý tưởng hoặc kinh nghiệm nhiều hơn,” anh cho biết.
Có mức phí sử dụng 10 đô la Mỹ/tháng, Captions cung cấp nhiều tính năng khác nhau dựa trên AI tạo sinh cho các công đoạn sản xuất video như ghi hình, chỉnh sửa và xuất bản. Trong khi phần lớn tính năng xây dựng dựa trên nền tảng mã nguồn mở, Misra cho biết một vài tính năng khác do đội ngũ nhân sự gồm 16 người của Captions phát triển. Tính năng soạn kịch bản bằng AI cho phép những nhà sáng tạo dùng ChatGPT để lên kịch bản cho video, cũng như thu âm bằng công cụ chuyển giọng nói thành văn bản Whisper (cũng từ OpenAI).
Captions cung cấp công cụ sao chép giọng nói do công ty tự phát triển, được đào tạo từ các bản ghi âm để chuyển đổi giọng nói của người dùng sang 28 ngôn ngữ khác nhau. Ngoài ra, người dùng còn có thể sử dụng giọng nói AI để tường thuật toàn bộ nội dung.
Misra cho biết, các nhà sáng tạo chỉ có thể thay đổi ngôn ngữ của bản ghi âm và không thể chèn, hoặc tạo bản ghi âm mới cho video đã xuất bản để giảm thiểu nguy cơ lạm dụng công nghệ. Nhà sáng lập này thừa nhận sự tồn tại của rủi ro người dùng sử dụng phần mềm để tạo video giả.
Các tính năng khác giúp người dùng tự động phóng to – thu nhỏ, phát hiện và xóa bớt ngôn từ không phù hợp, cũng như điều chỉnh âm lượng nền của video. Captions cũng sử dụng công cụ điều chỉnh hướng mắt bằng AI, ban đầu được Nvidia phát triển để đưa vào Zoom, chỉnh mắt của người dùng để họ như đang nhìn vào ống kính.
Captions sẽ dùng vốn đầu tư mới để mở rộng đội ngũ nhân sự và phát triển các tính năng hiện nay, như tính năng âm nhạc AI tạo nền nhạc hòa tấu bằng cách sắp xếp lại những bản nhạc đã thu âm sẵn. Theo Misra, việc bổ sung các tính năng mới sẽ giúp các nhà sáng tạo nội dung dễ dàng cạnh tranh với những đối thủ có nguồn lực tốt hơn.
“Mục tiêu của chúng tôi là mang những công nghệ này đến cho mọi người. Phát triển công nghệ chỉ là một nửa chặng đường thách thức để hoàn thành mục tiêu đề ra,” Misra nói.
Theo forbes.baovanhoa.vn (https://forbes.baovanhoa.vn/captions-huy-dong-von-phat-trien-phan-mem-dung-video-bang-ai)
2 năm trước
Hai thập niên săn tìm kỳ lân3 năm trước
Grab chính thức lên sàn Nasdaq3 tháng trước
Con đường của kỳ lân