Track
AI / ML
Type
Talk
Level
beginner
Language
Japanese
Duration
20 minutes
In this talk, I will introduce a prototype that allows a small car powered by a Raspberry Pi Pico to be controlled using multimodal input such as voice and images. Voice commands and hand-drawn routes are entered via Gradio and converted into instructions like “move forward” or “turn right” using LangChain. The Pico acts as an HTTP server, receives these commands over Wi-Fi, and controls the car accordingly. I’ll share the system structure and technologies used, along with the fun and creative challenges I encountered during development. It’s a fun project that combines generative AI and IoT! --- 本発表では、音声や画像といったマルチモーダルな入力から、Raspberry Pi Picoで動く小型カーを制御する試みを紹介します。 構成としては、Gradioで音声や手描きルートを入力し、それをLangChainを使って「前進」「右折」などを意味するコマンドに変換。Picoは簡易的なHTTPサーバとして動作し、Wi-Fi経由で指示を受けてカーを制御します。 本発表では、この構成と技術要素を共有しながら、実際に試してみて感じた楽しさや工夫した点をお伝えできればと思っています。 ゆるく楽しく「生成AI × IoT」の可能性を探る取り組みです!