Sonocast : Lecteur de podcasts enrichi par IA
Résumé exécutif
Sonocast est une application mobile de podcasts qui utilise l'intelligence artificielle pour enrichir l'expérience d'écoute. Elle génère automatiquement des chapitres, des résumés, et identifie les moments clés de chaque épisode. Le projet a été conçu et développé de A à Z en 6 mois, et est disponible sur l'App Store.
Contexte et problème
Les auditeurs de podcasts font face à plusieurs défis :
- Navigation difficile : Les épisodes longs (1h+) sont difficiles à parcourir
- Perte d'information : Sans prise de notes, les informations clés sont oubliées
- Manque de temps : Impossible d'écouter tous les épisodes qui nous intéressent
- Découverte limitée : Difficile de savoir si un épisode vaut le temps investi
Les solutions existantes proposent soit de la transcription brute (peu lisible), soit des résumés génériques (peu utiles). Aucune n'offre une expérience vraiment enrichie.
Contraintes et risques
Contraintes techniques
- Performance : L'IA doit traiter des fichiers audio de 1h+ sans bloquer l'app
- Coûts : Les appels API (transcription + LLM) représentent un coût significatif
- Qualité : Les résumés doivent être pertinents et fidèles au contenu
Contraintes business
- Monétisation : Trouver un modèle qui couvre les coûts IA
- Différenciation : Se démarquer des lecteurs existants
- Adoption : Convaincre les utilisateurs de changer leurs habitudes
Risques identifiés
- Hallucinations de l'IA pouvant dénaturer le contenu
- Temps de traitement trop long frustrant les utilisateurs
- Coûts IA imprévisibles avec la croissance
Mon rôle
J'ai pris en charge l'intégralité du projet :
- Conception produit : Définition des fonctionnalités, UX, pricing
- Architecture technique : Choix des technologies, design système
- Développement : Frontend mobile, backend, intégration IA
- DevOps : Infrastructure, CI/CD, monitoring
- Lancement : Publication stores, support initial
Décisions clés
1. IA product-first
L'IA n'est pas un gadget mais le cœur de la proposition de valeur. Chaque fonctionnalité a été pensée autour de ce que l'IA peut apporter de vraiment utile :
- Chapitres : Navigation intelligente basée sur les changements de sujets
- Résumés : Plusieurs formats adaptés au contexte (bullet points, paragraphe, tweet)
- Moments clés : Identification des passages les plus informatifs ou divertissants
2. Modèle de crédits avec ceil(seconds/120)
Pour rendre les coûts prévisibles tout en étant équitable :
- Facturation par tranche de 2 minutes d'audio
- Un épisode de 1h = 30 crédits
- Abonnement mensuel avec enveloppe de crédits
- Possibilité d'acheter des crédits supplémentaires
Cette formule permet de :
- Couvrir les coûts réels de traitement
- Offrir une tarification compréhensible
- Encourager l'usage sans frustration
3. Architecture découplée
Le traitement IA est entièrement asynchrone :
- 1L'utilisateur demande l'enrichissement d'un épisode
- 2Le job est mis en queue
- 3L'utilisateur peut continuer à utiliser l'app
- 4Notification quand le traitement est terminé
- 5Les résultats sont cachés pour les prochaines lectures
Avantages :
- Pas de blocage de l'interface
- Possibilité de réessayer en cas d'erreur
- Scaling horizontal des workers
4. Observabilité complète
Monitoring avec Sentry et métriques custom :
- Temps de traitement par type de contenu
- Taux d'erreur par étape du pipeline
- Qualité perçue des résumés (feedback utilisateurs)
- Coûts réels vs. estimés
Cela permet d'identifier rapidement les problèmes et d'optimiser continuellement.
Ce qui a été construit
Côté utilisateur
Lecteur audio natif
- Contrôles classiques (play, pause, vitesse)
- Navigation par chapitres générés par IA
- Marquage des moments favoris
Fonctionnalités IA
- Génération de chapitres avec titres
- Résumés en 3 formats (bullet, paragraphe, tweet)
- Identification des "highlights"
- Transcription complète avec recherche
Expérience utilisateur
- Onboarding guidé
- Gestion des crédits transparente
- Synchronisation cross-device
- Mode hors-ligne pour les contenus téléchargés
Côté système
Pipeline de traitement
- Extraction audio depuis les flux RSS
- Transcription via Whisper API
- Analyse et structuration via GPT-4
- Stockage des résultats en base
Infrastructure
- Backend serverless sur AWS Lambda
- Base de données Supabase (PostgreSQL)
- Files d'attente SQS pour le processing async
- CDN pour la distribution des assets
Intégrations
- RevenueCat pour les abonnements in-app
- Sentry pour le monitoring d'erreurs
- Analytics pour le suivi d'usage
Résultat
L'application est publiée et disponible sur l'App Store. Compatible iPhone, iPad, Mac (Apple Silicon) et Apple Vision Pro.
Ce que ce projet démontre
Compétences techniques
- Développement mobile cross-platform performant
- Intégration d'IA en production avec gestion des coûts
- Architecture scalable et résiliente
Compétences produit
- Définition d'une proposition de valeur différenciante
- Conception d'un modèle économique viable
- Focus sur l'expérience utilisateur
Approche
- Capacité à mener un projet de bout en bout
- Prise de décisions pragmatiques sous contraintes
- Itération basée sur les retours réels
Quand cette approche est pertinente
Ce type de projet convient si vous :
- Avez une idée de produit avec une forte composante IA
- Cherchez un développeur capable de gérer le projet de A à Z
- Voulez un MVP fonctionnel rapidement (3-6 mois)
- Avez besoin de quelqu'un qui comprend les enjeux business
Prochaines étapes
Vous avez un projet similaire en tête ? Discutons-en. Premier échange gratuit pour comprendre vos besoins et voir comment je peux vous aider.