Com crear un podcast a partir d'un transcript de YouTube (guia pas a pas)

2026-05-08 · Actualitzat 2026-06-10 · David Pelayo

Vols crear un podcast a partir d'un transcript de YouTube? Aquesta guia mostra el camí correcte — reestructuració pedagògica, no síntesi de veu plana. Pas a pas, sense baixades.

Com crear un podcast a partir d’un transcript de YouTube (pas a pas)

Si alguna vegada has intentat convertir un transcript de YouTube en podcast pel teu compte, saps que el resultat és poques vegades escoltable. Baixes el transcript, l’enganxes a una eina de síntesi de veu i acabes amb una veu plana i robòtica que llegeix un flux d’anglès parlat sense editar — incloent cada “eh”, cada “ja saps”, cada referència a “aquesta diapositiva d’aquí”. La sortida és tècnicament un podcast en el sentit que és un fitxer MP3. No és un podcast que algú escoltaria de debò.

Aquesta guia explica la manera correcta de crear un podcast a partir d’un transcript de YouTube — un que estigui reestructurat pedagògicament, sigui a múltiples veus i valgui la pena escoltar. És el complement tècnic a la nostra peça més àmplia sobre com convertir un vídeo de YouTube en un podcast per aprendre.

Per què un transcript no n’hi ha prou

Un transcript de YouTube és un registre de la parla. Captura el que el ponent va dir, però no com funciona la parla quan no hi ha vídeo que la sostingui. Tres problemes fan que els transcripts en brut no serveixin per a la conversió directa:

Context visual perdut. Les classes parlades fan referència constantment al que hi ha a la pantalla — “com podeu veure en aquest gràfic”, “mireu el tercer punt”, “això és el que vull dir amb aquest diagrama”. Quan retires el vídeo, aquelles referències esdevenen sense sentit. A l’oient li queda una frase a mitges preguntant-se què hauria d’estar mirant.
Patrons de la llengua parlada. L’anglès parlat és ple de reinicis, falsos començaments, falques i digressions que el ponent corregeix sobre la marxa. Són invisibles quan mires una persona, però fan mal quan els llegeix una veu robòtica sense entonació.
Sense pedagogia d’àudio. Llegir un transcript paraula per paraula no fa res per reestructurar el material per a la comprensió per àudio. Una bona explicació en àudio té frases més curtes, transicions explícites i punts de resum. Un transcript-com-a-podcast no té res d’això.

La solució no és trobar una millor veu de síntesi. És reescriure el transcript per a la comprensió per àudio i, idealment, recolocar-lo com a diàleg a múltiples veus que mantingui l’atenció. Això és el que fa Podhoc.

Què fa Podhoc de forma diferent

Podhoc no és un embolcall de síntesi de veu. El transcript és entrada en brut — el que surt és un artefacte fonamentalment diferent:

Extracció automàtica del transcript. Enganxes l’URL de YouTube i Podhoc extreu el transcript per si sol. Sense baixades, sense copiar i enganxar, sense extensions de navegador de tercers.
Reestructuració pedagògica. El transcript es reescriu per a àudio — les referències als elements visuals es reemplacen per explicacions verbals, les frases s’escurcen, les transicions es fan explícites i s’insereixen punts de resum als límits de secció.
Diàleg a múltiples veus. Fins a tres amfitrions d’IA reformulen el contingut com a conversa. Un amfitrió fa les preguntes que faria un oient; els altres responen amb les seves pròpies paraules. La dinàmica conversacional és el que fa que el resultat sigui realment escoltable.
Vuit estils pedagògics. Tria el format que casi amb el teu objectiu — Didàctic per a ensenyament estructurat, Tècnica Feynman per a explicació des de primers principis, Crítica per avaluar arguments, etc.
74 idiomes de sortida. El transcript font i l’idioma de sortida són independents. Un transcript en anglès pot esdevenir un podcast en català, espanyol, francès, alemany, italià, àrab o rus.

La diferència pràctica: una versió plana de síntesi de veu d’un transcript de classe de 30 minuts és insuportable als cinc minuts. Un podcast Didàctic generat per Podhoc del mateix transcript manté l’atenció durant tota la durada perquè sona com una conversa d’ensenyament, no com un lector de pantalla.

Per als motius cognitius subjacents, vegeu Per què funciona l’aprenentatge per àudio — els formats a múltiples veus activen vies de doble codificació que la narració a una sola veu no activa.

Pas a pas: la manera correcta de fer-ho

El procés complet et porta tres minuts del teu temps i un grapat de minuts de generació.

Pas 1 — Troba el vídeo i copia l’URL

Obre el vídeo de YouTube que vols convertir. Copia l’URL de la barra d’adreces — funcionen tant el format estàndard https://www.youtube.com/watch?v=... com el curt https://youtu.be/.... No necessites baixar el vídeo.

Pas 2 — Enganxa l’URL a Podhoc

Obre app.podhoc.com, inicia sessió o crea un compte gratuït (sense targeta) i enganxa l’URL al camp font. Pots barrejar fonts en un sol podcast — per exemple, un vídeo de YouTube més un PDF o article relacionat — afegint més fonts abans de generar. El mateix flux gestiona PDF, articles web i apunts.

Podhoc recupera el transcript en segon pla. Si el vídeo no té subtítols, veuràs un error. La gran majoria de continguts substantius de YouTube tenen subtítols editats per humans o generats automàticament; tots dos funcionen.

Pas 3 — Tria un estil pedagògic

Hi ha vuit estils disponibles. Tria el que casi amb el que vols del podcast:

Objectiu	Estil	Per què
Ensenyament estructurat	Didàctic	Explicacions clares, resums de secció, marc d’instructor
Primer encontre	Deep Dive	Dos amfitrions exploren el material en profunditat
Teoria complexa	Tècnica Feynman	Descompon idees en comprensió des de primers principis
Avaluació d’arguments	Crítica	Analitza afirmacions, evidència i premisses no dites
Orientació ràpida	Explicació simplificada	Resum de cinc a deu minuts dels punts principals
Múltiples perspectives	Debat	Els amfitrions argumenten posicions diferents sobre el mateix tema
Retenció a llarg termini	Pedagogical Framework	Aprenentatge escalat pensat per a la repetició espaiada
Treball dens multifont	Alchemist’s Formula	Combina tècniques per a fonts denses i multifacètiques

Si dubtes, comença amb Didàctic per a contingut acadèmic i Deep Dive per a explicadors generals.

Pas 4 — Estableix durada i idioma

Empareja la durada amb quan escoltaràs — un trajecte de 10 minuts, una passejada de 30 minuts, una sessió de gimnàs de 45 minuts. La durada afecta com l’IA comprimeix o expandeix el transcript:

5 minuts — Resum executiu. Només conclusions clau.
10-15 minuts — Arguments principals amb evidència de suport.
20-30 minuts — Cobertura completa de la majoria de classes i xerrades.
45-60 minuts — Exploració profunda amb exemples i preguntes.
Fins a 2 hores — Cobertura completa de material font llarg.

Tria l’idioma de sortida. Idioma font i idioma de sortida són independents: anglès dintre, català fora és un dels patrons més útils de Podhoc per a qui aprèn idiomes.

Pas 5 — Genera i baixa

Prem generar. El processament triga uns minuts — rebràs una notificació quan l’episodi estigui llest. Baixa l’MP3, afegeix-lo al teu reproductor de podcasts preferit i escolta durant el temps que ja dediques a una altra cosa.

Formats i idiomes admesos

Podhoc accepta transcripts de qualsevol vídeo públic de YouTube que tingui subtítols, incloent:

Subtítols generats automàticament per YouTube (el cas més comú)
Subtítols editats per humans facilitats pel canal
Pistes de subtítols en múltiples idiomes (Podhoc agafa l’idioma disponible)
YouTube Shorts amb subtítols

Per a fonts més enllà de YouTube, el mateix canalitzador pedagògic accepta:

PDFs i documents Word (.doc, .docx, .txt) — vegeu la guia de PDF
Articles web i pàgines de Wikipedia — vegeu Convertir articles en podcasts
Enganxat de text pla

La cobertura d’idioma de sortida és àmplia: 74 idiomes incloent català, castellà, francès, alemany, italià, àrab, rus, japonès, coreà, hindi, portuguès i desenes més, tots amb veus d’IA de qualitat nativa. L’idioma font i l’idioma de sortida són independents — tria la combinació que casi amb com estudies.

DIY transcript a TTS vs. l’enfocament de Podhoc

Si et temptes a muntar el teu propi canalitzador — extreure el transcript amb yt-dlp, passar-lo per una API de síntesi de veu, desar l’MP3 — això és el que renuncies:

Pas	DIY transcript → TTS	Podhoc
Extracció del transcript	Manual: yt-dlp, extensions de navegador, copy-paste	Automàtica: enganxes URL, Podhoc el descarrega
Neteja del context visual	Cap. Les referències a diapositives es queden	L’IA reescriu les referències per a oients sense pantalla
Neteja del llenguatge parlat	Cap. Falques i falsos arrencatges es llegeixen literalment	L’IA elimina artefactes del parlat i estreny les frases
Estructura pedagògica	Cap. El transcript es llegeix de dalt a baix	Vuit estils d’ensenyament reestructuren el contingut per a àudio
Qualitat de la veu	Una veu TTS, lliurament pla	Diàleg a múltiples veus amb variació tonal i torns naturals
Flexibilitat lingüística	Només idiomes de la veu TTS, sense traducció	74 idiomes, font i sortida desacoblades
Inversió de temps	Hores per vídeo per a un resultat amb prou feines escoltable	3 minuts del teu temps, 3-5 minuts de generació

L’enfocament DIY està bé si només necessites l’àudio del teu propi vídeo per a distribuir. Per aprendre, la diferència entre enfocaments és enorme.

Comença a crear podcasts d’aprenentatge des de YouTube

Tria un vídeo del qual realment vols aprendre — una classe, una xerrada, un explicador en profunditat. Enganxa l’URL a Podhoc, tria un estil pedagògic i tindràs un podcast escoltable i amigable amb la retenció en minuts.

Crea un podcast a partir d’un transcript de YouTube →

Lectura relacionada

Com convertir un vídeo de YouTube en un podcast per aprendre — el cas pedagògic més ampli i el desglossament de casos d’ús.
Escolta PDFs — el mateix canalitzador per a articles acadèmics i capítols de llibres de text.
Convertir articles en podcasts — el flux per al contingut escrit del web.
Millor alternativa a NotebookLM — barreja multifont si vols combinar YouTube, PDFs i articles en un sol podcast.