Passa ai contenuti principali

Windows 8.1: Text to Speech, SSML e i marker

Nel precedente post abbiamo parlato di Text to Spech e abbiamo accennato alla possibilità di utilizzare un file nel formato SSML (http://www.w3.org/TR/speech-synthesis/) grazie al metodo SpeakSsmlFromUriAsync della classe SpeechSynthesizer:

Public Async Function PlaySSML() As Task
    Dim synth = New SpeechSynthesizer()
    Dim ssmlString = Await LoadSSMLFile("SSML.xml")
    Dim stream = Await synth.SynthesizeSsmlToStreamAsync(ssmlString)
    MediaElement.SetSource(stream, stream.ContentType)
    MediaElement.Play()
End Function

La funzione LoadSSMLFile() si occupa di leggere il file dal disco e restituire la stringa del contenuto.

Tra le molteplici funzionalità offerte dal formato SSML c’è quella di poter inserire, all’interno del file XML, dei marcatori (marker) che possono essere segnalati l nostro codice e che ci permettono di sincronizzare l’interfaccia in maniera opportuna.

Immaginiamo, ad esempio, un libro per bambini in cui la storia, raccontata dalla voce del tablet, viene affiancata con delle immagini. Queste immagini possono essere sincronizzate, appunto, utilizzando dei marker.

Il file SSML potrebbe essere del tipo:

<?xml version="1.0"?>
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://www.w3.org/2001/10/synthesis
                   http://www.w3.org/TR/speech-synthesis/synthesis.xsd">
  <mark name="Primo disegno"/>
    <p>C'era una volta</p>
  <mark name="Secondo disegno"/>
    <p>in un regno lontano lontano</p>
  .
  .
  .
  <mark name="Fine"/>
  <p>E vissero tutti felici e contenti</p>
</speak>

Poichè è il MediaElement ad occuparsi dell’esecuzione dello stream di text to speech, è il MediaElement a segnalare il raggiungimento dei marker.

In particolare ci basterà gestire l’evento merkerReached dello stesso MediaElement e agire di conseguenza sull’interfaccia.

Private Sub MediaElement_MarkerReached(sender As Object,
                                       e As TimelineMarkerRoutedEventArgs) Handles MediaElement.MarkerReached
    ' Possiamo gestir ela visualizzazione delle immagini
    ' in base alla propriet Marker dell'argomento e
End Sub

Tutto molto semplice……se funzionasse!!!

Il problema è che, pur gestendo lo stream del Text to Speech i marker (la collezione Markers della classe SpeechSynthesisStream è valorizzata correttamente), questi non sono compatibili con quelli gestiti dal MediaElement.
Non si sa se tale scelta sia voluta o sia un bug che verrà corretto, in ogni caso, per poter gestire i marker nel MediaElement siamo costretti a crearli a partire dal quelli dello stream del Text to Speech.

La cosa più semplice è creare un extension method che gestisce il tutto:

Imports Windows.Media.SpeechSynthesis

Public Module MediaElementExtensions

    <Extension()>
    Public Sub SetSpeechSynthesisSource(control As MediaElement, stream As SpeechSynthesisStream)
        If control Is Nothing Then Throw New NullReferenceException("MediaElement")
        control.SetSource(stream, stream.ContentType)
        If stream.Markers IsNot Nothing Then
            For index = 0 To stream.Markers.Count() - 1
                Dim marker = stream.Markers(index)
                control.Markers.Add(New TimelineMarker() With {.Text = marker.Text,
                                                               .Time = marker.Time,
                                                               .Type = marker.MediaMarkerType})
            Next
        End If
    End Sub
End Module

In sostanza, impostiamo la sorgente del MediaElement in modo “convenzionale” e, successivamente, scorriamo i marker dello stream generato dallo SpeechSynthesizer e per ognuno di questi creiamo un marker gestibile dal MediaElement (TimelineMarker) e lo aggiungiamo alla collezione Markers.

In questo modo, possiamo scrivere:

Public Async Function PlaySSML() As Task
    Dim synth = New SpeechSynthesizer()
    Dim ssmlString = Await LoadSSMLFile("SSML.xml")
    Dim stream = Await synth.SynthesizeSsmlToStreamAsync(ssmlString)
    MediaElement.SetSpeechSynthesisSource(stream)
    MediaElement.Play()
End Function

 

Commenti

Massimiliano ha detto…
Come posso far pronunciare una domanda del tipo "Come stai ?" ?

Nel senso che dalle prove fatte, il carattere ? non viene preso in considerazione...

Grazie
Massimo Bonanni ha detto…
Onestamente non ho provato, in Windows 8.1, ad utilizzare frasi interrogative in Italiano perche' non essendo disponibile il language pack (e la relativa voce) non riuscirei a capire se la pronuncia e' corretta o meno.
Da quello che mi risulta, il formato SSML supporta le interrogative. E' da vedere se l'implementazione attualmente presente su Windows 8.1 fa altrettanto con tutte le funzionalita' esposte dal SSML.
Un modo alternativo che mi viene in mente per ottenere frasi interrogative e' utilizzando il tag e lavorando sul pitch cercando di ottenere l'intonazione della domanda.

Post popolari in questo blog

VB.NET: Convertire un file DOC in RTF e PDF con office interop

In questo post vorrei proporvi del codice per poter convertire un file .doc in un file .rtf oppure .pdf utilizzando le API di interoperabilità di Office.Creeremo una classe, DocConverter, che esporrà le due funzionalità sopra citate.Cominciamo con il prevedere un attributo privato della classe che rappresenterà l’applicazione Word che utilizzeremo per la conversione. Creeremo l’istanza dell’attributo privato all’interno del costruttore della classe:PublicSubNew()
IfNot CreateWordApp() Then
ThrowNew ApplicationException("Assembly di interoperabilità con Office non trovato!")
EndIf
EndSub
Private _wordApp As Word.ApplicationClass
ProtectedFunction CreateWordApp() AsBoolean
Dim retval = True
Try
_wordApp = New Word.ApplicationClass()
_wordApp.Visible = False
Catch ex As System.Exception
_wordApp = Nothing
retval = False
EndTry
Return retval
EndFunction

La conversione del file doc sarà effettuata aprendo il file stesso ed eseguendo un’operazione di SaveAs:

Pr…

Cambiare la lingua di Visual Studio 2008

Oggi ho avuto qualche problema installando Windows Mobile 6 Professional SDK Refresh e Windows Mobile 6 Standard SDK Refresh.Scaricati i file di installazione e installati, ho provato a creare un progetto di tipo Windows Mobile 6.0 e mi sono beccato questo errore:Dopo qualche smanettamento abbiamo scoperto (e ringrazio il mitico Matteo per l’aiuto) che il mio Visual Studio 2008, pur essendo in Inglese (prova ne era il fatto che gli hotfix e la SP installata erano nella lingua di Albione) aveva come lingua impostata quella del sistema operativo (italiano).Ovviamente, non avrebbe mai potuto trovare la cartella 1040 (italiano) visto che l’installazione dell’SDK aveva supposto che la lingua del Visual Studio fosse Inglese (1033).La soluzione del problema è duplice:1) Duplicate la cartella 1033 presente nel percorso evidenziato dall’errore e la rinominate 10402) cambiate la lingua di Visual Studio.Per questa ultima eventualità basta andare nel menù Strumenti/Opzioni:e cambiare il linguaggi…

Tascam DR-05 registratore digitale per tutti

Diverso tempo fa ho acquistato il registratore digitale Tascam DR-05 e, ora, dopo diversi mesi di utilizzo, posso dire la mia a proposito.

Si tratta di un ottimo registratore digitale con microfono stereo che permette di ottenere registrazioni di ottima qualitaà anche in ambienti non perfetti dal punto di vista acustico.

Interessante la possibilità di utilizzare un cavalletto di piccole dimensioni come HAMA Mini treppiede o Mini Cavalletto Universale per tenere il microfono sollevato dal tavolo in fase di registrazione grazie allàattacco universale per macchina fotografica che il microfono ha nella parte inferiore.

Da segnalare anche il menu’ ben fatto e la possibilita’ di utilizzare una scheda SD esterna per memorizzare i file audio. Anche a livello di consumo batterie non e’ niente male. Consiglio l’uso delle alcaline non ricaricabili.

Il mio utilizzo e’ stato prettamente di registrazione di podcast vocali (no musica) ma le recensioni confermano che se la cava egregiamente con la mu…