Hvordan konverteres tale til tekst på AWS?

Denne blog er flyttet fra Medium til blogs.tensult.com. Alt det nyeste indhold vil være tilgængeligt der. Abonner på vores nyhedsbrev for at holde dig opdateret.

Stemmebaseret interaktion med computere er et stigende fænomen, og flere og flere stemmebaserede applikationer udvikles, når vi taler. Tak til AWS for at bringe sådanne tjenester til almindelig brug til lave omkostninger med betaling som du modellerer.

Reference: https://bit.ly/2UXdjCg

Jeg har lavet et lille eksperiment med AWS Transcribe, som er en administreret tjeneste til talegenkendelse. Transcribe understøtter et begrænset sæt sprog lige nu, men AWS tilføjer kontinuerligt flere sprog. For at bruge transkriptionstjeneste er vi nødt til at uploade en lydfil til en S3-spand og indtaste den fil til Transkriberen og levere en output-S3-skovl til at gemme anerkendt tekst fra tale.

Brugerdefineret ordforråd

Når vi taler, vil vi ofte bruge nogle ordentlige navne som firmaet, produktet, applikationen, teamet eller folks navne; da dette ikke er ordbøger, så det ville være en udfordring at genkende dem. For at tackle denne udfordring giver Transcribe os mulighed for at definere tilpasset ordforråd som tekst eller CSV-fil. Vi kan specificere tilpassede ordforråd pr. Sprog og kan bruges, mens vi kører Transkriptionsjob.

Opret ordforråd

Indholdet af ordforrådsfilen:

transskribere
Dilip
Tensult
A.W.S

Når ordforrådet er klar, kan det bruges i Transkriptionsjob.

Sørg for, at ordforrådet er klar, før du bruger det

Transkriptionsjob

For at konvertere tale til tekst er vi nødt til at oprette et transkriptionjob ved at uploade en lydfil til S3-spand og vælge det rette ordforråd og oprette jobbet.

Opret et transkriptionsjobKontroller status for transkriptionsjob

Eksperimenter

  1. Talegenkendelse ved hjælp af engelsk (USA) med tilpasset ordforråd
  2. Talegenkendelse ved hjælp af engelsk (USA) uden brugerdefineret ordforråd
  3. Talegenkendelse ved hjælp af engelsk (UK) med tilpasset ordforråd
  4. Talegenkendelse ved hjælp af engelsk (UK) uden brugerdefineret ordforråd

Produktion

Når transkriptionsjob er afsluttet, gemmes output i den specificerede S3-spand.

Kontroller output af transkription i S3-spandenOutput JSON til jobbet med ordforråd med engelsk (US)Output JSON til jobbet uden ordforråd med engelsk (US)Output JSON til jobbet med ordforråd med engelsk (UK)Output JSON til jobbet uden ordforråd med engelsk (UK)

Resumé af resultaterne fra transkriptionsjobber:

Originaltekst i talen fra indisk taler (mig):
Hej. Jeg hedder Dilip. Jeg laver transkriptionstest fra Tensult. Dette er for at se, hvordan A.W.S-transkriber fungerer.
Regerkendt tekst med tilpasset ordforråd med engelsk (UK):
Hej. Jeg hedder Dilip. Jeg laver transkriptionstest fra Tensult. Dette er for at se, hvordan A.W.S-transkriber fungerer.
Regkogniseret tekst uden brugerdefineret ordforråd med engelsk (UK):
Hej. Mit navn er spranget. Jeg laver transkriptionstest indefra. Dette er for at se, hvordan et dobbelt s-transkript fungerer.
Regerkendt tekst med tilpasset ordforråd med engelsk (USA):
Hej. Jeg hedder Dilip. Jeg laver transkription forbandet fra Tensult. Dette er for at se, hvordan A.W.S-transkriber fungerer.
Regkogniseret tekst uden brugerdefineret ordforråd med engelsk (USA):
Hej. Jeg hedder Philippe. Jeg laver transkription. Pissede fra indersiden. Dette er for at se, hvordan et ledigt transkript fungerer.
* Brugerdefinerede ord fremhæves med fed skrift.
* Fejl er markeret kursiv.

Transkriberen erkendte de brugerdefinerede ord med succes baseret på det medfølgende tilpassede ordforråd. Vi kan let bemærke, at nøjagtigheden af ​​talegenkendelse er bedre med ordforrådet, så jeg anbefaler at bruge denne tjeneste med et tilpasset ordforråd. Transkriptionstjeneste understøtter ikke forskellige accenter på engelsk, men jeg kunne opnå god ydelse med UK engelsk med ordforråd til vores sag.

Jeg håber, at den indiske engelsk i fremtiden vil blive tilføjet for at forbedre nøjagtigheden af ​​talegenkendelse i den indiske kontekst, også AWS vil forbedre maskinlæringsmodeller, der bruges i Transcribe-service for yderligere at forbedre ydelsen af ​​denne service.

Konklusion

Jeg har forklaret, hvordan man konverterer tale til tekst ved hjælp af AWS Transcribe-tjenesten med et eksperiment. Jeg håber, at dette har hjulpet dig med at forstå koncepterne i denne tjeneste. Fortæl mig venligst, hvis du har spørgsmål, og glem heller ikke at følge mig for flere opdateringer.