Bygge av scanner med textigenkänning

Berätta om dina pågående projekt.
Användarvisningsbild
strombom
Inlägg: 3305
Blev medlem: 27 maj 2003, 10:50:20
Ort: Västra Götaland
Kontakt:

Bygge av scanner med textigenkänning

Inlägg av strombom »

Sitter och pillar lite med ett projekt, tänkte att jag kunde lägga upp resultatet här... jag tycker ju själv det är kul att se vad andra pysslar med så här kommer det :)

Det är tänkt att bli en scanner ungefär som c-pen som ska kunna tolka text. Målet är att man sedan ska koppla in ett par hörlurar till den och höra texten med röstsyntes. Lite galet projekt men det kan gå, har ju kommit en bit redan:

Bild

Lite info:

Mikrokontroller: Atmel AT91SAM7S128, ARM 128kbyte Flash, 16kbyte RAM
Bildsensor: Köpt på elfa HIT ME

Egentligen är det helt fel bildsensor, den är på 256*256 pixlar plus att den skickar ut ett medelvärde från x och y kolumnerna. Jag har tejpat för större delen av ytan så att det bara är en strimma kvar... Jag använde en lins från en vanlig billig tv-kamera som man kan köpa överallt, sedan gjorde jag ett litet hus i plast och det fungerar ganska skapligt.

Nu tänkte jag ta ett par vita lysdioder som aktivt ska regleras för att få lagom ljusstyrka, just nu är scannern ganska tjurig när det gäller ljusförhållandena.

Sedan ska bokstäverna separeras automatiskt. När det är klart ska jag spara ett stort antal inscannade bokstäver och köra dem genom backpropagation (på pc:n) i ett artificiellt neuralt nätverk och implementera detta nätverk i ARM-kretsen så att den kan känna igen bokstäverna.

Man scannar ett ord i taget genom att hålla inne knappen på scannerns sida. Det är tillräckligt svårt att skilja på bokstäverna...

Hur jag sedan ska lösa röstsyntes har jag fortfarande ingen aning om! Några idéer ?

MVH
Bild
Användarvisningsbild
Fagge
Inlägg: 3930
Blev medlem: 27 maj 2003, 13:59:51
Ort: Blekinge

Inlägg av Fagge »

He, vissa har tydligen inga problem med fantasin :D
Kul & se hur det kommer arta sig!.
Användarvisningsbild
jack
EF Sponsor
Inlägg: 2059
Blev medlem: 5 oktober 2004, 17:32:27

Inlägg av jack »

Mycket vackert! Ska bli kul att följa.
Användarvisningsbild
chille
Inlägg: 2469
Blev medlem: 25 juni 2003, 20:54:41
Ort: Stockholm
Kontakt:

Inlägg av chille »

Angående röstsyntesen så finns det en hel del olika grejer. Problemet är inte att bygga en röstsyntes, det är att få den att kunna tolka och uttala vanlig text. I princip kan man bygga en röstsyntes med hjälp av två filter och en oscilator :)

När det gäller bilderna skulle du förs kunna köra hela skiten genom ett filter som ränsar bort allt skit. Sen efter det scannar den igenom bilden horisontalt och tar medelvärdet från varje kolumn och på så sätt skiljer på varje bokstav. Jag vet dock inte hur bra det skulle funka i praktiken :)
Användarvisningsbild
Adis
Inlägg: 1373
Blev medlem: 26 augusti 2003, 19:57:03
Skype: adis1987
Ort: Gävle
Kontakt:

Inlägg av Adis »

Jävlar va nicigt!

Angående med rösten så ska det inte vara några problem. För någon månad sedan så laddade jag ner ett program inkl källkoden till det från microsofts hemsida. Genom detta kuna man utväckla just det du behöver. Om jag inte minns fel så var det skrivet i VB. Genom att skriva in text i en textruta så fick man höra det man skrev. I detta fall skulle du kunna infoga dina bokstäver från ditt program du prata om...
Användarvisningsbild
chille
Inlägg: 2469
Blev medlem: 25 juni 2003, 20:54:41
Ort: Stockholm
Kontakt:

Inlägg av chille »

Adis:

Jo det finns en talsyntes inbyggt i windows som man kan använda sig av. Däremot blir det ju lite svårt att trycka in windows på en ARM.
Användarvisningsbild
Adis
Inlägg: 1373
Blev medlem: 26 augusti 2003, 19:57:03
Skype: adis1987
Ort: Gävle
Kontakt:

Inlägg av Adis »

chille, ajdå! tänkte inte på det :( ja men nu vart det svårare :roll:
Rymdninja
Inlägg: 330
Blev medlem: 15 december 2003, 13:41:25
Ort: Göteborg

Inlägg av Rymdninja »

en ide som slog mig:
Man kanske skulle kunna ha ett lookup table som för varje ord innehåller det fonetiska ordet (om man säger så) och så har du ljud för varje fonem som du spelar upp, inopklistarde, på något snyggt sätt....
Lite "brute force", men tanken slog mig just..kanske nåt att bygga vidare på?

Iofs...ordlistan kanske blir stor....hmm....

Edit: man kanske kan mönstermatcha bokstavskombinationer till fonem...då slipper man ordlistan helt...
Användarvisningsbild
strombom
Inlägg: 3305
Blev medlem: 27 maj 2003, 10:50:20
Ort: Västra Götaland
Kontakt:

Inlägg av strombom »

rymdninja jag funderade på det när jag duschade i morse :) om man inte kunde spela in varje bokstav på de olika sätt den kan låta och sedan matcha med bokstavskombinationer.

/Johan
Användarvisningsbild
chille
Inlägg: 2469
Blev medlem: 25 juni 2003, 20:54:41
Ort: Stockholm
Kontakt:

Inlägg av chille »

Jo den där senaste iden har jag också funderat på. I min värld fungerar det, sen om det fnugerar i den riktiga världen också vet jag inte.

Att använda en tabell med alla ord och någon form av data som beskriver hur det uttalas är nog ganska så uteslutet på ett hemmabygge. Blir ju rätt så många ord om den ska fungera hyffsat. Man ska nog gärna vara flera personer som arbetar på projektet då, och kanske något lite mer seriöst projekt också.
dow
Inlägg: 17
Blev medlem: 4 december 2003, 13:26:46
Skype: alexander.lundh
Ort: Linköping
Kontakt:

Inlägg av dow »

kolla in kretsen wts701 från winbond, Dom använder en fonem-lista likt det ni pratat om, med ett par extra trick.
Det kanske kan vara en bra utgångspunkt?

Kul att du fått det att funka förresten! ;)
Seven11
Inlägg: 547
Blev medlem: 13 maj 2004, 23:43:33

Inlägg av Seven11 »

Kolla comp.speech:s ftp det finns en hel del TTS motorer/papper där om jag minns rätt. Inte för att du direkt kan använda dom eftersom dom är skrivna för x86 maskiner men du kan ju luska ut iden.
Användarvisningsbild
strombom
Inlägg: 3305
Blev medlem: 27 maj 2003, 10:50:20
Ort: Västra Götaland
Kontakt:

Inlägg av strombom »

Ska kolla in den gruppen

/Johan
cyr
Inlägg: 2712
Blev medlem: 27 maj 2003, 16:02:39
Ort: linköping
Kontakt:

Inlägg av cyr »

Det här är vad jag kallar projekt... :)

Du kan också kanske kolla på "festival" http://freshmeat.net/projects/festival/

Jag har en känsla av att det är alldeles för stort för det här, men ändå... Portabel källkod ska finnas.
Användarvisningsbild
Chribbe76
EF Sponsor
Inlägg: 1167
Blev medlem: 17 januari 2004, 22:43:17
Ort: Stockholm

Inlägg av Chribbe76 »

Det kan bli svårt att få den att skilja på "BANAN" och "BANAN". :D
Men det kan man leva med.
Skriv svar