[SRILM User List] Fwd: Fwd: ngram-count
Manuel Alves
beleira at gmail.com
Mon Jan 11 03:59:42 PST 2010
The output of the comand *ngram -lm ../$a -order 3 -ppl $ficheiro -debug 2*was:
reading 2534558 1-grams
reading 5070525 2-grams
reading 514318 3-grams
Entretanto , gostaria - como também me foi pedido por um berto número de
colegas - que observássemos um minuto de silêncio por todas as vítimas ,
nomeadamente das tempestades , nos diferentes países da União Europeia que
foram afectados .
p( Entretanto | <s> ) = [2gram] 8.49107e-05 [ -4.07104 ]
p( , | Entretanto ...) = [1gram] 3.21842e-06 [ -5.49236 ]
p( gostaria | , ...) = [1gram] 7.06302e-11 [ -10.151 ]
p( - | gostaria ...) = [1gram] 8.13218e-08 [ -7.08979 ]
p( como | - ...) = [1gram] 2.85049e-07 [ -6.54508 ]
p( também | como ...) = [1gram] 4.05163e-09 [ -8.39237 ]
p( me | também ...) = [1gram] 8.49376e-10 [ -9.0709 ]
p( foi | me ...) = [1gram] 4.47088e-08 [ -7.34961 ]
p( pedido | foi ...) = [1gram] 4.05975e-10 [ -9.3915 ]
p( por | pedido ...) = [1gram] 2.5038e-07 [ -6.6014 ]
p( um | por ...) = [1gram] 2.56193e-08 [ -7.59143 ]
p( berto | um ...) = [1gram] 4.86698e-14 [ -13.3127 ]
p( número | berto ...) = [1gram] 5.96197e-05 [ -4.22461 ]
p( de | número ...) = [1gram] 5.85878e-07 [ -6.23219 ]
p( colegas | de ...) = [1gram] 1.32781e-10 [ -9.87686 ]
p( - | colegas ...) = [1gram] 4.35755e-08 [ -7.36076 ]
p( que | - ...) = [1gram] 2.0885e-06 [ -5.68017 ]
p( <unk> | que ...) = [OOV] 0 [ -inf ]
p( um | <unk> ...) = [1gram] 0.00380802 [ -2.4193 ]
p( minuto | um ...) = [1gram] 8.6097e-11 [ -10.065 ]
p( de | minuto ...) = [1gram] 7.52106e-06 [ -5.12372 ]
p( silêncio | de ...) = [1gram] 1.464e-10 [ -9.83446 ]
p( por | silêncio ...) = [1gram] 5.40085e-07 [ -6.26754 ]
p( todas | por ...) = [1gram] 1.00466e-09 [ -8.99798 ]
p( as | todas ...) = [1gram] 7.24361e-08 [ -7.14005 ]
p( vítimas | as ...) = [1gram] 2.70164e-10 [ -9.56837 ]
p( , | vítimas ...) = [1gram] 4.01984e-06 [ -5.39579 ]
p( nomeadamente | , ...) = [1gram] 4.20626e-10 [ -9.3761 ]
p( das | nomeadamente ...) = [1gram] 1.19202e-07 [ -6.92372 ]
p( tempestades | das ...) = [1gram] 1.25367e-11 [ -10.9018 ]
p( , | tempestades ...) = [1gram] 8.7829e-05 [ -4.05636 ]
p( nos | , ...) = [1gram] 4.62879e-09 [ -8.33453 ]
p( diferentes | nos ...) = [1gram] 7.62e-10 [ -9.11804 ]
p( países | diferentes ...) = [1gram] 1.3381e-08 [ -7.87351 ]
p( da | países ...) = [1gram] 1.71119e-07 [ -6.7667 ]
p( União | da ...) = [1gram] 5.95701e-10 [ -9.22497 ]
p( Europeia | União ...) = [1gram] 3.99405e-09 [ -8.39859 ]
p( que | Europeia ...) = [1gram] 5.50769e-07 [ -6.25903 ]
p( foram | que ...) = [1gram] 2.21802e-09 [ -8.65403 ]
p( afectados | foram ...) = [1gram] 7.34577e-11 [ -10.134 ]
p( . | afectados ...) = [1gram] 1.17651e-05 [ -4.92941 ]
p( </s> | . ...) = [2gram] 0.999997 [ -1.32346e-06 ]
1 sentences, 41 words, 1 OOVs
0 zeroprobs, logprob= -304.197 ppl= 2.62685e+07 ppl1= 4.02644e+07
$
p( <unk> | <s> ) = [OOV] 0 [ -inf ]
p( </s> | <unk> ...) = [1gram] 0.510709 [ -0.291827 ]
1 sentences, 1 words, 1 OOVs
0 zeroprobs, logprob= -0.291827 ppl= 1.95806 ppl1= undefined
Entretanto , gostaria - como também me foi pedido por um perto número de
colegas - que observássemos um minuto de silêncio por todas as vítimas ,
nomeadamente das tempestades , nos diferentes países da União Europeia que
foram afectados .
p( Entretanto | <s> ) = [2gram] 8.49107e-05 [ -4.07104 ]
p( , | Entretanto ...) = [1gram] 3.21842e-06 [ -5.49236 ]
p( gostaria | , ...) = [1gram] 7.06302e-11 [ -10.151 ]
p( - | gostaria ...) = [1gram] 8.13218e-08 [ -7.08979 ]
p( como | - ...) = [1gram] 2.85049e-07 [ -6.54508 ]
p( também | como ...) = [1gram] 4.05163e-09 [ -8.39237 ]
p( me | também ...) = [1gram] 8.49376e-10 [ -9.0709 ]
p( foi | me ...) = [1gram] 4.47088e-08 [ -7.34961 ]
p( pedido | foi ...) = [1gram] 4.05975e-10 [ -9.3915 ]
p( por | pedido ...) = [1gram] 2.5038e-07 [ -6.6014 ]
p( um | por ...) = [1gram] 2.56193e-08 [ -7.59143 ]
p( perto | um ...) = [1gram] 4.29592e-10 [ -9.36694 ]
p( número | perto ...) = [1gram] 1.18038e-08 [ -7.92798 ]
p( de | número ...) = [1gram] 5.85878e-07 [ -6.23219 ]
p( colegas | de ...) = [1gram] 1.32781e-10 [ -9.87686 ]
p( - | colegas ...) = [1gram] 4.35755e-08 [ -7.36076 ]
p( que | - ...) = [1gram] 2.0885e-06 [ -5.68017 ]
p( <unk> | que ...) = [OOV] 0 [ -inf ]
p( um | <unk> ...) = [1gram] 0.00380802 [ -2.4193 ]
p( minuto | um ...) = [1gram] 8.6097e-11 [ -10.065 ]
p( de | minuto ...) = [1gram] 7.52106e-06 [ -5.12372 ]
p( silêncio | de ...) = [1gram] 1.464e-10 [ -9.83446 ]
p( por | silêncio ...) = [1gram] 5.40085e-07 [ -6.26754 ]
p( todas | por ...) = [1gram] 1.00466e-09 [ -8.99798 ]
p( as | todas ...) = [1gram] 7.24361e-08 [ -7.14005 ]
p( vítimas | as ...) = [1gram] 2.70164e-10 [ -9.56837 ]
p( , | vítimas ...) = [1gram] 4.01984e-06 [ -5.39579 ]
p( nomeadamente | , ...) = [1gram] 4.20626e-10 [ -9.3761 ]
p( das | nomeadamente ...) = [1gram] 1.19202e-07 [ -6.92372 ]
p( tempestades | das ...) = [1gram] 1.25367e-11 [ -10.9018 ]
p( , | tempestades ...) = [1gram] 8.7829e-05 [ -4.05636 ]
p( nos | , ...) = [1gram] 4.62879e-09 [ -8.33453 ]
p( diferentes | nos ...) = [1gram] 7.62e-10 [ -9.11804 ]
p( países | diferentes ...) = [1gram] 1.3381e-08 [ -7.87351 ]
p( da | países ...) = [1gram] 1.71119e-07 [ -6.7667 ]
p( União | da ...) = [1gram] 5.95701e-10 [ -9.22497 ]
p( Europeia | União ...) = [1gram] 3.99405e-09 [ -8.39859 ]
p( que | Europeia ...) = [1gram] 5.50769e-07 [ -6.25903 ]
p( foram | que ...) = [1gram] 2.21802e-09 [ -8.65403 ]
p( afectados | foram ...) = [1gram] 7.34577e-11 [ -10.134 ]
p( . | afectados ...) = [1gram] 1.17651e-05 [ -4.92941 ]
p( </s> | . ...) = [2gram] 0.999997 [ -1.32346e-06 ]
1 sentences, 41 words, 1 OOVs
0 zeroprobs, logprob= -303.954 ppl= 2.59133e+07 ppl1= 3.97064e+07
$
p( <unk> | <s> ) = [OOV] 0 [ -inf ]
p( </s> | <unk> ...) = [1gram] 0.510709 [ -0.291827 ]
1 sentences, 1 words, 1 OOVs
0 zeroprobs, logprob= -0.291827 ppl= 1.95806 ppl1= undefined
Entretanto , gostaria - como também me foi pedido por um certo número de
colegas - que observássemos um minuto de silêncio por todas as vítimas ,
nomeadamente das tempestades , nos diferentes países da União Europeia que
foram afectados .
p( Entretanto | <s> ) = [2gram] 8.49107e-05 [ -4.07104 ]
p( , | Entretanto ...) = [1gram] 3.21842e-06 [ -5.49236 ]
p( gostaria | , ...) = [1gram] 7.06302e-11 [ -10.151 ]
p( - | gostaria ...) = [1gram] 8.13218e-08 [ -7.08979 ]
p( como | - ...) = [1gram] 2.85049e-07 [ -6.54508 ]
p( também | como ...) = [1gram] 4.05163e-09 [ -8.39237 ]
p( me | também ...) = [1gram] 8.49376e-10 [ -9.0709 ]
p( foi | me ...) = [1gram] 4.47088e-08 [ -7.34961 ]
p( pedido | foi ...) = [1gram] 4.05975e-10 [ -9.3915 ]
p( por | pedido ...) = [1gram] 2.5038e-07 [ -6.6014 ]
p( um | por ...) = [1gram] 2.56193e-08 [ -7.59143 ]
p( certo | um ...) = [1gram] 4.45119e-10 [ -9.35152 ]
p( número | certo ...) = [1gram] 1.13921e-08 [ -7.9434 ]
p( de | número ...) = [1gram] 5.85878e-07 [ -6.23219 ]
p( colegas | de ...) = [1gram] 1.32781e-10 [ -9.87686 ]
p( - | colegas ...) = [1gram] 4.35755e-08 [ -7.36076 ]
p( que | - ...) = [1gram] 2.0885e-06 [ -5.68017 ]
p( <unk> | que ...) = [OOV] 0 [ -inf ]
p( um | <unk> ...) = [1gram] 0.00380802 [ -2.4193 ]
p( minuto | um ...) = [1gram] 8.6097e-11 [ -10.065 ]
p( de | minuto ...) = [1gram] 7.52106e-06 [ -5.12372 ]
p( silêncio | de ...) = [1gram] 1.464e-10 [ -9.83446 ]
p( por | silêncio ...) = [1gram] 5.40085e-07 [ -6.26754 ]
p( todas | por ...) = [1gram] 1.00466e-09 [ -8.99798 ]
p( as | todas ...) = [1gram] 7.24361e-08 [ -7.14005 ]
p( vítimas | as ...) = [1gram] 2.70164e-10 [ -9.56837 ]
p( , | vítimas ...) = [1gram] 4.01984e-06 [ -5.39579 ]
p( nomeadamente | , ...) = [1gram] 4.20626e-10 [ -9.3761 ]
p( das | nomeadamente ...) = [1gram] 1.19202e-07 [ -6.92372 ]
p( tempestades | das ...) = [1gram] 1.25367e-11 [ -10.9018 ]
p( , | tempestades ...) = [1gram] 8.7829e-05 [ -4.05636 ]
p( nos | , ...) = [1gram] 4.62879e-09 [ -8.33453 ]
p( diferentes | nos ...) = [1gram] 7.62e-10 [ -9.11804 ]
p( países | diferentes ...) = [1gram] 1.3381e-08 [ -7.87351 ]
p( da | países ...) = [1gram] 1.71119e-07 [ -6.7667 ]
p( União | da ...) = [1gram] 5.95701e-10 [ -9.22497 ]
p( Europeia | União ...) = [1gram] 3.99405e-09 [ -8.39859 ]
p( que | Europeia ...) = [1gram] 5.50769e-07 [ -6.25903 ]
p( foram | que ...) = [1gram] 2.21802e-09 [ -8.65403 ]
p( afectados | foram ...) = [1gram] 7.34577e-11 [ -10.134 ]
p( . | afectados ...) = [1gram] 1.17651e-05 [ -4.92941 ]
p( </s> | . ...) = [2gram] 0.999997 [ -1.32346e-06 ]
1 sentences, 41 words, 1 OOVs
0 zeroprobs, logprob= -303.954 ppl= 2.59133e+07 ppl1= 3.97064e+07
$
p( <unk> | <s> ) = [OOV] 0 [ -inf ]
p( </s> | <unk> ...) = [1gram] 0.510709 [ -0.291827 ]
1 sentences, 1 words, 1 OOVs
0 zeroprobs, logprob= -0.291827 ppl= 1.95806 ppl1= undefined
file final.txt: 6 sentences, 126 words, 6 OOVs
0 zeroprobs, logprob= -912.981 ppl= 1.7615e+07 ppl1= 4.05673e+07
******
It seems diferent.
Can you help me?
On Mon, Jan 11, 2010 at 11:49 AM, Manuel Alves <beleira at gmail.com> wrote:
> Hi Andreas.
> The output of the ngram-count was:
> [root at localhost Corporas]#
> ../srilm/bin/i686/ngram-count -order 3 -text CETEMPublico1.7 -lm LM
> warning: discount coeff 1 is
> out of range: 1.44451e-17
>
> I dont know if there is any problem with GT discount method.
>
>
> On Fri, Jan 8, 2010 at 9:52 PM, Andreas Stolcke <stolcke at speech.sri.com>wrote:
>
>> On 1/8/2010 3:57 AM, Manuel Alves wrote:
>>
>>
>>
>> ---------- Forwarded message ----------
>> From: Manuel Alves <beleira at gmail.com>
>> Date: Fri, Jan 8, 2010 at 10:40 AM
>> Subject: Re: Fwd: ngram-count
>> To: Andreas Stolcke <stolcke at speech.sri.com>
>>
>>
>> 1. ngram-count -text CETEMPublico1.7 -lm LM
>> 2.I test it in this way:
>> I use the client-server architecture of SRILM
>> SERVER : ngram -lm ../$a -server-port 100
>> -order 3
>> CLIENT : ngram -use-server 100\@localhost
>> -cache-served-ngrams -ppl $ficheiro -debug 2 2>&1
>> where $ficheiro is this:
>>
>>
>>
>>
>>
>> p( observássemos | que ...) = 0 [ -inf ]
>>
>>
>> file final.txt: 6 sentences, 126 words, 0 OOVs
>> 6 zeroprobs, logprob= -912.981 ppl= 1.7615e+07 ppl1= 4.05673e+07
>>
>>
>> It looks to me like everything is working as intended. You are getting
>> zeroprobs, but not a large number of them.
>> They are low-frequency words (like the one above), so it makes sense,
>> since they are probably not contained in the training corpus.
>>
>> The perplexity is quite high, but that could be because of a small, or
>> mismatched training corpus. You didn't include the output of the
>> ngram-count program, it's possible that the GT (default) discounting method
>> reported some problems that are not evident from your mail.
>>
>> One thing to note is that with network-server LMs you don't get OOVs,
>> because all words are implicitly added to the vocabulary. Consequently, OOVs
>> are counted as zeroprobs instead, but both types of tokens are equivalent
>> for perplexity computation.
>> Still, you could run
>> ngram -lm ../$a -order 3 -ppl $ficheiro -debug 2
>> just to make sure you're getting the same result.
>>
>> Andreas
>>
>>
>> *Manuel Alves. *
>>
>> On Thu, Jan 7, 2010 at 8:35 PM, Andreas Stolcke <stolcke at speech.sri.com>wrote:
>>
>>> On 1/6/2010 10:34 AM, Manuel Alves wrote:
>>>
>>>
>>>
>>> ---------- Forwarded message ----------
>>> From: Manuel Alves <beleira at gmail.com>
>>> Date: Wed, Jan 6, 2010 at 6:33 PM
>>> Subject: ngram-count
>>> To: srilm-user at speech.sri.com
>>>
>>>
>>> Hi people.
>>> I need help whith ngram-count because i am training a model but when
>>> after i try to use it some test example he gives me Zeroprobs in the output.
>>> This means that the model is bad trained?
>>> Please answer me.
>>> Best regards,
>>> Manuel Alves.
>>>
>>>
>>>
>> _______________________________________________
>> SRILM-User site list
>> SRILM-User at speech.sri.com
>> http://www.speech.sri.com/mailman/listinfo/srilm-user
>>
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://www.speech.sri.com/pipermail/srilm-user/attachments/20100111/8eabe45a/attachment.html>
More information about the SRILM-User
mailing list