[SRILM User List] Fwd: Fwd: ngram-count

Manuel Alves beleira at gmail.com
Thu Jan 14 08:49:31 PST 2010


Sorry the output of the ngram-count is this:
server 100 at localhost: probserver ready
Entretanto , gostaria - como também me foi pedido por um berto número de
colegas - que observássemos um minuto de silêncio por todas as vítimas ,
nomeadamente das tempestades , nos diferentes países da União Europeia que
foram afectados .
    p( Entretanto | <s> )     =  8.47227e-05 [ -4.072 ]
    p( , | Entretanto ...)     =  3.18141e-06 [ -5.49738 ]
    p( gostaria | , ...)     =  7.02586e-11 [ -10.1533 ]
    p( - | gostaria ...)     =  3.95649e-08 [ -7.40269 ]
    p( como | - ...)     =  1.74273e-07 [ -6.75877 ]
    p( também | como ...)     =  4.00507e-09 [ -8.39739 ]
    p( me | também ...)     =  8.39614e-10 [ -9.07592 ]
    p( foi | me ...)     =  2.1752e-08 [ -7.6625 ]
    p( pedido | foi ...)     =  4.0131e-10 [ -9.39652 ]
    p( por | pedido ...)     =  1.21818e-07 [ -6.91429 ]
    p( um | por ...)     =  2.5325e-08 [ -7.59645 ]
    p( berto | um ...)     =  4.81061e-14 [ -13.3178 ]
    p( número | berto ...)     =  3.80189e-05 [ -4.42 ]
    p( de | número ...)     =  2.85043e-07 [ -6.54509 ]
    p( colegas | de ...)     =  1.31686e-10 [ -9.88046 ]
    p( - | colegas ...)     =  2.12007e-08 [ -7.67365 ]
    p( que | - ...)     =  1.27685e-06 [ -5.89386 ]
    p( observássemos | que ...)     =  3.4788e-08 [ -7.45857 ]
    p( um | observássemos ...)     =  0.00378643 [ -2.42177 ]
    p( minuto | um ...)     =  8.51139e-11 [ -10.07 ]
    p( de | minuto ...)     =  3.65915e-06 [ -5.43662 ]
    p( silêncio | de ...)     =  1.45194e-10 [ -9.83805 ]
    p( por | silêncio ...)     =  2.62766e-07 [ -6.58043 ]
    p( todas | por ...)     =  9.93115e-10 [ -9.003 ]
    p( as | todas ...)     =  3.5242e-08 [ -7.45294 ]
    p( vítimas | as ...)     =  2.67061e-10 [ -9.57339 ]
    p( , | vítimas ...)     =  1.95573e-06 [ -5.70869 ]
    p( nomeadamente | , ...)     =  4.18398e-10 [ -9.37841 ]
    p( das | nomeadamente ...)     =  5.79949e-08 [ -7.23661 ]
    p( tempestades | das ...)     =  1.23937e-11 [ -10.9068 ]
    p( , | tempestades ...)     =  4.27307e-05 [ -4.36926 ]
    p( nos | , ...)     =  4.60427e-09 [ -8.33684 ]
    p( diferentes | nos ...)     =  7.88189e-10 [ -9.10337 ]
    p( países | diferentes ...)     =  6.51014e-09 [ -8.18641 ]
    p( da | países ...)     =  8.3253e-08 [ -7.0796 ]
    p( União | da ...)     =  5.88857e-10 [ -9.22999 ]
    p( Europeia | União ...)     =  4.2602e-09 [ -8.37057 ]
    p( que | Europeia ...)     =  2.6796e-07 [ -6.57193 ]
    p( foram | que ...)     =  2.1925e-09 [ -8.65906 ]
    p( afectados | foram ...)     =  3.57355e-11 [ -10.4469 ]
    p( . | afectados ...)     =  5.724e-06 [ -5.2423 ]
    p( </s> | . ...)     =  0.999997 [ -1.32346e-06 ]
1 sentences, 41 words, 0 OOVs
0 zeroprobs, logprob= -317.32 ppl= 3.5911e+07 ppl1= 5.48911e+07

$
    p( $ | <s> )     =  2.54806e-05 [ -4.59379 ]
    p( </s> | $ ...)     =  0.50782 [ -0.29429 ]
1 sentences, 1 words, 0 OOVs
0 zeroprobs, logprob= -4.88808 ppl= 277.997 ppl1= 77282.3

Entretanto , gostaria - como também me foi pedido por um perto número de
colegas - que observássemos um minuto de silêncio por todas as vítimas ,
nomeadamente das tempestades , nos diferentes países da União Europeia que
foram afectados .
    p( Entretanto | <s> )     =  8.47227e-05 [ -4.072 ]
    p( , | Entretanto ...)     =  3.18141e-06 [ -5.49738 ]
    p( gostaria | , ...)     =  7.02586e-11 [ -10.1533 ]
    p( - | gostaria ...)     =  3.95649e-08 [ -7.40269 ]
    p( como | - ...)     =  1.74273e-07 [ -6.75877 ]
    p( também | como ...)     =  4.00507e-09 [ -8.39739 ]
    p( me | também ...)     =  8.39614e-10 [ -9.07592 ]
    p( foi | me ...)     =  2.1752e-08 [ -7.6625 ]
    p( pedido | foi ...)     =  4.0131e-10 [ -9.39652 ]
    p( por | pedido ...)     =  1.21818e-07 [ -6.91429 ]
    p( um | por ...)     =  2.5325e-08 [ -7.59645 ]
    p( perto | um ...)     =  4.24659e-10 [ -9.37196 ]
    p( número | perto ...)     =  5.74288e-09 [ -8.24087 ]
    p( de | número ...)     =  2.85043e-07 [ -6.54509 ]
    p( colegas | de ...)     =  1.31686e-10 [ -9.88046 ]
    p( - | colegas ...)     =  2.12007e-08 [ -7.67365 ]
    p( que | - ...)     =  1.27685e-06 [ -5.89386 ]
    p( observássemos | que ...)     =  3.4788e-08 [ -7.45857 ]
    p( um | observássemos ...)     =  0.00378643 [ -2.42177 ]
    p( minuto | um ...)     =  8.51139e-11 [ -10.07 ]
    p( de | minuto ...)     =  3.65915e-06 [ -5.43662 ]
    p( silêncio | de ...)     =  1.45194e-10 [ -9.83805 ]
    p( por | silêncio ...)     =  2.62766e-07 [ -6.58043 ]
    p( todas | por ...)     =  9.93115e-10 [ -9.003 ]
    p( as | todas ...)     =  3.5242e-08 [ -7.45294 ]
    p( vítimas | as ...)     =  2.67061e-10 [ -9.57339 ]
    p( , | vítimas ...)     =  1.95573e-06 [ -5.70869 ]
    p( nomeadamente | , ...)     =  4.18398e-10 [ -9.37841 ]
    p( das | nomeadamente ...)     =  5.79949e-08 [ -7.23661 ]
    p( tempestades | das ...)     =  1.23937e-11 [ -10.9068 ]
    p( , | tempestades ...)     =  4.27307e-05 [ -4.36926 ]
    p( nos | , ...)     =  4.60427e-09 [ -8.33684 ]
    p( diferentes | nos ...)     =  7.88189e-10 [ -9.10337 ]
    p( países | diferentes ...)     =  6.51014e-09 [ -8.18641 ]
    p( da | países ...)     =  8.3253e-08 [ -7.0796 ]
    p( União | da ...)     =  5.88857e-10 [ -9.22999 ]
    p( Europeia | União ...)     =  4.2602e-09 [ -8.37057 ]
    p( que | Europeia ...)     =  2.6796e-07 [ -6.57193 ]
    p( foram | que ...)     =  2.1925e-09 [ -8.65906 ]
    p( afectados | foram ...)     =  3.57355e-11 [ -10.4469 ]
    p( . | afectados ...)     =  5.724e-06 [ -5.2423 ]
    p( </s> | . ...)     =  0.999997 [ -1.32346e-06 ]
1 sentences, 41 words, 0 OOVs
0 zeroprobs, logprob= -317.195 ppl= 3.56659e+07 ppl1= 5.45072e+07

$
    p( $ | <s> )     =  2.54806e-05 [ -4.59379 ]
    p( </s> | $ ...)     =  0.50782 [ -0.29429 ]
1 sentences, 1 words, 0 OOVs
0 zeroprobs, logprob= -4.88808 ppl= 277.997 ppl1= 77282.3

Entretanto , gostaria - como também me foi pedido por um certo número de
colegas - que observássemos um minuto de silêncio por todas as vítimas ,
nomeadamente das tempestades , nos diferentes países da União Europeia que
foram afectados .
    p( Entretanto | <s> )     =  8.47227e-05 [ -4.072 ]
    p( , | Entretanto ...)     =  3.18141e-06 [ -5.49738 ]
    p( gostaria | , ...)     =  7.02586e-11 [ -10.1533 ]
    p( - | gostaria ...)     =  3.95649e-08 [ -7.40269 ]
    p( como | - ...)     =  1.74273e-07 [ -6.75877 ]
    p( também | como ...)     =  4.00507e-09 [ -8.39739 ]
    p( me | também ...)     =  8.39614e-10 [ -9.07592 ]
    p( foi | me ...)     =  2.1752e-08 [ -7.6625 ]
    p( pedido | foi ...)     =  4.0131e-10 [ -9.39652 ]
    p( por | pedido ...)     =  1.21818e-07 [ -6.91429 ]
    p( um | por ...)     =  2.5325e-08 [ -7.59645 ]
    p( certo | um ...)     =  4.40008e-10 [ -9.35654 ]
    p( número | certo ...)     =  5.54255e-09 [ -8.25629 ]
    p( de | número ...)     =  2.85043e-07 [ -6.54509 ]
    p( colegas | de ...)     =  1.31686e-10 [ -9.88046 ]
    p( - | colegas ...)     =  2.12007e-08 [ -7.67365 ]
    p( que | - ...)     =  1.27685e-06 [ -5.89386 ]
    p( observássemos | que ...)     =  3.4788e-08 [ -7.45857 ]
    p( um | observássemos ...)     =  0.00378643 [ -2.42177 ]
    p( minuto | um ...)     =  8.51139e-11 [ -10.07 ]
    p( de | minuto ...)     =  3.65915e-06 [ -5.43662 ]
    p( silêncio | de ...)     =  1.45194e-10 [ -9.83805 ]
    p( por | silêncio ...)     =  2.62766e-07 [ -6.58043 ]
    p( todas | por ...)     =  9.93115e-10 [ -9.003 ]
    p( as | todas ...)     =  3.5242e-08 [ -7.45294 ]
    p( vítimas | as ...)     =  2.67061e-10 [ -9.57339 ]
    p( , | vítimas ...)     =  1.95573e-06 [ -5.70869 ]
    p( nomeadamente | , ...)     =  4.18398e-10 [ -9.37841 ]
    p( das | nomeadamente ...)     =  5.79949e-08 [ -7.23661 ]
    p( tempestades | das ...)     =  1.23937e-11 [ -10.9068 ]
    p( , | tempestades ...)     =  4.27307e-05 [ -4.36926 ]
    p( nos | , ...)     =  4.60427e-09 [ -8.33684 ]
    p( diferentes | nos ...)     =  7.88189e-10 [ -9.10337 ]
    p( países | diferentes ...)     =  6.51014e-09 [ -8.18641 ]
    p( da | países ...)     =  8.3253e-08 [ -7.0796 ]
    p( União | da ...)     =  5.88857e-10 [ -9.22999 ]
    p( Europeia | União ...)     =  4.2602e-09 [ -8.37057 ]
    p( que | Europeia ...)     =  2.6796e-07 [ -6.57193 ]
    p( foram | que ...)     =  2.1925e-09 [ -8.65906 ]
    p( afectados | foram ...)     =  3.57355e-11 [ -10.4469 ]
    p( . | afectados ...)     =  5.724e-06 [ -5.2423 ]
    p( </s> | . ...)     =  0.999997 [ -1.32346e-06 ]
1 sentences, 41 words, 0 OOVs
0 zeroprobs, logprob= -317.195 ppl= 3.56659e+07 ppl1= 5.45072e+07

$
    p( $ | <s> )     =  2.54806e-05 [ -4.59379 ]
    p( </s> | $ ...)     =  0.50782 [ -0.29429 ]
1 sentences, 1 words, 0 OOVs
0 zeroprobs, logprob= -4.88808 ppl= 277.997 ppl1= 77282.3

file final.txt: 6 sentences, 126 words, 0 OOVs
0 zeroprobs, logprob= -966.373 ppl= 2.09415e+07 ppl1= 4.67334e+07



On Thu, Jan 14, 2010 at 4:29 PM, Manuel Alves <beleira at gmail.com> wrote:

> Hi people.
>
> Whith the command :
>                                           ngram-count -wbdiscount -order 3
> -unk -text CETEMPublico1.7 -lm LM3 &
> I get this results:
>
> server 100 at localhost: probserver ready
> Entretanto , gostaria - como também me foi pedido por um berto número de
> colegas - que observássemos um minuto de silêncio por todas as vítimas ,
> nomeadamente das tempestades , nos diferentes países da União Europeia que
> foram afectados .
>     p( Entretanto | <s> )     =  8.47227e-05 [ -4.072 ]
>     p( , | Entretanto ...)     =  3.18141e-06 [ -5.49738 ]
>     p( gostaria | , ...)     =  7.02748e-11 [ -10.1532 ]
>     p( - | gostaria ...)     =  3.95658e-08 [ -7.40268 ]
>     p( como | - ...)     =  1.74273e-07 [ -6.75877 ]
>     p( também | como ...)     =  4.00507e-09 [ -8.39739 ]
>     p( me | também ...)     =  8.39635e-10 [ -9.07591 ]
>     p( foi | me ...)     =  2.1752e-08 [ -7.6625 ]
>     p( pedido | foi ...)     =  4.01329e-10 [ -9.3965 ]
>     p( por | pedido ...)     =  1.21818e-07 [ -6.91429 ]
>     p( um | por ...)     =  2.5325e-08 [ -7.59645 ]
>     p( berto | um ...)     =  6.41506e-14 [ -13.1928 ]
>     p( número | berto ...)     =  3.80198e-05 [ -4.41999 ]
>     p( de | número ...)     =  2.85043e-07 [ -6.54509 ]
>     p( colegas | de ...)     =  1.31701e-10 [ -9.88041 ]
>     p( - | colegas ...)     =  2.12007e-08 [ -7.67365 ]
>     p( que | - ...)     =  1.27685e-06 [ -5.89386 ]
>
>     p( observássemos | que ...)     =  0 [ -inf ]
>     p( um | observássemos ...)     =  0.00378643 [ -2.42177 ]
>     p( minuto | um ...)     =  8.51139e-11 [ -10.07 ]
>     p( de | minuto ...)     =  3.65915e-06 [ -5.43662 ]
>     p( silêncio | de ...)     =  1.45208e-10 [ -9.83801 ]
>     p( por | silêncio ...)     =  2.62766e-07 [ -6.58043 ]
>     p( todas | por ...)     =  9.93139e-10 [ -9.00299 ]
>     p( as | todas ...)     =  3.5242e-08 [ -7.45294 ]
>     p( vítimas | as ...)     =  2.67073e-10 [ -9.57337 ]
>     p( , | vítimas ...)     =  1.95573e-06 [ -5.70869 ]
>     p( nomeadamente | , ...)     =  4.18417e-10 [ -9.37839 ]
>     p( das | nomeadamente ...)     =  5.79949e-08 [ -7.23661 ]
>     p( tempestades | das ...)     =  1.24108e-11 [ -10.9062 ]
>     p( , | tempestades ...)     =  4.27307e-05 [ -4.36926 ]
>     p( nos | , ...)     =  4.60437e-09 [ -8.33683 ]
>     p( diferentes | nos ...)     =  7.88206e-10 [ -9.10336 ]
>     p( países | diferentes ...)     =  6.51028e-09 [ -8.1864 ]
>     p( da | países ...)     =  8.3253e-08 [ -7.0796 ]
>     p( União | da ...)     =  5.8887e-10 [ -9.22998 ]
>     p( Europeia | União ...)     =  4.2603e-09 [ -8.37056 ]
>     p( que | Europeia ...)     =  2.6796e-07 [ -6.57193 ]
>     p( foram | que ...)     =  2.19255e-09 [ -8.65905 ]
>     p( afectados | foram ...)     =  3.5752e-11 [ -10.4467 ]
>     p( . | afectados ...)     =  5.724e-06 [ -5.2423 ]
>
>     p( </s> | . ...)     =  0.999997 [ -1.32346e-06 ]
> 1 sentences, 41 words, 0 OOVs
> 1 zeroprobs, logprob= -309.735 ppl= 3.58516e+07 ppl1= 5.53824e+07
>
> $
>     p( $ | <s> )     =  0 [ -inf ]
>     p( </s> | $ ...)     =  0.50782 [ -0.29429 ]
>
> 1 sentences, 1 words, 0 OOVs
> 1 zeroprobs, logprob= -0.29429 ppl= 1.9692 ppl1= undefined
>
>
> Entretanto , gostaria - como também me foi pedido por um perto número de
> colegas - que observássemos um minuto de silêncio por todas as vítimas ,
> nomeadamente das tempestades , nos diferentes países da União Europeia que
> foram afectados .
>     p( Entretanto | <s> )     =  8.47227e-05 [ -4.072 ]
>     p( , | Entretanto ...)     =  3.18141e-06 [ -5.49738 ]
>     p( gostaria | , ...)     =  7.02748e-11 [ -10.1532 ]
>     p( - | gostaria ...)     =  3.95658e-08 [ -7.40268 ]
>     p( como | - ...)     =  1.74273e-07 [ -6.75877 ]
>     p( também | como ...)     =  4.00507e-09 [ -8.39739 ]
>     p( me | também ...)     =  8.39635e-10 [ -9.07591 ]
>     p( foi | me ...)     =  2.1752e-08 [ -7.6625 ]
>     p( pedido | foi ...)     =  4.01329e-10 [ -9.3965 ]
>     p( por | pedido ...)     =  1.21818e-07 [ -6.91429 ]
>     p( um | por ...)     =  2.5325e-08 [ -7.59645 ]
>     p( perto | um ...)     =  4.24668e-10 [ -9.37195 ]
>     p( número | perto ...)     =  5.74288e-09 [ -8.24087 ]
>     p( de | número ...)     =  2.85043e-07 [ -6.54509 ]
>     p( colegas | de ...)     =  1.31701e-10 [ -9.88041 ]
>     p( - | colegas ...)     =  2.12007e-08 [ -7.67365 ]
>     p( que | - ...)     =  1.27685e-06 [ -5.89386 ]
>
>     p( observássemos | que ...)     =  0 [ -inf ]
>     p( um | observássemos ...)     =  0.00378643 [ -2.42177 ]
>     p( minuto | um ...)     =  8.51139e-11 [ -10.07 ]
>     p( de | minuto ...)     =  3.65915e-06 [ -5.43662 ]
>     p( silêncio | de ...)     =  1.45208e-10 [ -9.83801 ]
>     p( por | silêncio ...)     =  2.62766e-07 [ -6.58043 ]
>     p( todas | por ...)     =  9.93139e-10 [ -9.00299 ]
>     p( as | todas ...)     =  3.5242e-08 [ -7.45294 ]
>     p( vítimas | as ...)     =  2.67073e-10 [ -9.57337 ]
>     p( , | vítimas ...)     =  1.95573e-06 [ -5.70869 ]
>     p( nomeadamente | , ...)     =  4.18417e-10 [ -9.37839 ]
>     p( das | nomeadamente ...)     =  5.79949e-08 [ -7.23661 ]
>     p( tempestades | das ...)     =  1.24108e-11 [ -10.9062 ]
>     p( , | tempestades ...)     =  4.27307e-05 [ -4.36926 ]
>     p( nos | , ...)     =  4.60437e-09 [ -8.33683 ]
>     p( diferentes | nos ...)     =  7.88206e-10 [ -9.10336 ]
>     p( países | diferentes ...)     =  6.51028e-09 [ -8.1864 ]
>     p( da | países ...)     =  8.3253e-08 [ -7.0796 ]
>     p( União | da ...)     =  5.8887e-10 [ -9.22998 ]
>     p( Europeia | União ...)     =  4.2603e-09 [ -8.37056 ]
>     p( que | Europeia ...)     =  2.6796e-07 [ -6.57193 ]
>     p( foram | que ...)     =  2.19255e-09 [ -8.65905 ]
>     p( afectados | foram ...)     =  3.5752e-11 [ -10.4467 ]
>     p( . | afectados ...)     =  5.724e-06 [ -5.2423 ]
>
>     p( </s> | . ...)     =  0.999997 [ -1.32346e-06 ]
> 1 sentences, 41 words, 0 OOVs
> 1 zeroprobs, logprob= -309.735 ppl= 3.58516e+07 ppl1= 5.53824e+07
>
> $
>     p( $ | <s> )     =  0 [ -inf ]
>     p( </s> | $ ...)     =  0.50782 [ -0.29429 ]
>
> 1 sentences, 1 words, 0 OOVs
> 1 zeroprobs, logprob= -0.29429 ppl= 1.9692 ppl1= undefined
>
>
> Entretanto , gostaria - como também me foi pedido por um certo número de
> colegas - que observássemos um minuto de silêncio por todas as vítimas ,
> nomeadamente das tempestades , nos diferentes países da União Europeia que
> foram afectados .
>     p( Entretanto | <s> )     =  8.47227e-05 [ -4.072 ]
>     p( , | Entretanto ...)     =  3.18141e-06 [ -5.49738 ]
>     p( gostaria | , ...)     =  7.02748e-11 [ -10.1532 ]
>     p( - | gostaria ...)     =  3.95658e-08 [ -7.40268 ]
>     p( como | - ...)     =  1.74273e-07 [ -6.75877 ]
>     p( também | como ...)     =  4.00507e-09 [ -8.39739 ]
>     p( me | também ...)     =  8.39635e-10 [ -9.07591 ]
>     p( foi | me ...)     =  2.1752e-08 [ -7.6625 ]
>     p( pedido | foi ...)     =  4.01329e-10 [ -9.3965 ]
>     p( por | pedido ...)     =  1.21818e-07 [ -6.91429 ]
>     p( um | por ...)     =  2.5325e-08 [ -7.59645 ]
>     p( certo | um ...)     =  4.40017e-10 [ -9.35653 ]
>     p( número | certo ...)     =  5.54255e-09 [ -8.25629 ]
>     p( de | número ...)     =  2.85043e-07 [ -6.54509 ]
>     p( colegas | de ...)     =  1.31701e-10 [ -9.88041 ]
>     p( - | colegas ...)     =  2.12007e-08 [ -7.67365 ]
>     p( que | - ...)     =  1.27685e-06 [ -5.89386 ]
>
>     p( observássemos | que ...)     =  0 [ -inf ]
>     p( um | observássemos ...)     =  0.00378643 [ -2.42177 ]
>     p( minuto | um ...)     =  8.51139e-11 [ -10.07 ]
>     p( de | minuto ...)     =  3.65915e-06 [ -5.43662 ]
>     p( silêncio | de ...)     =  1.45208e-10 [ -9.83801 ]
>     p( por | silêncio ...)     =  2.62766e-07 [ -6.58043 ]
>     p( todas | por ...)     =  9.93139e-10 [ -9.00299 ]
>     p( as | todas ...)     =  3.5242e-08 [ -7.45294 ]
>     p( vítimas | as ...)     =  2.67073e-10 [ -9.57337 ]
>     p( , | vítimas ...)     =  1.95573e-06 [ -5.70869 ]
>     p( nomeadamente | , ...)     =  4.18417e-10 [ -9.37839 ]
>     p( das | nomeadamente ...)     =  5.79949e-08 [ -7.23661 ]
>     p( tempestades | das ...)     =  1.24108e-11 [ -10.9062 ]
>     p( , | tempestades ...)     =  4.27307e-05 [ -4.36926 ]
>     p( nos | , ...)     =  4.60437e-09 [ -8.33683 ]
>     p( diferentes | nos ...)     =  7.88206e-10 [ -9.10336 ]
>     p( países | diferentes ...)     =  6.51028e-09 [ -8.1864 ]
>     p( da | países ...)     =  8.3253e-08 [ -7.0796 ]
>     p( União | da ...)     =  5.8887e-10 [ -9.22998 ]
>     p( Europeia | União ...)     =  4.2603e-09 [ -8.37056 ]
>     p( que | Europeia ...)     =  2.6796e-07 [ -6.57193 ]
>     p( foram | que ...)     =  2.19255e-09 [ -8.65905 ]
>     p( afectados | foram ...)     =  3.5752e-11 [ -10.4467 ]
>     p( . | afectados ...)     =  5.724e-06 [ -5.2423 ]
>
>     p( </s> | . ...)     =  0.999997 [ -1.32346e-06 ]
> 1 sentences, 41 words, 0 OOVs
> 1 zeroprobs, logprob= -309.735 ppl= 3.58516e+07 ppl1= 5.53824e+07
>
> $
>     p( $ | <s> )     =  0 [ -inf ]
>     p( </s> | $ ...)     =  0.50782 [ -0.29429 ]
>
> 1 sentences, 1 words, 0 OOVs
> 1 zeroprobs, logprob= -0.29429 ppl= 1.9692 ppl1= undefined
>
>
> file final.txt: 6 sentences, 126 words, 0 OOVs
> 6 zeroprobs, logprob= -930.088 ppl= 2.40795e+07 ppl1= 5.63287e+07
>
>
> *Can you tell me if the problem comes from the GT discount method used by
> default in the ngram-count command?*
>
> Best Regards,
> Manuel Alves.
>
>
> On Mon, Jan 11, 2010 at 4:52 PM, Andreas Stolcke <stolcke at speech.sri.com>wrote:
>
>>  On 1/11/2010 3:49 AM, Manuel Alves wrote:
>>
>> Hi  Andreas.
>> The output of the ngram-count was:
>>                                                [root at localhost Corporas]#
>> ../srilm/bin/i686/ngram-count -order 3 -text CETEMPublico1.7 -lm LM
>>                                                warning: discount coeff 1
>> is out of range: 1.44451e-17
>>
>> I dont know if there is any problem with GT discount method.
>>
>>  Try another discount method like -wbdiscount just to see if that changes
>> your results by much.
>>
>> Andreas
>>
>>
>>
>> On Fri, Jan 8, 2010 at 9:52 PM, Andreas Stolcke <stolcke at speech.sri.com>wrote:
>>
>>>  On 1/8/2010 3:57 AM, Manuel Alves wrote:
>>>
>>>
>>>
>>>  ---------- Forwarded message ----------
>>> From: Manuel Alves <beleira at gmail.com>
>>>  Date: Fri, Jan 8, 2010 at 10:40 AM
>>> Subject: Re: Fwd: ngram-count
>>> To: Andreas Stolcke <stolcke at speech.sri.com>
>>>
>>>
>>> 1. ngram-count -text CETEMPublico1.7 -lm LM
>>> 2.I test it in this way:
>>>                              I use the client-server architecture of
>>> SRILM
>>>                              SERVER : ngram -lm ../$a -server-port 100
>>> -order 3
>>>                              CLIENT   : ngram -use-server 100\@localhost
>>> -cache-served-ngrams -ppl $ficheiro -debug 2 2>&1
>>>                              where $ficheiro is this:
>>>
>>>
>>>
>>>
>>>
>>>     p( observássemos | que ...)     =  0 [ -inf ]
>>>
>>>
>>>  file final.txt: 6 sentences, 126 words, 0 OOVs
>>> 6 zeroprobs, logprob= -912.981 ppl= 1.7615e+07 ppl1= 4.05673e+07
>>>
>>>
>>>  It looks to me like everything is working as intended.   You are getting
>>> zeroprobs, but not a large number of them.
>>> They are low-frequency words (like the one above), so it makes sense,
>>> since they are probably not contained in the training corpus.
>>>
>>> The perplexity is quite high, but that could be because of a small, or
>>> mismatched training corpus.   You didn't include the output of the
>>> ngram-count program, it's possible that the GT (default) discounting method
>>> reported some problems that are not evident from your mail.
>>>
>>> One thing to note is that with network-server LMs you don't get OOVs,
>>> because all words are implicitly added to the vocabulary. Consequently, OOVs
>>> are counted as zeroprobs instead, but both types of tokens are equivalent
>>> for perplexity computation.
>>> Still, you could run
>>>          ngram -lm ../$a -order 3  -ppl $ficheiro -debug 2
>>> just to make sure you're getting the same result.
>>>
>>> Andreas
>>>
>>>
>>>  *Manuel Alves.  *
>>>
>>> On Thu, Jan 7, 2010 at 8:35 PM, Andreas Stolcke <stolcke at speech.sri.com>wrote:
>>>
>>>>  On 1/6/2010 10:34 AM, Manuel Alves wrote:
>>>>
>>>>
>>>>
>>>> ---------- Forwarded message ----------
>>>> From: Manuel Alves <beleira at gmail.com>
>>>> Date: Wed, Jan 6, 2010 at 6:33 PM
>>>> Subject: ngram-count
>>>> To: srilm-user at speech.sri.com
>>>>
>>>>
>>>> Hi people.
>>>> I need help whith ngram-count because i am training a model but when
>>>> after i try to use it some test example he gives me Zeroprobs in the output.
>>>> This means that the model is bad trained?
>>>> Please answer me.
>>>> Best regards,
>>>> Manuel Alves.
>>>>
>>>>
>>>>
>>> _______________________________________________
>>> SRILM-User site list
>>> SRILM-User at speech.sri.com
>>> http://www.speech.sri.com/mailman/listinfo/srilm-user
>>>
>>
>>
>>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://www.speech.sri.com/pipermail/srilm-user/attachments/20100114/efc76c8e/attachment.html>


More information about the SRILM-User mailing list