Bug 6201 - wrong detecting cp1251 as MACCYRILLIC
Summary: wrong detecting cp1251 as MACCYRILLIC
Status: CLOSED NOTABUG
Alias: None
Product: Sisyphus
Classification: Development
Component: libenca (show other bugs)
Version: unstable
Hardware: all Linux
: P2 minor
Assignee: Nick S. Grechukh
QA Contact: qa-sisyphus
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2005-03-03 15:02 MSK by Nick S. Grechukh
Modified: 2010-10-30 13:18 MSD (History)
3 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Nick S. Grechukh 2005-03-03 15:02:39 MSK
"Янис" в кодировке cp1251 enca определяет как MACCYRILLIC, из-за чего enconv    
преобразовывает его в "янис" (коцается заглавная Я).     
непонятно почему cp1251 не подходит, ведь в ней тоже все символы есть?   
 
дело не в длине образца, потмоу что текст _любой_ длины в cp1251, содержащий   
только строчные буквы  и ЭЮЯ  будет определен как MAC, и преобразован   
соответственно в Ёёя.    
м.б.  имеет смысл cp1251 поставить приоритет чуть выше чем у MAC? или 
какой-нибудь более автоугадавный вариант, учитывающий заглавную букву в 
начале текста как +1.
Comment 1 Michael Shigorin 2005-03-03 15:10:45 MSK
Общайся с апстримом (посмотрев 1.7) :-)

Автор, кстати, позиционирует enca как определялку кодировки текста в, возможно,
смешанных данных/тексте.  И ни разу не для минимализации длины текста, по
которому идёт сколь-нибудь надёжное определение.

За последним -- к Знаменскому и в xcode.
Comment 2 Nick S. Grechukh 2005-03-03 16:44:45 MSK
(In reply to comment #1)     
> Общайся с апстримом (посмотрев 1.7) :-)     
1.7 все так же     
> Автор, кстати, позиционирует enca как определялку кодировки текста в,     
>возможно, смешанных данных/тексте.  И ни разу не для минимализации длины     
>текста, по которому идёт сколь-нибудь надёжное определение.     
да, согласен, на бОльших частотность спасает.  
но вот 28 символов:     
$ echo Янис ни фига не сумасшедший ЭЮЯ | enca   
Macintosh Cyrillic     
мне это надо для id3, а xcode не знает utf8.     
видимо, придется ставить дополнительный угадав  после enca и активировать его  
в случае mac.  
хочется совершенства :-)  
 
Comment 3 Michael Shigorin 2006-09-01 03:35:51 MSD
(In reply to comment #2)
> хочется совершенства :-)  
Ну ты ж собирал librcd. :-)
Comment 4 Nick S. Grechukh 2007-08-06 09:44:56 MSD
причесать и выкатить свой мегаугадав, что ли...
Comment 5 Vitaly Lipatov 2007-08-06 09:53:20 MSD
Было очень неплохо, если бы он был патчем к enca.
Comment 6 Nick S. Grechukh 2007-08-06 09:59:41 MSD
ой. скорее, третим бэкэндом к rcc.

иначе от энки только обложка останется.
Comment 7 Michael Shigorin 2007-08-06 13:37:42 MSD
BTW насколько помню -- в librcc был ещё свой автоугадав для кириллицы, который
для коротких строк работал лучше, чем в enca.
Comment 8 Michael Shigorin 2010-10-30 13:18:45 MSD
В общем, с учётом позиционирования апстрима это нотабуг.