"Янис" в кодировке cp1251 enca определяет как MACCYRILLIC, из-за чего enconv преобразовывает его в "янис" (коцается заглавная Я). непонятно почему cp1251 не подходит, ведь в ней тоже все символы есть? дело не в длине образца, потмоу что текст _любой_ длины в cp1251, содержащий только строчные буквы и ЭЮЯ будет определен как MAC, и преобразован соответственно в Ёёя. м.б. имеет смысл cp1251 поставить приоритет чуть выше чем у MAC? или какой-нибудь более автоугадавный вариант, учитывающий заглавную букву в начале текста как +1.
Общайся с апстримом (посмотрев 1.7) :-) Автор, кстати, позиционирует enca как определялку кодировки текста в, возможно, смешанных данных/тексте. И ни разу не для минимализации длины текста, по которому идёт сколь-нибудь надёжное определение. За последним -- к Знаменскому и в xcode.
(In reply to comment #1) > Общайся с апстримом (посмотрев 1.7) :-) 1.7 все так же > Автор, кстати, позиционирует enca как определялку кодировки текста в, >возможно, смешанных данных/тексте. И ни разу не для минимализации длины >текста, по которому идёт сколь-нибудь надёжное определение. да, согласен, на бОльших частотность спасает. но вот 28 символов: $ echo Янис ни фига не сумасшедший ЭЮЯ | enca Macintosh Cyrillic мне это надо для id3, а xcode не знает utf8. видимо, придется ставить дополнительный угадав после enca и активировать его в случае mac. хочется совершенства :-)
(In reply to comment #2) > хочется совершенства :-) Ну ты ж собирал librcd. :-)
причесать и выкатить свой мегаугадав, что ли...
Было очень неплохо, если бы он был патчем к enca.
ой. скорее, третим бэкэндом к rcc. иначе от энки только обложка останется.
BTW насколько помню -- в librcc был ещё свой автоугадав для кириллицы, который для коротких строк работал лучше, чем в enca.
В общем, с учётом позиционирования апстрима это нотабуг.