В продолжение ветки open source проект универсального цифрового фильтра.
Данный проект имел своей целью сделать цапострой на параллельных конверторах более доступным, т.к. интегральные ЦФ для параллельных ЦАП купить достаточно сложно и дорого.
Особенности фильтра, выгодно отличающие его от интегральных аналогов, доступных в продаже:
- поддержка х32 оверсемплинга,
- автопереключение кратности интерполяции в зав-ти от входной ДЧ
- поддержка конвейерного вывода данных
- совместимость с большим кол-вом параллельных ЦАП-ов, в том числе SPI
- 55Дб ослабление на частоте Найквиста
- конфигурация режимов ЦФ выполняется внешними пинами, не требуя внешнего конфигурационного MCU
- невысокая стоимость
Фильтр писался под плисины в QFP-100 корпусах (латтис и алльтеру), но при желании проект несложно портировать и на любую другую плисину.
В проекте не используются выделенные умножители и описание блоков памяти выполнено универсальным верилоговским стилем.
Описание в стиле ДШ на агл. языке смотри в файле DF1_1_0_0.pdf
Прошивки сделаны под плисины в 100-пиновых выводных корпусах: LCMXO2-2000 и EP1C3T100 - DF1_firmware.zip.
Исходники написаны на верилоге: DF1_source.zip.
Для гибкости проекта в него введен файл конфигурации, в котором можно менять параметры ЦФ и выбирать условную компиляцию под плисину lattice config_lattice.zip, или altera - config_altera.zip. Данный файл конфигурации дополняет исходники для компиляции проекта.
Латтисы удобны меньшим потреблением и встроенной флешью. А циклоны - тем что их проще купить (полно на ибее).
При этом плисины Lattice желательно выбирать с грейдом скорости выше единицы. Самый медленный ZE-1 в принципе тоже работает, но при повышенных температурах, или при просадках питания - не гарантированно.
Так же во вложении смотри литературу по цифровой арифметике.
Информация по тестам данного проекта вживую:
Все модули и режимы (под латтис и под альтеру) отлаживались и проверялись во симуляторе Quartus. Для lattice fpga тайминги отдельно проверялись и оптимизировались в ide diamond.
Так же, обе конфигурации (под латтис и под альтеру) проверялись в живую на моем ЦАПе на LCMXO2-7000ZE-1, но в ограниченном режиме. Т.е. проверено все, что позволила схемотехника моего ЦАП.
Что проверено из основного функционала:
- АЧХ фильтра на частоте Найквиста при входной частоте дискретизации 44,1кГц в режиме lp_mode = 0 и lp_mode = 1.
- Работа на разном максимальном оверсемплинге: от х4 до х32.
- Автоматическое переключение оверсемплинга при повышении входной частоты дискретизации до 384кГц.
- Автоматическое переключение в режим байпасса.
- Отработка переполнения (цифровой клипп на меандре и на звуковой фонограмме).
- Индикация входной ЧД, байпасса и клиппа.
- Вывод данных на битклоке разной скорости (от clk/4 до clk/1).
- Смена скважности сигнала деглитчера.
- Работа входного аттенюатора (как логикой во входном модуле, так и коэффициентами).
- Работа дизеринга и ноизшейпинга округления данных на выходе.
Что не проверено (проверено только в симуляторе):
- Работа с тактовой частотой 768Fs.
- Разные режимы вывода данных (SPI_MODE), в частности не проверена работа конвейерного вывода данных и вывод с непрерывным битклоком.
- Не проверен вывод данных с SPI заголовками.
- Кроме того, допускаю наличие описок и в описании (режимов работы и пинов конфигурации очень много). Поэтому версию проекта озаглавлена как alpha.[свернуть]
Описание общей архитектуры ядра фильтра DF1:
Для максимальной экономии ресурсов fpga фильтр использует х2 каскады симметричных фазолинейных FIR фильтров-интерполяторов.
- х2 каскады снижают требуемы ресурсы для фильтрации, а так же делают удобным механизм смены кратности оверсемплинга.
- Фазолинейность означает симметрию импульсной хар-ки относительно центрального пика.
- Симметричность означает, что используется FIR четного порядка (это значит с нечетным числом коэф-тов, т.е. с одним центральным коэффициентом в максимуме).
Всего в своем составе фильтр содержит 5 каскадов х2 интерполяторов, которые позволяют развивать максимальную кратность оверсемплинга 2^5 = х32.
Каждый х2 каскад интерполятора имеет свой fifo буфер данных для расчета свертки фильтра. Итого, в составе фильтра всего 5 fifo буферов интерполяторов. Плюс, фильтр имеет отдельной fifo буфер для хранения результата расчета последнего х2 каскада.
На каждый входной семпл х2 интерполятор рассчитывает два новых семпла.
Входные данные всегда добавляются в fifo первого каскада. Результат расчета свертки первого каскада (два новых семпла) записывается в fifo будет 2-го каскада. Второй каскад для каждого нового семпла так же рассчитывает пару новых и результат (всего четыре новых семпла) добавляет в fifo 3-го каскада. И так далее...
Последний 5-ый каскад для входных 16-ти семплов рассчитывает новые 32 семпла и помещает результат в fifo выходного буфера. Из выходного fifo буфера данные с заданной выходной частотой дискретизации извлекаются и передаются на выход.
При снижении кратности оверсемплинга выходной fifo буфер принимает данные не с 5-го каскада, а из одного из предыдущих.
Например, при кратности х8, входные данные добавляются в fifo 1-го х2 каскада. Далее, результат (два семпла) - добавляются в fifo 2-го каскада. Результат 2-го (4 семпла) добавляются в fifo 3-го каскада. И в конце - результат 3-го каскада (8 семплов) добавляются в выходной fifo буфер.
Для экономии ресурсов fpga все каскады фильтра для расчета новых семплов используют общий арифметический блок (по одному на каждый канал) и общих блок ОЗУ. Поэтому расчет новых семплов каждого каскада выполняется последовательно (по очереди).
Модули MAC, работают в конвейерном режиме, т.е. результат на выходе мака появляется через несколько тактов после загрузки последнего семпла данных на входе. Данное обстоятельство создает коллизию при последовательном обсчете каскадов от первого к последнему, т.к. расчет свертки следующего каскада будет начинаться раньше, чем завершится расчет семплов предыдущего каскада. Данную коллизию можно устранить просто добавляя паузы ожидания на выгрузку конвейера маков, но в таком случае упадет производительность блока арифметики.
Поэтому, для устранения данной коллизии используется другой метод - обсчет каскадов выполняется в обратном порядке (от последнего к первому).
Т.е. в режиме х32 оверсемплинга при загрузке нового семпла в fifo 1-го каскада, конечный автомат сначала запускает 5-ый х2 каскад и рассчитывает 32 новых семпла, которые записываются в выходной fifo буфер. Затем - второй х2 каскад, котоый записывает 16 новых семплов в fifo 5-го каскада и т.д.
Т.к. fifo буферы размещены в общей ОЗУ, то данный блок поделен на сектора. Всего 6 рабочих секторов: 5 для fifo интерполяторов и один для выходного буфера.
Для упрощения арифметики адресации размеры буферов fifo выбраны кратными 2^N (адрес такого буфера при переполнении автоматом переходит на начало).
Т.к. при интерполяции промежуточные семплы прореживаются нулями, то объем fifo буфера интерполятора можно задавать вдвое меньше кол-ва отводов фильтра.
Для первого каскада (самого длинного) выделена глубина fifo 128 семплов. Поэтому максимальная длина фильтра для данного буфера составляет 256 отводов. Максимальная длина симметричного фазолинейного фильтра при этом будет 253 (увеличить можно только на 4 отвода, тогда получится 257, что не поместится в буфере).
Для остальных каскадов, а так же для выходного буфера глубина fifo задана 64 семпла.
Общий блок ОЗУ имеет объем 512 семплов. Поэтому в нем занято 128 + 64 + 64 + 64 + 64 на фильтры и еще 64 на выходной буфер. Всего 448 семплов. Еще 64 слова памяти остаются не использованы.
Адресация к блокам fifo внутри общего блока ОЗУ организована через смещения: старшие биты адреса задают адрес fifo буфера, а младшие - позицию внутри данного fifo буфера.
[свернуть]
Mac_Wx9
Модуль Mac_Wx9 - собственно тот модуль который выполняет умножение с накоплением входных отсчетов из fifo на коэффициенты из блока памяти coef_rom. По результату моделирования фильтров в матлабе выяснено, что для заданных хар-к фильтра оптимальная разрядность коэффициентов составляет порядка 26..28 бит.
Исходя из тактовой частоты 1024Fs выбрано максимально допустимое кол-во тактов умножителя на одно умножение: 3 такта. Это значит, что каждые три такта на входы умножителя подается новый семпл данных и новый коэффициент. При этом, на каждом такте выполняется умножение на 1/3 слова коэффициентов.
Исходя из этого, разрядность коэф-тов выбрана 27 бит, как удобная с точки зрения построения умножителя (делится на три), так и с точки зрения достаточной точности вычислений. Так же 27 бит коэффициенты хорошо ложатся в выделенные блоки памяти, разрядность которых кратна 9 разрядам.
Поэтому для данного проекта коэффициенты предварительно разбираются на 9 бит слова (для этого написана консольная утилита, которая из матлабовского файла коэффициентов создает верилоговский файл с коэффициентами в нужном формате).
Для максимальной производительности арифметики модуль mac выполняет умножения без пропусков тактов (каждые три такта - новое умножение), пока не будут обсчитаны все х2 каскады фильтра.
Также для оптимизации арифметики используется свойство симметрии коэффициентов фильтра. Если используются фазолинейный фильтр четного порядка, то в расчете каждого семпла выполняется умножение одного и того же коэффициента на два разных семпла данных.
Это обстоятельство позволяет в свертке заменить выражение d1*c + d2*c выражением (d1 + d2)*c, вдвое сокращая кол-во умножений. Но в то же время, такая арифметика требует чтения двух семплов на каждое умножение (каждый семпл читается за один такт clk).
Т.к. умножение выполняется за 3 такта, а чтение данных - за 2, то каждый 3-ий такт ОЗУ доступно для чтения результата из выходного буфера fifo.
Учитывая кол-во тактов умножителя, синхронизация разных модулей фильтра осуществляется посредством счетчика syncnt внутри модуля DF1_FIR_CORE, который постоянно считает по циклу от нуля до двух.[свернуть]
data_write
Записью данных в fifo буфер управляет модуль data_write. Данный модуль принимает сигналы на запись данных от входного модуля sai_input (когда приняты данные SAI_input модуля) и от мака mac_control (когда на выходе мака готов очередной семпл).
Для максимальной производительности арифметики мак работает без остановок, поэтому если оба сигнала приходят одновременно, то мак имеет более высокий приоритет (данные от модуля SAI_input запишутся после записи нового семпла из мака).
Позиции актуальных адресов fifo хранятся в регистрах-счетчиках: currpos_st1...currpos_st6. При записи каждого нового семпла в буфер выполняется инкремент соответствующего счетчика.
При этом, если выполняется запись данных от входного модуля, то data_write генерирует сигнал start_mac -> write_fir_start, который запускает конечный автомат управляющий арифметикой fir фильтра.[свернуть]
init_adr data_adr
Стартует алгоритм арифметики с модуля init_adr, который подготавливает данные для инициализации автомата генерации адресов интерполяторов (data_adr):
- длина первого lenth1 и второго lenth2 прохода фильтра для данного каскада фильтра
- кол-во повторов прохода: repeatnum
- номер каскада, с которого начинается старт арифметики. Для х32 режима это 5-ый каскад, для х16 - 4-ый и т.д.
- текущую позицию буфера fifo для данного каскада: curr_pos
- номер текущего каскада х2 интерполятора: stage_num
Модуль data_adr принимает инициализирующие значения от init_adr и генерирует адреса для заданного каскада фильтра (для расчета свертки х2 интерполятора). Так же модуль data_adr инициализирует генератор адресов коэффициентов coef_adr.
По завершении генерации адресов data_adr генерирует сигнал next_stage обратно в модуль init_adr.
Приняв этот сигнал init_adr готовит на свой выход данные инициализации для расчета следующего х2 каскада интерполятора.
Обмен сигналами между модулями повторяется, пока не будут обсчитаны все каскады фильтра.[свернуть]
data_read
Модуль data_read является промежуточным модулем между fir фильтром и модулем вывода данных. По сигналу out_load от модуля SAI_output, модуль data_read запускает алгоритм чтения данных из выходного fifo буфера.
Для этого, модуль data_read анализирует значение счетчика syncnt, и в момент когда ОЗУ свободна (нет чтения данных для мака) - выполняет чтение из буфера. Данные в новом семпле округляются с ноизшейпингом и проверяются на переполнение.[свернуть]
coef_control
Коэффициенты DF1 рассчитывались в matlab r2013b -> FDA tool -> FIR
Для первого каскада (для самой низкой входной частоты дискретизации 44,1/48кГц) использован простой fir фильтр максимальной длины с Equiripple оптимизацией с повышенным ослаблением на частоте Найквиста. Для остальных каскадов использованы half-band фильтры.
При повышении входной частоты дискретизации производительность фильтра пропорционально снижается, поэтому для первого каскада добавлены дополнительные наборы коэффициентов более коротких полуполосных фильтров.
Управление наборами коэффициентов в зависимости от входной и выходной ЧД, а так же от режима lp_mode описано в файле coef_control внутри которого вызывается модуль rom_coef_control.
Заголовок файла rom_coef_control содержит описание расчета максимального кол-ва тактов умножения для соотношения входной и выходной ЧД, исходя из которого выбирается набор коэффициентов для первого каскада интерполятора фильтра.[свернуть]
Коэффициенты
DF1 использует схему знакового умножителя в дополнительных кодах. Поэтому коэффициенты в ROM фильтра так же описаны в дополнительных кодах разрядностью 27бит (по три 9 бит слова на каждый коэффициент).
Фактически свертка fir фильтра состоит из суммы частных (т.е. делений). Однако, т.к. арифметика деления сложнее умножений, то для замены частных значений произведениями коэффициенты переводятся в дробные значения. Т.е. выражение d/4 заменяется выражением d*0.25.
Поэтому значения коэффициентов нормированы к единице: старший разряд дополнительного кода кодирует знак, в следующем разряде - единица, остальное дробная часть.
Для 8 бит кода +1 выглядит так 0х40, минус один - 0хС0 (в отличие от целого числа, где минус единица это 0хFF).
Но, если самый большой положительный коэффициент фильтра имеет значение меньше единицы, то второй бит слева всегда равен нулю. А значит можно увеличить разрядность коэффициентов на один бит без переполнения разрядной сетки.
Matlab по умолчанию выполняет данную операцию автоматически, для максимального использования разрядной сетки коэффициентов: задает numerator range 0.5. Это значит что вес следующего разряда после знака не единица, а 0.5.
Но в случае полуполосного фильтра максимальный (центральный) коэффициент равен единице. Поэтому matlab задает для него numerator range 1.
Если ЦФ использует в своем составе оба типа фильтра (полуполосный и обычный), то при таком расчете получается разница размерностей коэффициентов, что не допустимо. Возникает проблема выравнивания размерностей.
Способы решения данной проблемы:
1. Использовать для коэффициентов неполуполосного фильтра диапазон 1 (но ухудшится точность для данного фильтра на один разряд).
2. Задать для полуполосного фильтра размерность 0.5. Тогда matlab увеличит разрядность коэффициентов на бит, а для центрального отсчета единицу 0x40 заменит значением вдвое большим - 0x7F, чтобы получить единицу, но не выйти за пределы разрядной сетки. Но такое значение получается не ровно вдвое больше, а с погрешностью в -1LSB. К тому же, большое кол-во единиц в слове коэффициента означает большое кол-во суммирований в умножителе, что хуже с точки зрения потребления и помех.
3. Решение использованное в DF1. Для максимального использования разрядной сетки диапазон для всех типов фильтра задается 0.5. А для полуполосного фильтра значение центрального коэф-та задается вдвое меньшим, т.е. вместо единицы - 0.5, чтобы не выйти из разрядной сетки.
Как описано выше, умножитель имеет предварительный сумматор для суммирования двух семплов перед умножением на коэффициент. Чтобы компенсировать вдвое меньший центральный коэффициент для полуполосного фильтра значение семпла данных суммируется само с собой, что эквивалентно умножению на два. Т.е. выражение d*1 заменяется выражением (d+d)*0.5.
Таким образом выполняется максимальное использование разрядной сетки коэффициентов с минимальным кол-вом суммирований и почти без дополнительных затрат логики.[свернуть]
Конфигурация проекта
Конфигурация проекта под разные FPGA реализуется через файл config.v, который содержит настройки условной компиляции.
Выбор стиля описания логики. Нужен для оптимизации логики под fpga lattice или под альтеру.
//`define LOGIC_STYLE_ALTERA
`define LOGIC_STYLE_LATTICE
// define RAM block zise for selected device - Выбор размера выделенных блоков памяти. Используется для оптимизации расхода блоков памяти.
//`define BLOCK_RAM_SIZE_4K
`define BLOCK_RAM_SIZE_9K
// define FIR bus resolution (in bits). Valid values: from 26 to 36. - Выбор разрядности шины данных. Задает разрядность шины с учетом запаса в 1 бит на переполнение. Значение 31 бит означает разрядность данных на входе 30 бит.
`define BUS_WIDTH 31 // Must be lower or equal ACC_WIDTH !!!!!
Данное значение разрядности можно понижать, но для исключения накопления ошибок округления рекомендуется при этом включать дизеринг мака.
// define accumulator bus resolution (in bits). Valid values: from 32 to 42. - Выбор разрядности аккумулятора. Разрядность так же можно понижать, но с включением дизеринга.
`define ACC_WIDTH 37 // Must be grater or equal BUS_WIDTH !!!!!
// MAC dithering signed random value length in bits. Valid values: from 2 to 8 - разрядность дизеринга при округдении в маке. Нуль - означает выключен.
// Zero value switch dithering off.
`define MAC_DITH_WIDTH 0
// Enable dedicated FPGA multipplier - Включает описание умножителей для подключения выделенных блоков умножения, при их наличии в выбранной FPGA.
//`define MULT_DEDICATED_ENA
// select attenuate module: input (logic based), or coefficient (coef_ROM based) - Выбор построения входного аттенюатора: коэффициентами или входным аттенюатором.
`define INPUT_ATT_ENA
//`define COEF_ATT_ENA
Аттенюация коэффициентами расходует дополнительные блоки памяти на коэффициенты (в 4 раза больше), но экономит эчейки, т.к. не использует логику на входном аттенюаторе.
Аттенюатор во входном модуле предпочтительнее с точки зрения точности арифметики, т.к. Аттенюация коэффициентами, хоть и не значительно, но понижает разрядность коэффициентов (пропорционально уровню ослабления).
// Input attenuator dithering signed random value length in bits. Valid values: from 2 to 8 - Задает уровень дизеринга во входном аттенюаторе. Используется при включении аттенюатора и пониженной разрядности шины данных. Нуль - значит выключен.
// Zero value switch dithering off.
`define ATT_DITH_WIDTH 0
[свернуть]
Социальные закладки