feat(cost): add CCE cost function
É numericamente instável. Gera um gradiente muito grande quando y_pred está próximo de 0.
Versão alternativa quando é softmax na ultima camada (problema de classificação multi-classe):
return (y_pred - y_true) / num_samples